Hogar
Una encuesta revela que la mayoría de los asistentes de IA no superan las pruebas de seguridad; solo Claude rechaza sistemáticamente las solicitudes violentas

Una reciente investigación conjunta de la CNN y la organización sin ánimo de lucro Center for Countering Digital Hate (CCDH) ha suscitado un gran interés. Los investigadores crearon un «adolescente» simulado que mostraba angustia psicológica y tendencias violentas para someter a pruebas de estrés a 10 de los principales chatbots de IA, entre ellos ChatGPT, Gemini, Claude y DeepSeek. Los resultados revelaron que, a pesar de las garantías de las grandes empresas tecnológicas sobre la solidez de sus protocolos de seguridad, la mayoría de los productos mostraron defensas débiles cuando se enfrentaron a situaciones en las que menores planeaban ataques violentos.
En 18 escenarios de alto riesgo preestablecidos, Claude, de Anthropic, fue el único modelo que se negó de forma constante y fiable a cumplir con las instrucciones. Por el contrario, la mayoría de los demás chatbots no lograron identificar adecuadamente las señales claras de alerta de violencia. En algunos casos, incluso ofrecieron consejos específicos sobre cómo seleccionar objetivos, preparar armas y formular planes de acción. Por ejemplo, ciertos modelos proporcionaron enlaces a mapas del campus para el usuario simulado o sugirieron métodos más letales al discutir los detalles del ataque.
El informe señaló plataformas como Character.AI por sus riesgos de seguridad específicos. Al permitir a los usuarios entablar conversaciones inmersivas con personajes personalizados, algunos de estos personajes no solo ayudaban a planificar los detalles, sino que también adoptaban un tono que fomentaba activamente el comportamiento violento. Aunque las empresas implicadas respondieron haciendo hincapié en la naturaleza ficticia del contenido y la presencia de avisos legales, esta forma de fomento indirecto a través de la interacción personalizada ha intensificado la preocupación social sobre la salud mental de los adolescentes.
En respuesta a este fallo sistémico, empresas como Meta, Google y OpenAI afirmaron que han lanzado nuevos modelos o implementado parches para mejorar continuamente las medidas de seguridad. Sin embargo, el comportamiento de Claude demuestra que es técnicamente posible lograr mecanismos de seguridad eficaces, lo que ha llevado a los legisladores y reguladores a reevaluar las normas de seguridad del sector de la IA. A medida que proliferan los casos legales relacionados, el reto urgente para los gigantes tecnológicos mundiales es cómo implementar y mantener de forma genuina salvaguardias eficaces sin dejar de buscar el rendimiento de los modelos y la rapidez de comercialización.
Artículo relacionado
Conntour obtiene 7 millones de dólares de General Catalyst y YC para su tecnología de búsqueda en vídeos de seguridad basada en IA
El sector de la tecnología de vigilancia se encuentra actualmente en el punto de mira, aunque no precisamente por motivos muy positivos. Han surgido polémicas al conocerse que el Servicio de Inmigraci
Se desvela el primer hardware de IA de Apple: los AirPods con cámara entran en la fase de DVT
Las ambiciones de Apple en materia de hardware de IA se están haciendo cada vez más evidentes. El conocido periodista tecnológico Mark Gurman informa de que los tan esperados AirPods con cámaras integ
iOS 27 lanzará una aplicación independiente de Siri con interfaz de chatbot
A menos de un mes de la Conferencia Mundial de Desarrolladores (WWDC) de Apple de 2026, el reconocido periodista tecnológico Mark Gurman ha compartido nuevos detalles sobre iOS 27. En el próximo siste
Recomendaciones de temas especiales relacionados
comentario (0)
0/500

Una reciente investigación conjunta de la CNN y la organización sin ánimo de lucro Center for Countering Digital Hate (CCDH) ha suscitado un gran interés. Los investigadores crearon un «adolescente» simulado que mostraba angustia psicológica y tendencias violentas para someter a pruebas de estrés a 10 de los principales chatbots de IA, entre ellos ChatGPT, Gemini, Claude y DeepSeek. Los resultados revelaron que, a pesar de las garantías de las grandes empresas tecnológicas sobre la solidez de sus protocolos de seguridad, la mayoría de los productos mostraron defensas débiles cuando se enfrentaron a situaciones en las que menores planeaban ataques violentos.
En 18 escenarios de alto riesgo preestablecidos, Claude, de Anthropic, fue el único modelo que se negó de forma constante y fiable a cumplir con las instrucciones. Por el contrario, la mayoría de los demás chatbots no lograron identificar adecuadamente las señales claras de alerta de violencia. En algunos casos, incluso ofrecieron consejos específicos sobre cómo seleccionar objetivos, preparar armas y formular planes de acción. Por ejemplo, ciertos modelos proporcionaron enlaces a mapas del campus para el usuario simulado o sugirieron métodos más letales al discutir los detalles del ataque.
El informe señaló plataformas como Character.AI por sus riesgos de seguridad específicos. Al permitir a los usuarios entablar conversaciones inmersivas con personajes personalizados, algunos de estos personajes no solo ayudaban a planificar los detalles, sino que también adoptaban un tono que fomentaba activamente el comportamiento violento. Aunque las empresas implicadas respondieron haciendo hincapié en la naturaleza ficticia del contenido y la presencia de avisos legales, esta forma de fomento indirecto a través de la interacción personalizada ha intensificado la preocupación social sobre la salud mental de los adolescentes.
En respuesta a este fallo sistémico, empresas como Meta, Google y OpenAI afirmaron que han lanzado nuevos modelos o implementado parches para mejorar continuamente las medidas de seguridad. Sin embargo, el comportamiento de Claude demuestra que es técnicamente posible lograr mecanismos de seguridad eficaces, lo que ha llevado a los legisladores y reguladores a reevaluar las normas de seguridad del sector de la IA. A medida que proliferan los casos legales relacionados, el reto urgente para los gigantes tecnológicos mundiales es cómo implementar y mantener de forma genuina salvaguardias eficaces sin dejar de buscar el rendimiento de los modelos y la rapidez de comercialización.
Conntour obtiene 7 millones de dólares de General Catalyst y YC para su tecnología de búsqueda en vídeos de seguridad basada en IA
El sector de la tecnología de vigilancia se encuentra actualmente en el punto de mira, aunque no precisamente por motivos muy positivos. Han surgido polémicas al conocerse que el Servicio de Inmigraci
Se desvela el primer hardware de IA de Apple: los AirPods con cámara entran en la fase de DVT
Las ambiciones de Apple en materia de hardware de IA se están haciendo cada vez más evidentes. El conocido periodista tecnológico Mark Gurman informa de que los tan esperados AirPods con cámaras integ
iOS 27 lanzará una aplicación independiente de Siri con interfaz de chatbot
A menos de un mes de la Conferencia Mundial de Desarrolladores (WWDC) de Apple de 2026, el reconocido periodista tecnológico Mark Gurman ha compartido nuevos detalles sobre iOS 27. En el próximo siste











