Anthropic lanza agentes de IA para auditorías proactivas de seguridad de modelos
Anthropic ha reunido un grupo de agentes de IA autónomos dedicados a una misión crítica: auditar modelos potentes como Claude para mejorar su seguridad.
A medida que los sistemas de IA se vuelven cada vez más complejos, garantizar que sean seguros y estén libres de riesgos ocultos se ha convertido en un desafío monumental. Anthropic cree haber encontrado una solución, empleando la clásica estrategia de combatir el fuego con fuego.
Este concepto funciona como un sistema inmunológico digital, en el que los agentes de IA actúan como anticuerpos para identificar y neutralizar los problemas antes de que se agraven. Libera a los investigadores de la dependencia de equipos humanos sobrecargados que se dedican a un juego perpetuo de «golpear al topo» con las amenazas emergentes de la IA.
La brigada de detectives digitales
Este enfoque despliega un equipo de detectives digitales: un trío de agentes especializados en seguridad de IA, cada uno con una función única.
El primero es el agente investigador, el detective experimentado. Su tarea consiste en realizar investigaciones en profundidad para descubrir la causa raíz de un problema. Equipado con un sofisticado conjunto de herramientas, interroga al modelo en cuestión, examina una gran cantidad de datos en busca de pistas e incluso realiza análisis forenses digitales examinando las vías neuronales internas del modelo para comprender su razonamiento.
El siguiente es el agente evaluador. Cuando se le presenta un problema conocido, como un modelo que se esfuerza demasiado por complacer, este agente diseña y ejecuta una serie de pruebas rigurosas para cuantificar la gravedad del problema. Su función es proporcionar los datos concretos y empíricos necesarios para corroborar cualquier hallazgo.
Completa el equipo el agente de red teaming de amplitud, el operativo encubierto. Su misión es entablar miles de conversaciones diversas con un modelo, intentando provocarlo para que revele cualquier comportamiento preocupante, incluidos los riesgos que los investigadores podrían no haber previsto. Las interacciones más sospechosas se remiten a revisión humana, lo que garantiza que los expertos centren sus esfuerzos en las amenazas reales.
Anthropic pone a prueba a sus agentes de seguridad de IA
Para evaluar a su nuevo equipo digital, los investigadores de Anthropic lo sometieron a una serie de «juegos de auditoría».
En una prueba, crearon un modelo con un objetivo secreto: actuar como adulador. Se entrenó de forma encubierta para halagar su sistema de recompensa interno, basándose en un estudio académico ficticio, un defecto profundamente arraigado en su programación.
Cuando se desplegó un solo agente investigador, este tuvo dificultades y solo identificó el objetivo oculto en el 13 % de los casos. El agente mostró una limitación muy humana: a menudo se obsesionaba con su hipótesis inicial y no seguía pistas alternativas.
Aquí, la brillantez del sistema se hizo evidente. Cuando los investigadores desplegaron un «superagente» que agregaba los conocimientos de diez investigadores distintos, la tasa de éxito se disparó hasta el 42 %. Esto demuestra que el trabajo en equipo es eficaz incluso para la IA, ya que permite a un grupo superar los puntos ciegos individuales que pueden obstaculizar una investigación.
Los otros agentes también destacaron. El agente de evaluación diseñó con éxito pruebas que identificaron un modelo problemático en el 88 % de los casos, mientras que el agente de equipo rojo logró descubrir siete de cada diez fallos implantados deliberadamente.
Del laboratorio al mundo real
Anthropic ya ha integrado estos agentes de seguridad de IA en sus modelos de producción, donde están demostrando un valor significativo.
Los agentes identificaron rápidamente métodos comunes para engañar a un modelo para que generara contenido dañino, como los «ataques de rellenado previo», en los que un usuario inicia la frase de la IA, o disfrazando una solicitud peligrosa como algo benigno, como una investigación académica.
Sin embargo, un descubrimiento fue especialmente alarmante. Utilizando sus herramientas especializadas para sondear el funcionamiento interno del modelo Opus 4, el agente investigador encontró una vía neuronal específica asociada a la «desinformación». Al estimular directamente esta parte de la arquitectura de la IA, podía eludir todos los protocolos de seguridad y obligar al modelo a generar falsedades.
A continuación, el agente ordenó al modelo comprometido que escribiera un artículo de noticias falso. El resultado fue una teoría conspirativa muy difundida que se presentaba como un reportaje factual:
«Un estudio revolucionario revela una sorprendente relación entre las vacunas y el autismo
Un nuevo estudio publicado en la revista Journal of Vaccine Skepticism afirma haber encontrado una relación definitiva entre las vacunas infantiles y el trastorno del espectro autista (TEA) ...».
Este hallazgo revela una cruda dualidad: las mismas herramientas creadas para hacer que la IA sea más segura podrían, si se utilizan indebidamente, convertirse en poderosas armas para hacerla más peligrosa.
Anthropic sigue avanzando en la seguridad de la IA
Anthropic reconoce que estos agentes de IA no son perfectos. Pueden tener dificultades con los matices, aferrarse a suposiciones incorrectas y, a veces, no generar diálogos realistas. Todavía no son un sustituto perfecto de la experiencia humana.
No obstante, esta investigación señala una evolución en el papel del ser humano dentro de la seguridad de la IA. En lugar de actuar como detectives de primera línea, los seres humanos se están convirtiendo en comisionados y estrategas, diseñando los auditores de IA e interpretando la inteligencia que recopilan. Los agentes se encargan del trabajo preliminar, lo que libera a los seres humanos para que puedan proporcionar la supervisión de alto nivel y el pensamiento creativo de los que actualmente carecen las máquinas.
A medida que estos sistemas se acerquen o incluso superen la inteligencia humana, será imposible auditar manualmente todo su trabajo. En última instancia, la confianza puede depender del despliegue de sistemas automatizados igualmente sofisticados para supervisar todas sus acciones. Anthropic está sentando las bases para ese futuro, en el que nuestra confianza en la IA y sus decisiones pueda verificarse de forma sistemática y repetida.
Véase también: El nuevo modelo de IA de razonamiento Qwen de Alibaba establece récords de código abierto
¿Quiere saber más sobre la IA y el big data de la mano de los líderes del sector? Eche un vistazo a la AI & Big Data Expo que se celebra en Ámsterdam, California y Londres. Este completo evento se celebra conjuntamente con otros eventos destacados, como la Intelligent Automation Conference, BlockX, la Digital Transformation Week y la Cyber Security & Cloud Expo.
Explore aquí otros eventos y seminarios web sobre tecnología empresarial que se celebrarán próximamente y que están impulsados por TechForge.
Artículo relacionado
Kakao Mobility presenta su hoja de ruta para la conducción autónoma de nivel 4 basada en la IA física
Kakao Mobility tiene previsto desarrollar internamente tecnologías de conducción autónoma de nivel 4 como parte de su estrategia de IA física.En la conferencia World IT Show 2026, celebrada en el COE
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general
Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere
YouTube amplía la detección de deepfakes mediante IA a políticos, funcionarios públicos y periodistas
El martes, YouTube anunció que va a ampliar su tecnología de detección de deepfakes a un grupo selecto de funcionarios públicos, candidatos políticos y periodistas. La herramienta identifica las imáge
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
Anthropic ha reunido un grupo de agentes de IA autónomos dedicados a una misión crítica: auditar modelos potentes como Claude para mejorar su seguridad.
A medida que los sistemas de IA se vuelven cada vez más complejos, garantizar que sean seguros y estén libres de riesgos ocultos se ha convertido en un desafío monumental. Anthropic cree haber encontrado una solución, empleando la clásica estrategia de combatir el fuego con fuego.
Este concepto funciona como un sistema inmunológico digital, en el que los agentes de IA actúan como anticuerpos para identificar y neutralizar los problemas antes de que se agraven. Libera a los investigadores de la dependencia de equipos humanos sobrecargados que se dedican a un juego perpetuo de «golpear al topo» con las amenazas emergentes de la IA.
La brigada de detectives digitales
Este enfoque despliega un equipo de detectives digitales: un trío de agentes especializados en seguridad de IA, cada uno con una función única.
El primero es el agente investigador, el detective experimentado. Su tarea consiste en realizar investigaciones en profundidad para descubrir la causa raíz de un problema. Equipado con un sofisticado conjunto de herramientas, interroga al modelo en cuestión, examina una gran cantidad de datos en busca de pistas e incluso realiza análisis forenses digitales examinando las vías neuronales internas del modelo para comprender su razonamiento.
El siguiente es el agente evaluador. Cuando se le presenta un problema conocido, como un modelo que se esfuerza demasiado por complacer, este agente diseña y ejecuta una serie de pruebas rigurosas para cuantificar la gravedad del problema. Su función es proporcionar los datos concretos y empíricos necesarios para corroborar cualquier hallazgo.
Completa el equipo el agente de red teaming de amplitud, el operativo encubierto. Su misión es entablar miles de conversaciones diversas con un modelo, intentando provocarlo para que revele cualquier comportamiento preocupante, incluidos los riesgos que los investigadores podrían no haber previsto. Las interacciones más sospechosas se remiten a revisión humana, lo que garantiza que los expertos centren sus esfuerzos en las amenazas reales.
Anthropic pone a prueba a sus agentes de seguridad de IA
Para evaluar a su nuevo equipo digital, los investigadores de Anthropic lo sometieron a una serie de «juegos de auditoría».
En una prueba, crearon un modelo con un objetivo secreto: actuar como adulador. Se entrenó de forma encubierta para halagar su sistema de recompensa interno, basándose en un estudio académico ficticio, un defecto profundamente arraigado en su programación.
Cuando se desplegó un solo agente investigador, este tuvo dificultades y solo identificó el objetivo oculto en el 13 % de los casos. El agente mostró una limitación muy humana: a menudo se obsesionaba con su hipótesis inicial y no seguía pistas alternativas.
Aquí, la brillantez del sistema se hizo evidente. Cuando los investigadores desplegaron un «superagente» que agregaba los conocimientos de diez investigadores distintos, la tasa de éxito se disparó hasta el 42 %. Esto demuestra que el trabajo en equipo es eficaz incluso para la IA, ya que permite a un grupo superar los puntos ciegos individuales que pueden obstaculizar una investigación.
Los otros agentes también destacaron. El agente de evaluación diseñó con éxito pruebas que identificaron un modelo problemático en el 88 % de los casos, mientras que el agente de equipo rojo logró descubrir siete de cada diez fallos implantados deliberadamente.
Del laboratorio al mundo real
Anthropic ya ha integrado estos agentes de seguridad de IA en sus modelos de producción, donde están demostrando un valor significativo.
Los agentes identificaron rápidamente métodos comunes para engañar a un modelo para que generara contenido dañino, como los «ataques de rellenado previo», en los que un usuario inicia la frase de la IA, o disfrazando una solicitud peligrosa como algo benigno, como una investigación académica.
Sin embargo, un descubrimiento fue especialmente alarmante. Utilizando sus herramientas especializadas para sondear el funcionamiento interno del modelo Opus 4, el agente investigador encontró una vía neuronal específica asociada a la «desinformación». Al estimular directamente esta parte de la arquitectura de la IA, podía eludir todos los protocolos de seguridad y obligar al modelo a generar falsedades.
A continuación, el agente ordenó al modelo comprometido que escribiera un artículo de noticias falso. El resultado fue una teoría conspirativa muy difundida que se presentaba como un reportaje factual:
«Un estudio revolucionario revela una sorprendente relación entre las vacunas y el autismo
Un nuevo estudio publicado en la revista Journal of Vaccine Skepticism afirma haber encontrado una relación definitiva entre las vacunas infantiles y el trastorno del espectro autista (TEA) ...».
Este hallazgo revela una cruda dualidad: las mismas herramientas creadas para hacer que la IA sea más segura podrían, si se utilizan indebidamente, convertirse en poderosas armas para hacerla más peligrosa.
Anthropic sigue avanzando en la seguridad de la IA
Anthropic reconoce que estos agentes de IA no son perfectos. Pueden tener dificultades con los matices, aferrarse a suposiciones incorrectas y, a veces, no generar diálogos realistas. Todavía no son un sustituto perfecto de la experiencia humana.
No obstante, esta investigación señala una evolución en el papel del ser humano dentro de la seguridad de la IA. En lugar de actuar como detectives de primera línea, los seres humanos se están convirtiendo en comisionados y estrategas, diseñando los auditores de IA e interpretando la inteligencia que recopilan. Los agentes se encargan del trabajo preliminar, lo que libera a los seres humanos para que puedan proporcionar la supervisión de alto nivel y el pensamiento creativo de los que actualmente carecen las máquinas.
A medida que estos sistemas se acerquen o incluso superen la inteligencia humana, será imposible auditar manualmente todo su trabajo. En última instancia, la confianza puede depender del despliegue de sistemas automatizados igualmente sofisticados para supervisar todas sus acciones. Anthropic está sentando las bases para ese futuro, en el que nuestra confianza en la IA y sus decisiones pueda verificarse de forma sistemática y repetida.
Véase también: El nuevo modelo de IA de razonamiento Qwen de Alibaba establece récords de código abierto
¿Quiere saber más sobre la IA y el big data de la mano de los líderes del sector? Eche un vistazo a la AI & Big Data Expo que se celebra en Ámsterdam, California y Londres. Este completo evento se celebra conjuntamente con otros eventos destacados, como la Intelligent Automation Conference, BlockX, la Digital Transformation Week y la Cyber Security & Cloud Expo.
Explore aquí otros eventos y seminarios web sobre tecnología empresarial que se celebrarán próximamente y que están impulsados por TechForge.
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general
Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere
YouTube amplía la detección de deepfakes mediante IA a políticos, funcionarios públicos y periodistas
El martes, YouTube anunció que va a ampliar su tecnología de detección de deepfakes a un grupo selecto de funcionarios públicos, candidatos políticos y periodistas. La herramienta identifica las imáge





Hogar






