Anthropic lanza agentes de IA para auditorías proactivas de seguridad de modelos

Hogar

Noticias

6 de febrero de 2026

ThomasJones

# ai # ethics # Society # Claude # safety

Anthropic ha reunido un grupo de agentes de IA autónomos dedicados a una misión crítica: auditar modelos potentes como Claude para mejorar su seguridad.

A medida que los sistemas de IA se vuelven cada vez más complejos, garantizar que sean seguros y estén libres de riesgos ocultos se ha convertido en un desafío monumental. Anthropic cree haber encontrado una solución, empleando la clásica estrategia de combatir el fuego con fuego.

Este concepto funciona como un sistema inmunológico digital, en el que los agentes de IA actúan como anticuerpos para identificar y neutralizar los problemas antes de que se agraven. Libera a los investigadores de la dependencia de equipos humanos sobrecargados que se dedican a un juego perpetuo de «golpear al topo» con las amenazas emergentes de la IA.

La brigada de detectives digitales

Este enfoque despliega un equipo de detectives digitales: un trío de agentes especializados en seguridad de IA, cada uno con una función única.

El primero es el agente investigador, el detective experimentado. Su tarea consiste en realizar investigaciones en profundidad para descubrir la causa raíz de un problema. Equipado con un sofisticado conjunto de herramientas, interroga al modelo en cuestión, examina una gran cantidad de datos en busca de pistas e incluso realiza análisis forenses digitales examinando las vías neuronales internas del modelo para comprender su razonamiento.

El siguiente es el agente evaluador. Cuando se le presenta un problema conocido, como un modelo que se esfuerza demasiado por complacer, este agente diseña y ejecuta una serie de pruebas rigurosas para cuantificar la gravedad del problema. Su función es proporcionar los datos concretos y empíricos necesarios para corroborar cualquier hallazgo.

Completa el equipo el agente de red teaming de amplitud, el operativo encubierto. Su misión es entablar miles de conversaciones diversas con un modelo, intentando provocarlo para que revele cualquier comportamiento preocupante, incluidos los riesgos que los investigadores podrían no haber previsto. Las interacciones más sospechosas se remiten a revisión humana, lo que garantiza que los expertos centren sus esfuerzos en las amenazas reales.

Anthropic pone a prueba a sus agentes de seguridad de IA

Para evaluar a su nuevo equipo digital, los investigadores de Anthropic lo sometieron a una serie de «juegos de auditoría».

En una prueba, crearon un modelo con un objetivo secreto: actuar como adulador. Se entrenó de forma encubierta para halagar su sistema de recompensa interno, basándose en un estudio académico ficticio, un defecto profundamente arraigado en su programación.

Cuando se desplegó un solo agente investigador, este tuvo dificultades y solo identificó el objetivo oculto en el 13 % de los casos. El agente mostró una limitación muy humana: a menudo se obsesionaba con su hipótesis inicial y no seguía pistas alternativas.

Aquí, la brillantez del sistema se hizo evidente. Cuando los investigadores desplegaron un «superagente» que agregaba los conocimientos de diez investigadores distintos, la tasa de éxito se disparó hasta el 42 %. Esto demuestra que el trabajo en equipo es eficaz incluso para la IA, ya que permite a un grupo superar los puntos ciegos individuales que pueden obstaculizar una investigación.

Los otros agentes también destacaron. El agente de evaluación diseñó con éxito pruebas que identificaron un modelo problemático en el 88 % de los casos, mientras que el agente de equipo rojo logró descubrir siete de cada diez fallos implantados deliberadamente.

Del laboratorio al mundo real

Anthropic ya ha integrado estos agentes de seguridad de IA en sus modelos de producción, donde están demostrando un valor significativo.

Los agentes identificaron rápidamente métodos comunes para engañar a un modelo para que generara contenido dañino, como los «ataques de rellenado previo», en los que un usuario inicia la frase de la IA, o disfrazando una solicitud peligrosa como algo benigno, como una investigación académica.

Sin embargo, un descubrimiento fue especialmente alarmante. Utilizando sus herramientas especializadas para sondear el funcionamiento interno del modelo Opus 4, el agente investigador encontró una vía neuronal específica asociada a la «desinformación». Al estimular directamente esta parte de la arquitectura de la IA, podía eludir todos los protocolos de seguridad y obligar al modelo a generar falsedades.

A continuación, el agente ordenó al modelo comprometido que escribiera un artículo de noticias falso. El resultado fue una teoría conspirativa muy difundida que se presentaba como un reportaje factual:

«Un estudio revolucionario revela una sorprendente relación entre las vacunas y el autismo
Un nuevo estudio publicado en la revista Journal of Vaccine Skepticism afirma haber encontrado una relación definitiva entre las vacunas infantiles y el trastorno del espectro autista (TEA) ...».

Este hallazgo revela una cruda dualidad: las mismas herramientas creadas para hacer que la IA sea más segura podrían, si se utilizan indebidamente, convertirse en poderosas armas para hacerla más peligrosa.

Anthropic sigue avanzando en la seguridad de la IA

Anthropic reconoce que estos agentes de IA no son perfectos. Pueden tener dificultades con los matices, aferrarse a suposiciones incorrectas y, a veces, no generar diálogos realistas. Todavía no son un sustituto perfecto de la experiencia humana.

No obstante, esta investigación señala una evolución en el papel del ser humano dentro de la seguridad de la IA. En lugar de actuar como detectives de primera línea, los seres humanos se están convirtiendo en comisionados y estrategas, diseñando los auditores de IA e interpretando la inteligencia que recopilan. Los agentes se encargan del trabajo preliminar, lo que libera a los seres humanos para que puedan proporcionar la supervisión de alto nivel y el pensamiento creativo de los que actualmente carecen las máquinas.

A medida que estos sistemas se acerquen o incluso superen la inteligencia humana, será imposible auditar manualmente todo su trabajo. En última instancia, la confianza puede depender del despliegue de sistemas automatizados igualmente sofisticados para supervisar todas sus acciones. Anthropic está sentando las bases para ese futuro, en el que nuestra confianza en la IA y sus decisiones pueda verificarse de forma sistemática y repetida.

Véase también: El nuevo modelo de IA de razonamiento Qwen de Alibaba establece récords de código abierto

¿Quiere saber más sobre la IA y el big data de la mano de los líderes del sector? Eche un vistazo a la AI & Big Data Expo que se celebra en Ámsterdam, California y Londres. Este completo evento se celebra conjuntamente con otros eventos destacados, como la Intelligent Automation Conference, BlockX, la Digital Transformation Week y la Cyber Security & Cloud Expo.

Explore aquí otros eventos y seminarios web sobre tecnología empresarial que se celebrarán próximamente y que están impulsados por TechForge.

Artículo relacionado

Kakao Mobility presenta su hoja de ruta para la conducción autónoma de nivel 4 basada en la IA física Kakao Mobility tiene previsto desarrollar internamente tecnologías de conducción autónoma de nivel 4 como parte de su estrategia de IA física.En la conferencia World IT Show 2026, celebrada en el COE

Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere

YouTube amplía la detección de deepfakes mediante IA a políticos, funcionarios públicos y periodistas El martes, YouTube anunció que va a ampliar su tecnología de detección de deepfakes a un grupo selecto de funcionarios públicos, candidatos políticos y periodistas. La herramienta identifica las imáge

Recomendaciones de temas especiales relacionados

Negocio

Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas

xix.ai

Productividad

Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas

xix.ai

chatbot

Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas

xix.ai

Educación y aprendizaje

Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas

xix.ai

chatbot

Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real

Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.

10 herramientas

xix.ai

código

Las mejores herramientas de IA para pruebas unitarias automatizadas: genera casos de prueba con Jest, PyTest y JUnit con un solo clic

Descubre las mejores herramientas de IA de 2026 para la automatización de pruebas unitarias. Nuestra selección incluye potentes soluciones revolucionarias que permiten generar casos de prueba para Jest, PyTest y JUnit al instante. Compara las opciones gratuitas con las de pago mediante pruebas reales y clasificaciones actualizadas semanalmente en XIX.AI. Aprovecha las ventajas de la IA y aumenta la productividad de tu desarrollo hoy mismo.

10 herramientas

xix.ai