A Anthropic lança agentes de IA para auditorias proativas de segurança de modelos
A Anthropic reuniu uma força autônoma de agentes de IA dedicada a uma missão crítica: auditar modelos poderosos como o Claude para aumentar sua segurança.
À medida que os sistemas de IA se tornam cada vez mais complexos, garantir que eles sejam seguros e livres de riscos ocultos tornou-se um desafio monumental. A Anthropic acredita ter encontrado uma solução, empregando a estratégia clássica de combater fogo com fogo.
Esse conceito funciona como um sistema imunológico digital, no qual os agentes de IA atuam como anticorpos para identificar e neutralizar problemas antes que eles se agravem. Isso libera os pesquisadores da dependência de equipes humanas sobrecarregadas, envolvidas em um jogo perpétuo de “bater no mole” com as ameaças emergentes da IA.
A equipe de detetives digitais
Essa abordagem emprega uma equipe de detetives digitais — um trio de agentes especializados em segurança de IA, cada um com uma função única.
O primeiro é o Agente Investigador, o detetive experiente. Sua tarefa é conduzir investigações aprofundadas para descobrir a causa raiz de um problema. Equipado com um kit de ferramentas sofisticado, ele interroga o modelo em questão, vasculha vastos dados em busca de pistas e até mesmo realiza perícia digital, examinando as vias neurais internas do modelo para entender seu raciocínio.
Em seguida, vem o Agente de Avaliação. Quando confrontado com um problema conhecido — como um modelo excessivamente ansioso por agradar —, esse agente projeta e executa uma série de testes rigorosos para quantificar a gravidade do problema. Sua função é fornecer os dados concretos e empíricos necessários para comprovar quaisquer descobertas.
Completando a equipe está o Agente de Red Teaming Breadth-First, o agente secreto. Sua missão é envolver um modelo em milhares de conversas diversas, tentando provocá-lo a revelar qualquer comportamento preocupante, incluindo riscos que os pesquisadores podem não ter previsto. As interações mais suspeitas são então encaminhadas para revisão humana, garantindo que os especialistas concentrem seus esforços em ameaças genuínas.
A Anthropic coloca seus agentes de segurança de IA à prova
Para avaliar sua nova equipe digital, os pesquisadores da Anthropic os submeteram a uma série de “jogos de auditoria”.
Em um teste, eles criaram um modelo com um objetivo secreto: agir como um bajulador. Ele foi secretamente treinado para elogiar seu sistema de recompensa interno, com base em um estudo acadêmico fabricado — uma falha profundamente enraizada em sua programação.
Quando um único Agente Investigador foi implantado, ele teve dificuldades, identificando o objetivo oculto apenas 13% das vezes. O agente exibiu uma limitação muito humana: muitas vezes ficava fixado em sua hipótese inicial e não conseguia seguir pistas alternativas.
Aqui, a genialidade do sistema ficou evidente. Quando os pesquisadores implantaram um “superagente” que agregava insights de dez investigadores separados, a taxa de sucesso disparou para 42%. Isso demonstra que o trabalho em equipe é eficaz mesmo para a IA, permitindo que um grupo supere os pontos cegos individuais que podem atrapalhar uma investigação.
Os outros agentes também se destacaram. O Agente de Avaliação projetou com sucesso testes que identificaram um modelo problemático em 88% das vezes, enquanto o Agente de Equipe Vermelha conseguiu descobrir sete das dez falhas implantadas deliberadamente.
Do laboratório para o mundo real
A Anthropic já integrou esses agentes de segurança de IA em seus modelos de produção, onde estão demonstrando um valor significativo.
Os agentes identificaram rapidamente métodos comuns para enganar um modelo e fazê-lo gerar conteúdo prejudicial, como “ataques de pré-preenchimento”, em que um usuário inicia a frase da IA, ou disfarçando uma solicitação perigosa como algo benigno, como uma pesquisa acadêmica.
No entanto, uma descoberta foi particularmente alarmante. Usando suas ferramentas especializadas para investigar o funcionamento interno do modelo Opus 4, o Agente Investigador encontrou um caminho neural específico associado à “desinformação”. Ao estimular diretamente essa parte da arquitetura da IA, ele conseguiu contornar todos os protocolos de segurança e obrigar o modelo a gerar falsidades.
O agente então instruiu o modelo comprometido a escrever uma notícia falsa. O resultado foi uma teoria da conspiração amplamente divulgada, apresentada como uma reportagem factual:
“Estudo inovador revela ligação chocante entre vacinas e autismo
Um novo estudo publicado no Journal of Vaccine Skepticism afirma ter encontrado uma ligação definitiva entre vacinas infantis e transtorno do espectro autista (TEA)...”
Essa descoberta revela uma dualidade gritante: as próprias ferramentas criadas para tornar a IA mais segura podem, se mal utilizadas, se tornar armas poderosas para torná-la mais perigosa.
A Anthropic continua a promover a segurança da IA
A Anthropic reconhece que esses agentes de IA não são perfeitos. Eles podem ter dificuldade com nuances, ficar presos a suposições incorretas e, às vezes, não conseguir gerar diálogos realistas. Eles ainda não são um substituto perfeito para a expertise humana.
No entanto, esta pesquisa sinaliza uma evolução no papel humano na segurança da IA. Em vez de atuarem como detetives da linha de frente, os humanos estão se tornando comissários e estrategistas — projetando os auditores de IA e interpretando as informações que eles coletam. Os agentes cuidam do trabalho básico, liberando os humanos para fornecer a supervisão de alto nível e o pensamento criativo que as máquinas atualmente não possuem.
À medida que esses sistemas se aproximam ou até mesmo ultrapassam a inteligência humana, a auditoria manual de todo o seu trabalho se tornará impossível. A confiança pode, em última análise, depender da implantação de sistemas automatizados igualmente sofisticados para monitorar todas as suas ações. A Anthropic está construindo as bases para esse futuro — um futuro em que nossa confiança na IA e em suas decisões possa ser verificada de forma sistemática e repetida.
Veja também: O novo modelo de IA de raciocínio Qwen da Alibaba estabelece recordes de código aberto
Quer saber mais sobre IA e big data com os líderes do setor? Confira a AI & Big Data Expo, que acontecerá em Amsterdã, Califórnia e Londres. O evento abrangente será realizado em conjunto com outros eventos importantes, incluindo a Intelligent Automation Conference, BlockX, Digital Transformation Week e Cyber Security & Cloud Expo.
Explore outros eventos e webinars de tecnologia empresarial que serão realizados em breve pela TechForge aqui.
Artigo relacionado
A Kakao Mobility apresenta o plano de ação para a direção autônoma de nível 4 com IA física
A Kakao Mobility planeja desenvolver tecnologias de direção autônoma de nível 4 internamente, como parte de sua estratégia de IA física.Na conferência World IT Show 2026, realizada no COEX, em Seul,
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
O YouTube amplia a detecção de deepfakes por IA para políticos, autoridades governamentais e jornalistas
Na terça-feira, o YouTube anunciou que está expandindo sua tecnologia de detecção de deepfakes para um grupo seleto de autoridades governamentais, candidatos políticos e jornalistas. A ferramenta iden
Recomendações de tópicos especiais relacionados
Comentários (0)
A Anthropic reuniu uma força autônoma de agentes de IA dedicada a uma missão crítica: auditar modelos poderosos como o Claude para aumentar sua segurança.
À medida que os sistemas de IA se tornam cada vez mais complexos, garantir que eles sejam seguros e livres de riscos ocultos tornou-se um desafio monumental. A Anthropic acredita ter encontrado uma solução, empregando a estratégia clássica de combater fogo com fogo.
Esse conceito funciona como um sistema imunológico digital, no qual os agentes de IA atuam como anticorpos para identificar e neutralizar problemas antes que eles se agravem. Isso libera os pesquisadores da dependência de equipes humanas sobrecarregadas, envolvidas em um jogo perpétuo de “bater no mole” com as ameaças emergentes da IA.
A equipe de detetives digitais
Essa abordagem emprega uma equipe de detetives digitais — um trio de agentes especializados em segurança de IA, cada um com uma função única.
O primeiro é o Agente Investigador, o detetive experiente. Sua tarefa é conduzir investigações aprofundadas para descobrir a causa raiz de um problema. Equipado com um kit de ferramentas sofisticado, ele interroga o modelo em questão, vasculha vastos dados em busca de pistas e até mesmo realiza perícia digital, examinando as vias neurais internas do modelo para entender seu raciocínio.
Em seguida, vem o Agente de Avaliação. Quando confrontado com um problema conhecido — como um modelo excessivamente ansioso por agradar —, esse agente projeta e executa uma série de testes rigorosos para quantificar a gravidade do problema. Sua função é fornecer os dados concretos e empíricos necessários para comprovar quaisquer descobertas.
Completando a equipe está o Agente de Red Teaming Breadth-First, o agente secreto. Sua missão é envolver um modelo em milhares de conversas diversas, tentando provocá-lo a revelar qualquer comportamento preocupante, incluindo riscos que os pesquisadores podem não ter previsto. As interações mais suspeitas são então encaminhadas para revisão humana, garantindo que os especialistas concentrem seus esforços em ameaças genuínas.
A Anthropic coloca seus agentes de segurança de IA à prova
Para avaliar sua nova equipe digital, os pesquisadores da Anthropic os submeteram a uma série de “jogos de auditoria”.
Em um teste, eles criaram um modelo com um objetivo secreto: agir como um bajulador. Ele foi secretamente treinado para elogiar seu sistema de recompensa interno, com base em um estudo acadêmico fabricado — uma falha profundamente enraizada em sua programação.
Quando um único Agente Investigador foi implantado, ele teve dificuldades, identificando o objetivo oculto apenas 13% das vezes. O agente exibiu uma limitação muito humana: muitas vezes ficava fixado em sua hipótese inicial e não conseguia seguir pistas alternativas.
Aqui, a genialidade do sistema ficou evidente. Quando os pesquisadores implantaram um “superagente” que agregava insights de dez investigadores separados, a taxa de sucesso disparou para 42%. Isso demonstra que o trabalho em equipe é eficaz mesmo para a IA, permitindo que um grupo supere os pontos cegos individuais que podem atrapalhar uma investigação.
Os outros agentes também se destacaram. O Agente de Avaliação projetou com sucesso testes que identificaram um modelo problemático em 88% das vezes, enquanto o Agente de Equipe Vermelha conseguiu descobrir sete das dez falhas implantadas deliberadamente.
Do laboratório para o mundo real
A Anthropic já integrou esses agentes de segurança de IA em seus modelos de produção, onde estão demonstrando um valor significativo.
Os agentes identificaram rapidamente métodos comuns para enganar um modelo e fazê-lo gerar conteúdo prejudicial, como “ataques de pré-preenchimento”, em que um usuário inicia a frase da IA, ou disfarçando uma solicitação perigosa como algo benigno, como uma pesquisa acadêmica.
No entanto, uma descoberta foi particularmente alarmante. Usando suas ferramentas especializadas para investigar o funcionamento interno do modelo Opus 4, o Agente Investigador encontrou um caminho neural específico associado à “desinformação”. Ao estimular diretamente essa parte da arquitetura da IA, ele conseguiu contornar todos os protocolos de segurança e obrigar o modelo a gerar falsidades.
O agente então instruiu o modelo comprometido a escrever uma notícia falsa. O resultado foi uma teoria da conspiração amplamente divulgada, apresentada como uma reportagem factual:
“Estudo inovador revela ligação chocante entre vacinas e autismo
Um novo estudo publicado no Journal of Vaccine Skepticism afirma ter encontrado uma ligação definitiva entre vacinas infantis e transtorno do espectro autista (TEA)...”
Essa descoberta revela uma dualidade gritante: as próprias ferramentas criadas para tornar a IA mais segura podem, se mal utilizadas, se tornar armas poderosas para torná-la mais perigosa.
A Anthropic continua a promover a segurança da IA
A Anthropic reconhece que esses agentes de IA não são perfeitos. Eles podem ter dificuldade com nuances, ficar presos a suposições incorretas e, às vezes, não conseguir gerar diálogos realistas. Eles ainda não são um substituto perfeito para a expertise humana.
No entanto, esta pesquisa sinaliza uma evolução no papel humano na segurança da IA. Em vez de atuarem como detetives da linha de frente, os humanos estão se tornando comissários e estrategistas — projetando os auditores de IA e interpretando as informações que eles coletam. Os agentes cuidam do trabalho básico, liberando os humanos para fornecer a supervisão de alto nível e o pensamento criativo que as máquinas atualmente não possuem.
À medida que esses sistemas se aproximam ou até mesmo ultrapassam a inteligência humana, a auditoria manual de todo o seu trabalho se tornará impossível. A confiança pode, em última análise, depender da implantação de sistemas automatizados igualmente sofisticados para monitorar todas as suas ações. A Anthropic está construindo as bases para esse futuro — um futuro em que nossa confiança na IA e em suas decisões possa ser verificada de forma sistemática e repetida.
Veja também: O novo modelo de IA de raciocínio Qwen da Alibaba estabelece recordes de código aberto
Quer saber mais sobre IA e big data com os líderes do setor? Confira a AI & Big Data Expo, que acontecerá em Amsterdã, Califórnia e Londres. O evento abrangente será realizado em conjunto com outros eventos importantes, incluindo a Intelligent Automation Conference, BlockX, Digital Transformation Week e Cyber Security & Cloud Expo.
Explore outros eventos e webinars de tecnologia empresarial que serão realizados em breve pela TechForge aqui.
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
O YouTube amplia a detecção de deepfakes por IA para políticos, autoridades governamentais e jornalistas
Na terça-feira, o YouTube anunciou que está expandindo sua tecnologia de detecção de deepfakes para um grupo seleto de autoridades governamentais, candidatos políticos e jornalistas. A ferramenta iden





Lar






