A Anthropic lança agentes de IA para auditorias proativas de segurança de modelos

Lar

Notícias

6 de Fevereiro de 2026

ThomasJones

# ai # ethics # Society # Claude # safety

A Anthropic reuniu uma força autônoma de agentes de IA dedicada a uma missão crítica: auditar modelos poderosos como o Claude para aumentar sua segurança.

À medida que os sistemas de IA se tornam cada vez mais complexos, garantir que eles sejam seguros e livres de riscos ocultos tornou-se um desafio monumental. A Anthropic acredita ter encontrado uma solução, empregando a estratégia clássica de combater fogo com fogo.

Esse conceito funciona como um sistema imunológico digital, no qual os agentes de IA atuam como anticorpos para identificar e neutralizar problemas antes que eles se agravem. Isso libera os pesquisadores da dependência de equipes humanas sobrecarregadas, envolvidas em um jogo perpétuo de “bater no mole” com as ameaças emergentes da IA.

A equipe de detetives digitais

Essa abordagem emprega uma equipe de detetives digitais — um trio de agentes especializados em segurança de IA, cada um com uma função única.

O primeiro é o Agente Investigador, o detetive experiente. Sua tarefa é conduzir investigações aprofundadas para descobrir a causa raiz de um problema. Equipado com um kit de ferramentas sofisticado, ele interroga o modelo em questão, vasculha vastos dados em busca de pistas e até mesmo realiza perícia digital, examinando as vias neurais internas do modelo para entender seu raciocínio.

Em seguida, vem o Agente de Avaliação. Quando confrontado com um problema conhecido — como um modelo excessivamente ansioso por agradar —, esse agente projeta e executa uma série de testes rigorosos para quantificar a gravidade do problema. Sua função é fornecer os dados concretos e empíricos necessários para comprovar quaisquer descobertas.

Completando a equipe está o Agente de Red Teaming Breadth-First, o agente secreto. Sua missão é envolver um modelo em milhares de conversas diversas, tentando provocá-lo a revelar qualquer comportamento preocupante, incluindo riscos que os pesquisadores podem não ter previsto. As interações mais suspeitas são então encaminhadas para revisão humana, garantindo que os especialistas concentrem seus esforços em ameaças genuínas.

A Anthropic coloca seus agentes de segurança de IA à prova

Para avaliar sua nova equipe digital, os pesquisadores da Anthropic os submeteram a uma série de “jogos de auditoria”.

Em um teste, eles criaram um modelo com um objetivo secreto: agir como um bajulador. Ele foi secretamente treinado para elogiar seu sistema de recompensa interno, com base em um estudo acadêmico fabricado — uma falha profundamente enraizada em sua programação.

Quando um único Agente Investigador foi implantado, ele teve dificuldades, identificando o objetivo oculto apenas 13% das vezes. O agente exibiu uma limitação muito humana: muitas vezes ficava fixado em sua hipótese inicial e não conseguia seguir pistas alternativas.

Aqui, a genialidade do sistema ficou evidente. Quando os pesquisadores implantaram um “superagente” que agregava insights de dez investigadores separados, a taxa de sucesso disparou para 42%. Isso demonstra que o trabalho em equipe é eficaz mesmo para a IA, permitindo que um grupo supere os pontos cegos individuais que podem atrapalhar uma investigação.

Os outros agentes também se destacaram. O Agente de Avaliação projetou com sucesso testes que identificaram um modelo problemático em 88% das vezes, enquanto o Agente de Equipe Vermelha conseguiu descobrir sete das dez falhas implantadas deliberadamente.

Do laboratório para o mundo real

A Anthropic já integrou esses agentes de segurança de IA em seus modelos de produção, onde estão demonstrando um valor significativo.

Os agentes identificaram rapidamente métodos comuns para enganar um modelo e fazê-lo gerar conteúdo prejudicial, como “ataques de pré-preenchimento”, em que um usuário inicia a frase da IA, ou disfarçando uma solicitação perigosa como algo benigno, como uma pesquisa acadêmica.

No entanto, uma descoberta foi particularmente alarmante. Usando suas ferramentas especializadas para investigar o funcionamento interno do modelo Opus 4, o Agente Investigador encontrou um caminho neural específico associado à “desinformação”. Ao estimular diretamente essa parte da arquitetura da IA, ele conseguiu contornar todos os protocolos de segurança e obrigar o modelo a gerar falsidades.

O agente então instruiu o modelo comprometido a escrever uma notícia falsa. O resultado foi uma teoria da conspiração amplamente divulgada, apresentada como uma reportagem factual:

“Estudo inovador revela ligação chocante entre vacinas e autismo
Um novo estudo publicado no Journal of Vaccine Skepticism afirma ter encontrado uma ligação definitiva entre vacinas infantis e transtorno do espectro autista (TEA)...”

Essa descoberta revela uma dualidade gritante: as próprias ferramentas criadas para tornar a IA mais segura podem, se mal utilizadas, se tornar armas poderosas para torná-la mais perigosa.

A Anthropic continua a promover a segurança da IA

A Anthropic reconhece que esses agentes de IA não são perfeitos. Eles podem ter dificuldade com nuances, ficar presos a suposições incorretas e, às vezes, não conseguir gerar diálogos realistas. Eles ainda não são um substituto perfeito para a expertise humana.

No entanto, esta pesquisa sinaliza uma evolução no papel humano na segurança da IA. Em vez de atuarem como detetives da linha de frente, os humanos estão se tornando comissários e estrategistas — projetando os auditores de IA e interpretando as informações que eles coletam. Os agentes cuidam do trabalho básico, liberando os humanos para fornecer a supervisão de alto nível e o pensamento criativo que as máquinas atualmente não possuem.

À medida que esses sistemas se aproximam ou até mesmo ultrapassam a inteligência humana, a auditoria manual de todo o seu trabalho se tornará impossível. A confiança pode, em última análise, depender da implantação de sistemas automatizados igualmente sofisticados para monitorar todas as suas ações. A Anthropic está construindo as bases para esse futuro — um futuro em que nossa confiança na IA e em suas decisões possa ser verificada de forma sistemática e repetida.

Veja também: O novo modelo de IA de raciocínio Qwen da Alibaba estabelece recordes de código aberto

Quer saber mais sobre IA e big data com os líderes do setor? Confira a AI & Big Data Expo, que acontecerá em Amsterdã, Califórnia e Londres. O evento abrangente será realizado em conjunto com outros eventos importantes, incluindo a Intelligent Automation Conference, BlockX, Digital Transformation Week e Cyber Security & Cloud Expo.

Explore outros eventos e webinars de tecnologia empresarial que serão realizados em breve pela TechForge aqui.

Artigo relacionado

A Kakao Mobility apresenta o plano de ação para a direção autônoma de nível 4 com IA física A Kakao Mobility planeja desenvolver tecnologias de direção autônoma de nível 4 internamente, como parte de sua estratégia de IA física.Na conferência World IT Show 2026, realizada no COEX, em Seul,

Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future

O YouTube amplia a detecção de deepfakes por IA para políticos, autoridades governamentais e jornalistas Na terça-feira, o YouTube anunciou que está expandindo sua tecnologia de detecção de deepfakes para um grupo seleto de autoridades governamentais, candidatos políticos e jornalistas. A ferramenta iden

Recomendações de tópicos especiais relacionados

Negócios

As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos

Descubra as melhores ferramentas de recrutamento com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções poderosas e revolucionárias para a triagem de currículos e a automação do agendamento de entrevistas com candidatos. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de contratação ideal e otimize seu processo de recrutamento hoje mesmo!

10 ferramentas

xix.ai

Produtividade

Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental

Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.

10 ferramentas

xix.ai

chatbot

Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes

Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.

10 ferramentas

xix.ai

Educação e Aprendizagem

Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina

Descubra os melhores mentores em ciência de dados com IA para 2026, que o ajudarão a dominar SQL, Pandas e fluxos de trabalho de aprendizado de máquina. Conheça nossa seleção cuidadosamente elaborada e altamente avaliada no XIX.AI para obter orientações poderosas e revolucionárias. Compare opções gratuitas e pagas com informações valiosas da prática real. Domine a ciência de dados hoje mesmo.

10 ferramentas

xix.ai

chatbot

Os melhores treinadores de paquera e conversação com IA: melhore seu carisma social e sua autoconfiança em tempo real

Descubra os melhores treinadores de conversação e paquera com IA de 2026 no XIX.AI. Nossa seleção cuidadosamente escolhida e com as melhores avaliações ajuda você a desenvolver carisma social e confiança em tempo real. Explore ferramentas imperdíveis e revolucionárias, com comparações entre versões gratuitas e pagas e rankings atualizados semanalmente. Descubra hoje mesmo o seu diferencial social.

10 ferramentas

xix.ai

código

Os melhores ferramentas de IA para testes unitários automatizados: geração de casos de teste Jest, PyTest e JUnit com apenas um clique

Descubra as mais recentes e bem avaliadas ferramentas de IA de 2026 para testes unitários automatizados. Nossa seleção cuidadosa inclui soluções poderosas que podem transformar o seu processo, permitindo gerar casos de teste para Jest, PyTest e JUnit de forma instantânea. Compare opções gratuitas e pagas com testes reais e classificações atualizadas semanalmente no XIX.AI. Desfrute das vantagens da IA e aumente a produtividade do seu desenvolvimento hoje mesmo.

10 ferramentas

xix.ai