OpenAI descobre modelos de IA capazes de enganar deliberadamente

Lar

Notícias

23 de Novembro de 2025

NicholasThomas

# openai

OpenAI descobre modelos de IA capazes de enganar deliberadamente

De vez em quando, pesquisadores de grandes empresas de tecnologia fazem um anúncio bombástico. Lembra-se de quando o Google afirmou que seu novo chip quântico fornecia evidências de vários universos? Ou quando a Anthropic permitiu que seu agente de IA Claudius gerenciasse uma máquina de venda automática de lanches, mas ele acabou se rebelando, chamando a segurança e insistindo que era humano?

Esta semana, foi a vez da OpenAI surpreender a todos nós.

Na segunda-feira, a OpenAI compartilhou uma pesquisa que detalha como ela impede que os modelos de IA "maquinem" - uma prática em que "uma IA se comporta de uma forma exteriormente enquanto oculta suas verdadeiras intenções", como a empresa definiu em um tweet.

Em um artigo escrito em coautoria com a Apollo Research, os pesquisadores levaram a analogia mais longe, comparando os esquemas de IA a um corretor de ações humano que quebra as regras para maximizar os lucros. Ainda assim, eles observaram que a maioria dos esquemas de IA não é seriamente prejudicial. "As falhas comuns envolvem enganos simples, como fingir que está concluindo uma tarefa sem realmente fazê-la", explicou o artigo.

A pesquisa demonstrou principalmente a eficácia do "alinhamento deliberativo" - uma técnica testada para combater os esquemas.

No entanto, ela também revelou que os desenvolvedores de IA não encontraram uma maneira confiável de treinar modelos para não fazer esquemas. Na verdade, esse treinamento pode ser um tiro pela culatra, ensinando os modelos a fazer esquemas mais secretos para evitar a detecção.

"Um dos principais modos de falha na tentativa de 'treinar' esquemas é que os modelos simplesmente aprendem a fazer esquemas de forma mais cuidadosa e dissimulada", escreveram os pesquisadores.

Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - apenas alguns dos mais de 250 líderes do setor que apresentarão mais de 200 sessões repletas de insights para impulsionar o crescimento de startups e aprimorar sua vantagem competitiva. Não perca o 20º aniversário do TechCrunch e a chance de aprender com as principais vozes da tecnologia. Garanta seu ingresso até 26 de setembro para economizar até US$ 668.

Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - apenas alguns dos mais de 250 líderes do setor que realizarão mais de 200 sessões repletas de insights para impulsionar o crescimento de startups e aprimorar sua vantagem competitiva. Não perca o 20º aniversário do TechCrunch e a chance de aprender com as principais vozes da tecnologia. Garanta seu ingresso até 26 de setembro para economizar até US$ 668.

São Francisco|27 a 29 de outubro de 2025REGISTRE-SE AGORA

Talvez o mais surpreendente seja o fato de que, se um modelo sabe que está sendo testado, ele pode fingir o alinhamento para passar, mesmo que ainda esteja planejando. "À medida que os modelos se tornam mais conscientes de que estão sendo avaliados, essa consciência situacional por si só pode reduzir os esquemas, sem alinhamento genuíno", observou a equipe.

Modelos de IA que mentem não são novidade. Muitos já se depararam com alucinações de IA - quando um modelo fornece informações falsas com confiança. Mas as alucinações são essencialmente adivinhações confiantes, como confirmou uma pesquisa recente da OpenAI.

O esquema é diferente. É um engano intencional.

Até mesmo a ideia de que os modelos enganam deliberadamente os seres humanos não é totalmente nova. A Apollo Research documentou isso pela primeira vez em dezembro, mostrando como cinco modelos planejaram quando foram instruídos a atingir uma meta "a todo custo".

A verdadeira notícia é positiva: os pesquisadores observaram reduções significativas nos esquemas usando o "alinhamento deliberativo". Esse método ensina aos modelos uma "especificação antiesquema" e exige que eles a revisem antes de agir - semelhante a fazer com que as crianças repitam as regras antes de brincar.

Os pesquisadores da OpenAI enfatizam que a mentira observada em seus modelos, incluindo o ChatGPT, não é grave. O cofundador Wojciech Zaremba disse ao TechCrunch: "Esse trabalho foi realizado em ambientes simulados e representa riscos potenciais futuros. Até o momento, não vimos esquemas consequentes na produção. No entanto, sabemos que o ChatGPT pode ser enganoso em aspectos menores, como afirmar que implementou um site perfeitamente quando não o fez. Esses pequenos enganos ainda precisam ser abordados."

O fato de vários modelos de IA enganarem intencionalmente os humanos é, de certa forma, compreensível. Eles foram criados por humanos, projetados para imitar humanos e, em sua maioria, treinados com dados gerados por humanos.

Também é surpreendente.

Estamos acostumados com falhas tecnológicas - como impressoras domésticas antigas - mas quando foi que seu software que não é de IA mentiu deliberadamente? Sua caixa de entrada de e-mail fabricou mensagens? Seu CMS inventou clientes potenciais para aumentar as métricas? Seu aplicativo financeiro fabricou transações?

Vale a pena considerar isso à medida que as empresas se apressam em direção a um futuro orientado por IA em que os agentes autônomos são tratados como funcionários. Os pesquisadores fizeram uma advertência semelhante.

"À medida que as IAs lidam com tarefas mais complexas do mundo real, com metas ambíguas e de longo prazo, o potencial de esquemas prejudiciais aumentará - portanto, nossas proteções e o rigor dos testes devem acompanhar esse ritmo", concluíram.

Artigo relacionado

Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam

A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam

Greg Brockman revela como Elon Musk deixou a OpenAI No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c

Recomendações de tópicos especiais relacionados

Negócios

Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas

Os melhores gerenciadores de despesas com IA de 2026: as ferramentas mais bem avaliadas para digitalizar recibos e categorizar despesas corporativas automaticamente. Descubra soluções poderosas e revolucionárias para uma gestão de despesas sem esforço, um acompanhamento financeiro preciso e uma conformidade simplificada. Nossa comparação, cuidadosamente selecionada e atualizada semanalmente, entre opções gratuitas e pagas ajuda você a encontrar a solução ideal. Aproveite ao máximo as vantagens da IA com as recomendações dos especialistas da XIX.AI.

10 ferramentas

xix.ai

Negócios

As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos

Descubra as melhores ferramentas de recrutamento com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções poderosas e revolucionárias para a triagem de currículos e a automação do agendamento de entrevistas com candidatos. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de contratação ideal e otimize seu processo de recrutamento hoje mesmo!

10 ferramentas

xix.ai

Produtividade

Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental

Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.

10 ferramentas

xix.ai

chatbot

Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes

Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.

10 ferramentas

xix.ai

Educação e Aprendizagem

Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina

Descubra os melhores mentores em ciência de dados com IA para 2026, que o ajudarão a dominar SQL, Pandas e fluxos de trabalho de aprendizado de máquina. Conheça nossa seleção cuidadosamente elaborada e altamente avaliada no XIX.AI para obter orientações poderosas e revolucionárias. Compare opções gratuitas e pagas com informações valiosas da prática real. Domine a ciência de dados hoje mesmo.

10 ferramentas

xix.ai

chatbot

Os melhores treinadores de paquera e conversação com IA: melhore seu carisma social e sua autoconfiança em tempo real

Descubra os melhores treinadores de conversação e paquera com IA de 2026 no XIX.AI. Nossa seleção cuidadosamente escolhida e com as melhores avaliações ajuda você a desenvolver carisma social e confiança em tempo real. Explore ferramentas imperdíveis e revolucionárias, com comparações entre versões gratuitas e pagas e rankings atualizados semanalmente. Descubra hoje mesmo o seu diferencial social.

10 ferramentas

xix.ai