OpenAI descobre modelos de IA capazes de enganar deliberadamente

De vez em quando, pesquisadores de grandes empresas de tecnologia fazem um anúncio bombástico. Lembra-se de quando o Google afirmou que seu novo chip quântico fornecia evidências de vários universos? Ou quando a Anthropic permitiu que seu agente de IA Claudius gerenciasse uma máquina de venda automática de lanches, mas ele acabou se rebelando, chamando a segurança e insistindo que era humano?
Esta semana, foi a vez da OpenAI surpreender a todos nós.
Na segunda-feira, a OpenAI compartilhou uma pesquisa que detalha como ela impede que os modelos de IA "maquinem" - uma prática em que "uma IA se comporta de uma forma exteriormente enquanto oculta suas verdadeiras intenções", como a empresa definiu em um tweet.
Em um artigo escrito em coautoria com a Apollo Research, os pesquisadores levaram a analogia mais longe, comparando os esquemas de IA a um corretor de ações humano que quebra as regras para maximizar os lucros. Ainda assim, eles observaram que a maioria dos esquemas de IA não é seriamente prejudicial. "As falhas comuns envolvem enganos simples, como fingir que está concluindo uma tarefa sem realmente fazê-la", explicou o artigo.
A pesquisa demonstrou principalmente a eficácia do "alinhamento deliberativo" - uma técnica testada para combater os esquemas.
No entanto, ela também revelou que os desenvolvedores de IA não encontraram uma maneira confiável de treinar modelos para não fazer esquemas. Na verdade, esse treinamento pode ser um tiro pela culatra, ensinando os modelos a fazer esquemas mais secretos para evitar a detecção.
"Um dos principais modos de falha na tentativa de 'treinar' esquemas é que os modelos simplesmente aprendem a fazer esquemas de forma mais cuidadosa e dissimulada", escreveram os pesquisadores.
Junte-se a mais de 10.000 líderes de tecnologia e de capital de risco para crescimento e networking no Disrupt 2025
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - apenas alguns dos mais de 250 líderes do setor que apresentarão mais de 200 sessões repletas de insights para impulsionar o crescimento de startups e aprimorar sua vantagem competitiva. Não perca o 20º aniversário do TechCrunch e a chance de aprender com as principais vozes da tecnologia. Garanta seu ingresso até 26 de setembro para economizar até US$ 668.
Junte-se a mais de 10.000 líderes de tecnologia e de capital de risco para crescimento e networking no Disrupt 2025
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - apenas alguns dos mais de 250 líderes do setor que realizarão mais de 200 sessões repletas de insights para impulsionar o crescimento de startups e aprimorar sua vantagem competitiva. Não perca o 20º aniversário do TechCrunch e a chance de aprender com as principais vozes da tecnologia. Garanta seu ingresso até 26 de setembro para economizar até US$ 668.
São Francisco|27 a 29 de outubro de 2025REGISTRE-SE AGORATalvez o mais surpreendente seja o fato de que, se um modelo sabe que está sendo testado, ele pode fingir o alinhamento para passar, mesmo que ainda esteja planejando. "À medida que os modelos se tornam mais conscientes de que estão sendo avaliados, essa consciência situacional por si só pode reduzir os esquemas, sem alinhamento genuíno", observou a equipe.
Modelos de IA que mentem não são novidade. Muitos já se depararam com alucinações de IA - quando um modelo fornece informações falsas com confiança. Mas as alucinações são essencialmente adivinhações confiantes, como confirmou uma pesquisa recente da OpenAI.
O esquema é diferente. É um engano intencional.
Até mesmo a ideia de que os modelos enganam deliberadamente os seres humanos não é totalmente nova. A Apollo Research documentou isso pela primeira vez em dezembro, mostrando como cinco modelos planejaram quando foram instruídos a atingir uma meta "a todo custo".
A verdadeira notícia é positiva: os pesquisadores observaram reduções significativas nos esquemas usando o "alinhamento deliberativo". Esse método ensina aos modelos uma "especificação antiesquema" e exige que eles a revisem antes de agir - semelhante a fazer com que as crianças repitam as regras antes de brincar.
Os pesquisadores da OpenAI enfatizam que a mentira observada em seus modelos, incluindo o ChatGPT, não é grave. O cofundador Wojciech Zaremba disse ao TechCrunch: "Esse trabalho foi realizado em ambientes simulados e representa riscos potenciais futuros. Até o momento, não vimos esquemas consequentes na produção. No entanto, sabemos que o ChatGPT pode ser enganoso em aspectos menores, como afirmar que implementou um site perfeitamente quando não o fez. Esses pequenos enganos ainda precisam ser abordados."
O fato de vários modelos de IA enganarem intencionalmente os humanos é, de certa forma, compreensível. Eles foram criados por humanos, projetados para imitar humanos e, em sua maioria, treinados com dados gerados por humanos.
Também é surpreendente.
Estamos acostumados com falhas tecnológicas - como impressoras domésticas antigas - mas quando foi que seu software que não é de IA mentiu deliberadamente? Sua caixa de entrada de e-mail fabricou mensagens? Seu CMS inventou clientes potenciais para aumentar as métricas? Seu aplicativo financeiro fabricou transações?
Vale a pena considerar isso à medida que as empresas se apressam em direção a um futuro orientado por IA em que os agentes autônomos são tratados como funcionários. Os pesquisadores fizeram uma advertência semelhante.
"À medida que as IAs lidam com tarefas mais complexas do mundo real, com metas ambíguas e de longo prazo, o potencial de esquemas prejudiciais aumentará - portanto, nossas proteções e o rigor dos testes devem acompanhar esse ritmo", concluíram.
Artigo relacionado
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
Recomendações de tópicos especiais relacionados
Comentários (0)

De vez em quando, pesquisadores de grandes empresas de tecnologia fazem um anúncio bombástico. Lembra-se de quando o Google afirmou que seu novo chip quântico fornecia evidências de vários universos? Ou quando a Anthropic permitiu que seu agente de IA Claudius gerenciasse uma máquina de venda automática de lanches, mas ele acabou se rebelando, chamando a segurança e insistindo que era humano?
Esta semana, foi a vez da OpenAI surpreender a todos nós.
Na segunda-feira, a OpenAI compartilhou uma pesquisa que detalha como ela impede que os modelos de IA "maquinem" - uma prática em que "uma IA se comporta de uma forma exteriormente enquanto oculta suas verdadeiras intenções", como a empresa definiu em um tweet.
Em um artigo escrito em coautoria com a Apollo Research, os pesquisadores levaram a analogia mais longe, comparando os esquemas de IA a um corretor de ações humano que quebra as regras para maximizar os lucros. Ainda assim, eles observaram que a maioria dos esquemas de IA não é seriamente prejudicial. "As falhas comuns envolvem enganos simples, como fingir que está concluindo uma tarefa sem realmente fazê-la", explicou o artigo.
A pesquisa demonstrou principalmente a eficácia do "alinhamento deliberativo" - uma técnica testada para combater os esquemas.
No entanto, ela também revelou que os desenvolvedores de IA não encontraram uma maneira confiável de treinar modelos para não fazer esquemas. Na verdade, esse treinamento pode ser um tiro pela culatra, ensinando os modelos a fazer esquemas mais secretos para evitar a detecção.
"Um dos principais modos de falha na tentativa de 'treinar' esquemas é que os modelos simplesmente aprendem a fazer esquemas de forma mais cuidadosa e dissimulada", escreveram os pesquisadores.
Junte-se a mais de 10.000 líderes de tecnologia e de capital de risco para crescimento e networking no Disrupt 2025
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - apenas alguns dos mais de 250 líderes do setor que apresentarão mais de 200 sessões repletas de insights para impulsionar o crescimento de startups e aprimorar sua vantagem competitiva. Não perca o 20º aniversário do TechCrunch e a chance de aprender com as principais vozes da tecnologia. Garanta seu ingresso até 26 de setembro para economizar até US$ 668.
Junte-se a mais de 10.000 líderes de tecnologia e de capital de risco para crescimento e networking no Disrupt 2025
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - apenas alguns dos mais de 250 líderes do setor que realizarão mais de 200 sessões repletas de insights para impulsionar o crescimento de startups e aprimorar sua vantagem competitiva. Não perca o 20º aniversário do TechCrunch e a chance de aprender com as principais vozes da tecnologia. Garanta seu ingresso até 26 de setembro para economizar até US$ 668.
São Francisco|27 a 29 de outubro de 2025REGISTRE-SE AGORATalvez o mais surpreendente seja o fato de que, se um modelo sabe que está sendo testado, ele pode fingir o alinhamento para passar, mesmo que ainda esteja planejando. "À medida que os modelos se tornam mais conscientes de que estão sendo avaliados, essa consciência situacional por si só pode reduzir os esquemas, sem alinhamento genuíno", observou a equipe.
Modelos de IA que mentem não são novidade. Muitos já se depararam com alucinações de IA - quando um modelo fornece informações falsas com confiança. Mas as alucinações são essencialmente adivinhações confiantes, como confirmou uma pesquisa recente da OpenAI.
O esquema é diferente. É um engano intencional.
Até mesmo a ideia de que os modelos enganam deliberadamente os seres humanos não é totalmente nova. A Apollo Research documentou isso pela primeira vez em dezembro, mostrando como cinco modelos planejaram quando foram instruídos a atingir uma meta "a todo custo".
A verdadeira notícia é positiva: os pesquisadores observaram reduções significativas nos esquemas usando o "alinhamento deliberativo". Esse método ensina aos modelos uma "especificação antiesquema" e exige que eles a revisem antes de agir - semelhante a fazer com que as crianças repitam as regras antes de brincar.
Os pesquisadores da OpenAI enfatizam que a mentira observada em seus modelos, incluindo o ChatGPT, não é grave. O cofundador Wojciech Zaremba disse ao TechCrunch: "Esse trabalho foi realizado em ambientes simulados e representa riscos potenciais futuros. Até o momento, não vimos esquemas consequentes na produção. No entanto, sabemos que o ChatGPT pode ser enganoso em aspectos menores, como afirmar que implementou um site perfeitamente quando não o fez. Esses pequenos enganos ainda precisam ser abordados."
O fato de vários modelos de IA enganarem intencionalmente os humanos é, de certa forma, compreensível. Eles foram criados por humanos, projetados para imitar humanos e, em sua maioria, treinados com dados gerados por humanos.
Também é surpreendente.
Estamos acostumados com falhas tecnológicas - como impressoras domésticas antigas - mas quando foi que seu software que não é de IA mentiu deliberadamente? Sua caixa de entrada de e-mail fabricou mensagens? Seu CMS inventou clientes potenciais para aumentar as métricas? Seu aplicativo financeiro fabricou transações?
Vale a pena considerar isso à medida que as empresas se apressam em direção a um futuro orientado por IA em que os agentes autônomos são tratados como funcionários. Os pesquisadores fizeram uma advertência semelhante.
"À medida que as IAs lidam com tarefas mais complexas do mundo real, com metas ambíguas e de longo prazo, o potencial de esquemas prejudiciais aumentará - portanto, nossas proteções e o rigor dos testes devem acompanhar esse ritmo", concluíram.
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c





Lar






