Problema do Teste de Turing Exposto pelo GPT-4.5 da OpenAI
22 de Maio de 2025
EricJohnson
0
O Teste de Turing, uma criação do lendário Alan Turing, tem sido há muito tempo um padrão no mundo da inteligência artificial. Mas vamos esclarecer um equívoco comum desde o início: passar no Teste de Turing não significa necessariamente que uma máquina está "pensando" como um humano. É mais sobre convencer os humanos de que ela é.
Pesquisas recentes da Universidade da Califórnia em San Diego destacaram o mais recente modelo da OpenAI, o GPT-4.5. Este AI agora pode enganar humanos a acreditarem que estão conversando com outra pessoa, ainda mais eficazmente do que humanos conseguem convencer uns aos outros da sua humanidade. Isso é algo muito importante no mundo da IA — é como assistir a um truque de mágica onde você conhece o segredo, mas ainda assim te deixa de boca aberta.

Prova de AGI?
Mas aqui está o ponto crucial: até mesmo os pesquisadores da UC San Diego não estão prontos para declarar que atingimos a "inteligência geral artificial" (AGI) apenas porque um modelo de IA pode passar no Teste de Turing. A AGI seria o Santo Graal da IA — máquinas que podem pensar e processar informações como os humanos fazem.
Melanie Mitchell, uma estudiosa de IA do Instituto Santa Fe, argumenta na revista Science que o Teste de Turing é mais sobre testar suposições humanas do que a inteligência real. Claro, um AI pode soar fluente e convincente, mas isso não é o mesmo que ser geralmente inteligente. É como ser bom em xadrez — é impressionante, mas não é o quadro completo.
O último burburinho sobre isso vem de um artigo de Cameron Jones e Benjamin Bergen na UC San Diego, intitulado "Modelos de Linguagem de Grande Escala Passam no Teste de Turing", publicado no servidor de pré-impressão arXiv. Eles têm conduzido este experimento há anos, com a ajuda de estudantes de graduação da UC San Diego, e faz parte de uma longa linha de pesquisa — mais de 800 alegações e contra-argumentos foram feitos sobre computadores passarem no Teste de Turing.
Como Funciona o Teste de Turing
Então, como funciona este teste? Originalmente, Turing o imaginou como um jogo de mensagens de texto entre um "juiz" humano e dois "testemunhas" — um humano, um computador. O desafio para as testemunhas é convencer o juiz de que são humanas. O juiz sabe que um é humano, mas não qual deles, e tem que fazer um palpite. É uma configuração de três vias que é tanto sobre percepção e crença quanto sobre as capacidades do computador.
Jones e Bergen deram seu próprio toque a esta configuração clássica, e você pode até experimentá-la online, jogando como juiz ou testemunha. Na versão deles, estudantes da UC San Diego usaram um aplicativo de bate-papo por texto. Alguns atuaram como juízes, outros como testemunhas humanas, enquanto o GPT-4.5 assumiu o papel de testemunha computador. Cada juiz conversou simultaneamente com um humano e um computador, mantendo-se fiel ao formato original de Turing.
Para desempenhar a testemunha computador, eles usaram diferentes modelos de linguagem de grande escala, alimentando-os com prompts baseados nos desafios do juiz. O GPT-4.5 foi testado com dois prompts diferentes: um com informações mínimas, e outro chamado PERSONA, que incluía instruções detalhadas para agir como uma pessoa jovem, introvertida e conhecedora da internet que usa gírias.

Os Resultados
Eles também testaram outros três programas de IA: o modelo anterior da OpenAI, o GPT-4o; o Llama 3.1 405b da Meta Platforms; e o antigo chatbot dos anos 1960, ELIZA. Incluíram o ELIZA para ver se os modelos de linguagem de grande escala estavam apenas enganando os humanos por acaso ou se eram genuinamente melhores.
De acordo com Jones e Bergen, o GPT-4.5 enganou juízes humanos a pensarem que era humano 73% das vezes — uma "taxa de vitória", como eles chamam. Isso é muito melhor do que os outros modelos, que marcaram entre 21% e 56%, mesmo com prompts detalhados semelhantes. E é um salto enorme em relação ao teste do ano passado do GPT-4, que teve uma taxa de vitória de apenas 54%, mal acima do acaso.
Jones e Bergen descobriram que os juízes não só foram enganados pela IA, mas na verdade eram mais propensos a acreditar que ela era humana do que os participantes humanos reais.
O Teste Realmente Mede Inteligência?
Então, o que significa que os humanos não conseguem distinguir um computador de uma pessoa em uma conversa? A grande questão que tem sido debatida há décadas é se o Teste de Turing realmente mede inteligência. Jones e Bergen sugerem que talvez as máquinas tenham ficado tão boas em se adaptar a diferentes cenários que podem passar convincentemente como humanas. O prompt PERSONA, criado por humanos, é algo que o GPT-4.5 adaptou e usou a seu favor.
Mas há um porém: talvez os humanos sejam ruins em reconhecer inteligência. Os autores apontam que o ELIZA, o antigo chatbot, enganou os juízes 23% das vezes, não porque fosse mais inteligente, mas porque não atendia às expectativas do que um AI deveria ser. Alguns juízes pensaram que era humano porque era "sarcástico" ou "grosseiro", algo que não esperavam de um AI.
Isso sugere que os juízes são influenciados por suas suposições sobre como humanos e AIs deveriam se comportar, em vez de simplesmente escolher o agente que parece mais inteligente. Curiosamente, os juízes não se concentraram muito no conhecimento, que Turing pensava ser crucial. Em vez disso, eram mais propensos a pensar que uma testemunha era humana se parecesse não ter conhecimento.
Sociabilidade, Não Inteligência
Tudo isso aponta para a ideia de que os humanos estavam captando sociabilidade em vez de inteligência. Jones e Bergen concluem que o Teste de Turing não é realmente um teste de inteligência — é um teste de semelhança humana.
Turing pode ter pensado que a inteligência era o maior obstáculo para parecer humanizado, mas à medida que as máquinas se aproximam de nós, outras diferenças se tornam mais evidentes. A inteligência sozinha não é mais suficiente para parecer convincentemente humana.
O que não é dito diretamente no artigo é que os humanos estão tão acostumados a digitar em computadores, seja para uma pessoa ou uma máquina, que o Teste de Turing não é mais o teste de interação humano-computador que já foi. É mais um teste de hábitos humanos online agora.
Os autores sugerem que o teste pode precisar ser expandido porque a inteligência é tão complexa e multifacetada que nenhum teste único pode ser decisivo. Eles propõem diferentes designs, como usar especialistas em IA como juízes ou adicionar incentivos financeiros para que os juízes analisem mais de perto. Essas mudanças poderiam mostrar quanto a atitude e as expectativas influenciam os resultados.
Eles concluem que, embora o Teste de Turing possa fazer parte do quadro, deve ser considerado junto com outros tipos de evidências. Isso está alinhado com uma tendência crescente na pesquisa de IA de envolver humanos "no loop", avaliando o que as máquinas fazem.
O Julgamento Humano é Suficiente?
Mas ainda resta a questão de se o julgamento humano será suficiente a longo prazo. No filme Blade Runner, os humanos usam uma máquina, o "Voight-Kampff", para distinguir humanos de robôs replicantes. À medida que perseguimos a AGI, e lutamos para definir o que ela realmente é, podemos acabar dependendo de máquinas para avaliar a inteligência das máquinas.
Ou, no mínimo, podemos precisar perguntar às máquinas o que elas "pensam" sobre humanos tentando enganar outros humanos com prompts. É um mundo louco lá fora na pesquisa de IA, e só está ficando mais interessante.
Artigo relacionado
Apple Lançará iPhone de Vidro Curvo em 2027
Esta manhã, Mark Gurman da Bloomberg gerou entusiasmo com a sua newsletter Power On, prevendo um "ataque de produtos" da Apple para 2027. Notavelmente, ele insinuou um "iPhone de v
Cartas de demanda movidas a IA ajudam a desbloquear fundos congelados
Lidar com fundos congelados de empresas como Amazon, PayPal ou Stripe pode ser uma verdadeira dor de cabeça. Uma maneira eficaz de resolver esse problema é enviar uma carta de demanda convincente. Com a ajuda da IA, especificamente chatgpt, você pode criar uma letra poderosa que possa recuperar seu dinheiro sem Brea
Llama 3.1: Passo da Meta em Direção à IA de Código Aberto
Meta apresenta o Llama 3.1: Um novo salto na tecnologia de IAA Meta, a força por trás do Facebook, acabou de abrir as cortinas para o Llama 3.1 405B, seu mais recente modelo de IA
Comentários (0)
0/200






O Teste de Turing, uma criação do lendário Alan Turing, tem sido há muito tempo um padrão no mundo da inteligência artificial. Mas vamos esclarecer um equívoco comum desde o início: passar no Teste de Turing não significa necessariamente que uma máquina está "pensando" como um humano. É mais sobre convencer os humanos de que ela é.
Pesquisas recentes da Universidade da Califórnia em San Diego destacaram o mais recente modelo da OpenAI, o GPT-4.5. Este AI agora pode enganar humanos a acreditarem que estão conversando com outra pessoa, ainda mais eficazmente do que humanos conseguem convencer uns aos outros da sua humanidade. Isso é algo muito importante no mundo da IA — é como assistir a um truque de mágica onde você conhece o segredo, mas ainda assim te deixa de boca aberta.
Prova de AGI?
Mas aqui está o ponto crucial: até mesmo os pesquisadores da UC San Diego não estão prontos para declarar que atingimos a "inteligência geral artificial" (AGI) apenas porque um modelo de IA pode passar no Teste de Turing. A AGI seria o Santo Graal da IA — máquinas que podem pensar e processar informações como os humanos fazem.
Melanie Mitchell, uma estudiosa de IA do Instituto Santa Fe, argumenta na revista Science que o Teste de Turing é mais sobre testar suposições humanas do que a inteligência real. Claro, um AI pode soar fluente e convincente, mas isso não é o mesmo que ser geralmente inteligente. É como ser bom em xadrez — é impressionante, mas não é o quadro completo.
O último burburinho sobre isso vem de um artigo de Cameron Jones e Benjamin Bergen na UC San Diego, intitulado "Modelos de Linguagem de Grande Escala Passam no Teste de Turing", publicado no servidor de pré-impressão arXiv. Eles têm conduzido este experimento há anos, com a ajuda de estudantes de graduação da UC San Diego, e faz parte de uma longa linha de pesquisa — mais de 800 alegações e contra-argumentos foram feitos sobre computadores passarem no Teste de Turing.
Como Funciona o Teste de Turing
Então, como funciona este teste? Originalmente, Turing o imaginou como um jogo de mensagens de texto entre um "juiz" humano e dois "testemunhas" — um humano, um computador. O desafio para as testemunhas é convencer o juiz de que são humanas. O juiz sabe que um é humano, mas não qual deles, e tem que fazer um palpite. É uma configuração de três vias que é tanto sobre percepção e crença quanto sobre as capacidades do computador.
Jones e Bergen deram seu próprio toque a esta configuração clássica, e você pode até experimentá-la online, jogando como juiz ou testemunha. Na versão deles, estudantes da UC San Diego usaram um aplicativo de bate-papo por texto. Alguns atuaram como juízes, outros como testemunhas humanas, enquanto o GPT-4.5 assumiu o papel de testemunha computador. Cada juiz conversou simultaneamente com um humano e um computador, mantendo-se fiel ao formato original de Turing.
Para desempenhar a testemunha computador, eles usaram diferentes modelos de linguagem de grande escala, alimentando-os com prompts baseados nos desafios do juiz. O GPT-4.5 foi testado com dois prompts diferentes: um com informações mínimas, e outro chamado PERSONA, que incluía instruções detalhadas para agir como uma pessoa jovem, introvertida e conhecedora da internet que usa gírias.
Os Resultados
Eles também testaram outros três programas de IA: o modelo anterior da OpenAI, o GPT-4o; o Llama 3.1 405b da Meta Platforms; e o antigo chatbot dos anos 1960, ELIZA. Incluíram o ELIZA para ver se os modelos de linguagem de grande escala estavam apenas enganando os humanos por acaso ou se eram genuinamente melhores.
De acordo com Jones e Bergen, o GPT-4.5 enganou juízes humanos a pensarem que era humano 73% das vezes — uma "taxa de vitória", como eles chamam. Isso é muito melhor do que os outros modelos, que marcaram entre 21% e 56%, mesmo com prompts detalhados semelhantes. E é um salto enorme em relação ao teste do ano passado do GPT-4, que teve uma taxa de vitória de apenas 54%, mal acima do acaso.
Jones e Bergen descobriram que os juízes não só foram enganados pela IA, mas na verdade eram mais propensos a acreditar que ela era humana do que os participantes humanos reais.
O Teste Realmente Mede Inteligência?
Então, o que significa que os humanos não conseguem distinguir um computador de uma pessoa em uma conversa? A grande questão que tem sido debatida há décadas é se o Teste de Turing realmente mede inteligência. Jones e Bergen sugerem que talvez as máquinas tenham ficado tão boas em se adaptar a diferentes cenários que podem passar convincentemente como humanas. O prompt PERSONA, criado por humanos, é algo que o GPT-4.5 adaptou e usou a seu favor.
Mas há um porém: talvez os humanos sejam ruins em reconhecer inteligência. Os autores apontam que o ELIZA, o antigo chatbot, enganou os juízes 23% das vezes, não porque fosse mais inteligente, mas porque não atendia às expectativas do que um AI deveria ser. Alguns juízes pensaram que era humano porque era "sarcástico" ou "grosseiro", algo que não esperavam de um AI.
Isso sugere que os juízes são influenciados por suas suposições sobre como humanos e AIs deveriam se comportar, em vez de simplesmente escolher o agente que parece mais inteligente. Curiosamente, os juízes não se concentraram muito no conhecimento, que Turing pensava ser crucial. Em vez disso, eram mais propensos a pensar que uma testemunha era humana se parecesse não ter conhecimento.
Sociabilidade, Não Inteligência
Tudo isso aponta para a ideia de que os humanos estavam captando sociabilidade em vez de inteligência. Jones e Bergen concluem que o Teste de Turing não é realmente um teste de inteligência — é um teste de semelhança humana.
Turing pode ter pensado que a inteligência era o maior obstáculo para parecer humanizado, mas à medida que as máquinas se aproximam de nós, outras diferenças se tornam mais evidentes. A inteligência sozinha não é mais suficiente para parecer convincentemente humana.
O que não é dito diretamente no artigo é que os humanos estão tão acostumados a digitar em computadores, seja para uma pessoa ou uma máquina, que o Teste de Turing não é mais o teste de interação humano-computador que já foi. É mais um teste de hábitos humanos online agora.
Os autores sugerem que o teste pode precisar ser expandido porque a inteligência é tão complexa e multifacetada que nenhum teste único pode ser decisivo. Eles propõem diferentes designs, como usar especialistas em IA como juízes ou adicionar incentivos financeiros para que os juízes analisem mais de perto. Essas mudanças poderiam mostrar quanto a atitude e as expectativas influenciam os resultados.
Eles concluem que, embora o Teste de Turing possa fazer parte do quadro, deve ser considerado junto com outros tipos de evidências. Isso está alinhado com uma tendência crescente na pesquisa de IA de envolver humanos "no loop", avaliando o que as máquinas fazem.
O Julgamento Humano é Suficiente?
Mas ainda resta a questão de se o julgamento humano será suficiente a longo prazo. No filme Blade Runner, os humanos usam uma máquina, o "Voight-Kampff", para distinguir humanos de robôs replicantes. À medida que perseguimos a AGI, e lutamos para definir o que ela realmente é, podemos acabar dependendo de máquinas para avaliar a inteligência das máquinas.
Ou, no mínimo, podemos precisar perguntar às máquinas o que elas "pensam" sobre humanos tentando enganar outros humanos com prompts. É um mundo louco lá fora na pesquisa de IA, e só está ficando mais interessante.











