Novos Modelos de IA da OpenAI Apresentam Taxas de Alucinação Mais Altas em Tarefas de Raciocínio

Lar

Notícias

21 de Julho de 2025

PatrickMartinez

# ChatGPT # openai

Novos Modelos de IA da OpenAI Apresentam Taxas de Alucinação Mais Altas em Tarefas de Raciocínio

Os novos modelos de IA o3 e o4-mini da OpenAI destacam-se em várias áreas, mas mostram maior tendência a alucinações em comparação com modelos anteriores, gerando mais informações fabricadas.

Alucinações continuam sendo um desafio persistente em IA, mesmo para sistemas de ponta. Normalmente, modelos mais novos reduzem as taxas de alucinação, mas o3 e o4-mini desviam dessa tendência.

Testes internos da OpenAI revelam que o3 e o4-mini, projetados como modelos de raciocínio, alucinam com mais frequência do que modelos de raciocínio anteriores como o1, o1-mini e o3-mini, assim como modelos não voltados para raciocínio como GPT-4o.

A causa desse aumento permanece incerta para a OpenAI, gerando preocupações.

O relatório técnico da OpenAI sobre o3 e o4-mini destaca que mais pesquisas são necessárias para identificar por que as taxas de alucinação aumentam com modelos de raciocínio ampliados. Embora esses modelos superem em áreas como codificação e matemática, sua tendência a fazer mais afirmações leva a saídas precisas e imprecisas, segundo o relatório.

No benchmark PersonQA da OpenAI, o3 alucinou em 33% das respostas, dobrando as taxas de o1 (16%) e o3-mini (14,8%). O4-mini teve desempenho pior, alucinando em 48% dos casos.

Transluce, um grupo de pesquisa em IA sem fins lucrativos, descobriu que o3 fabricava ações, como afirmar que executou código em um MacBook Pro de 2021 fora do ChatGPT, apesar de não ter tais capacidades.

“Suspeitamos que o aprendizado por reforço usado nos modelos da série o pode exacerbar problemas geralmente atenuados por métodos padrão de pós-treinamento,” disse o pesquisador da Transluce e ex-funcionário da OpenAI, Neil Chowdhury, em um e-mail para a TechCrunch.

A co-fundadora da Transluce, Sarah Schwettmann, observou que a taxa de alucinação do o3 pode reduzir sua utilidade prática.

Kian Katanforoosh, professor adjunto de Stanford e CEO da Workera, disse à TechCrunch que sua equipe considerou o o3 superior para fluxos de trabalho de codificação, mas propenso a gerar links de sites quebrados.

Embora alucinações possam estimular ideias criativas, elas representam desafios para indústrias como o direito, onde a precisão é crítica e erros em documentos são inaceitáveis.

A integração de capacidades de busca na web mostra promessa para melhorar a precisão. O GPT-4o da OpenAI com busca na web atinge 90% de precisão no SimpleQA, sugerindo potencial para reduzir alucinações em modelos de raciocínio quando os usuários permitem acesso a buscas de terceiros.

Se a escalada de modelos de raciocínio continuar a aumentar alucinações, encontrar soluções se tornará cada vez mais crítico.

“Melhorar a precisão e confiabilidade do modelo é um foco chave de nossa pesquisa contínua,” disse o porta-voz da OpenAI, Niko Felix, em um e-mail para a TechCrunch.

A indústria de IA mudou recentemente para modelos de raciocínio, que melhoram o desempenho sem exigir recursos computacionais extensivos. No entanto, essa mudança parece aumentar os riscos de alucinação, apresentando um desafio significativo.

Artigo relacionado

O CEO do ChatGPT considera a possibilidade de introduzir uma plataforma de publicidade OpenAI explora fluxos de receita e considera a publicidade no ChatGPTA OpenAI está avaliando várias estratégias de monetização, com a publicidade no ChatGPT surgindo como uma opção em potencial. Em

ChatGPT explorado para roubar dados confidenciais do Gmail em uma violação de segurança Alerta de segurança: Pesquisadores demonstram técnica de exfiltração de dados com tecnologia de IAEspecialistas em segurança cibernética descobriram recentemente uma vulnerabilidade preocupante em que

Domine a redação de cartas de apresentação com IA usando o ChatGPT - Guia do especialista Escrever cartas de apresentação personalizadas para várias solicitações de emprego tem sido tradicionalmente um desafio que exige muito tempo. Soluções modernas de IA, como o ChatGPT, agora possibilit

Comentários (4)

0/200

Enviar

GeorgeWilliams

14 de Agosto de 2025 à59 14:00:59 WEST

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin

12 de Agosto de 2025 à59 12:00:59 WEST

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams

4 de Agosto de 2025 à52 07:48:52 WEST

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker

28 de Julho de 2025 à21 02:20:21 WEST

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

Principais notícias

Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o AI Builder e Power Automate Revolucionam a Sumarização de Documentos Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada Duolingo Muda para Sistema de Energia O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Duas Maneiras Gratuitas para Assinatura de Um Ano do Perplexity Pro

Mais

Apresentou