opção
Lar
Notícias
Novos Modelos de IA da OpenAI Apresentam Taxas de Alucinação Mais Altas em Tarefas de Raciocínio

Novos Modelos de IA da OpenAI Apresentam Taxas de Alucinação Mais Altas em Tarefas de Raciocínio

21 de Julho de 2025
60

Novos Modelos de IA da OpenAI Apresentam Taxas de Alucinação Mais Altas em Tarefas de Raciocínio

Os novos modelos de IA o3 e o4-mini da OpenAI destacam-se em várias áreas, mas mostram maior tendência a alucinações em comparação com modelos anteriores, gerando mais informações fabricadas.

Alucinações continuam sendo um desafio persistente em IA, mesmo para sistemas de ponta. Normalmente, modelos mais novos reduzem as taxas de alucinação, mas o3 e o4-mini desviam dessa tendência.

Testes internos da OpenAI revelam que o3 e o4-mini, projetados como modelos de raciocínio, alucinam com mais frequência do que modelos de raciocínio anteriores como o1, o1-mini e o3-mini, assim como modelos não voltados para raciocínio como GPT-4o.

A causa desse aumento permanece incerta para a OpenAI, gerando preocupações.

O relatório técnico da OpenAI sobre o3 e o4-mini destaca que mais pesquisas são necessárias para identificar por que as taxas de alucinação aumentam com modelos de raciocínio ampliados. Embora esses modelos superem em áreas como codificação e matemática, sua tendência a fazer mais afirmações leva a saídas precisas e imprecisas, segundo o relatório.

No benchmark PersonQA da OpenAI, o3 alucinou em 33% das respostas, dobrando as taxas de o1 (16%) e o3-mini (14,8%). O4-mini teve desempenho pior, alucinando em 48% dos casos.

Transluce, um grupo de pesquisa em IA sem fins lucrativos, descobriu que o3 fabricava ações, como afirmar que executou código em um MacBook Pro de 2021 fora do ChatGPT, apesar de não ter tais capacidades.

“Suspeitamos que o aprendizado por reforço usado nos modelos da série o pode exacerbar problemas geralmente atenuados por métodos padrão de pós-treinamento,” disse o pesquisador da Transluce e ex-funcionário da OpenAI, Neil Chowdhury, em um e-mail para a TechCrunch.

A co-fundadora da Transluce, Sarah Schwettmann, observou que a taxa de alucinação do o3 pode reduzir sua utilidade prática.

Kian Katanforoosh, professor adjunto de Stanford e CEO da Workera, disse à TechCrunch que sua equipe considerou o o3 superior para fluxos de trabalho de codificação, mas propenso a gerar links de sites quebrados.

Embora alucinações possam estimular ideias criativas, elas representam desafios para indústrias como o direito, onde a precisão é crítica e erros em documentos são inaceitáveis.

A integração de capacidades de busca na web mostra promessa para melhorar a precisão. O GPT-4o da OpenAI com busca na web atinge 90% de precisão no SimpleQA, sugerindo potencial para reduzir alucinações em modelos de raciocínio quando os usuários permitem acesso a buscas de terceiros.

Se a escalada de modelos de raciocínio continuar a aumentar alucinações, encontrar soluções se tornará cada vez mais crítico.

“Melhorar a precisão e confiabilidade do modelo é um foco chave de nossa pesquisa contínua,” disse o porta-voz da OpenAI, Niko Felix, em um e-mail para a TechCrunch.

A indústria de IA mudou recentemente para modelos de raciocínio, que melhoram o desempenho sem exigir recursos computacionais extensivos. No entanto, essa mudança parece aumentar os riscos de alucinação, apresentando um desafio significativo.

Artigo relacionado
OpenAI Apresenta Dois Modelos Avançados de IA de Peso Aberto OpenAI Apresenta Dois Modelos Avançados de IA de Peso Aberto A OpenAI anunciou na terça-feira o lançamento de dois modelos de raciocínio de IA de peso aberto, com capacidades comparáveis à sua série o. Ambos os modelos estão disponíveis para download gratuito n
ByteDance Revela o Modelo de IA Seed-Thinking-v1.5 para Impulsionar Capacidades de Raciocínio ByteDance Revela o Modelo de IA Seed-Thinking-v1.5 para Impulsionar Capacidades de Raciocínio A corrida por IA com raciocínio avançado começou com o modelo o1 da OpenAI em setembro de 2024, ganhando impulso com o lançamento do R1 da DeepSeek em janeiro de 2025.Os principais desenvolvedores de
Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este
Comentários (4)
0/200
GeorgeWilliams
GeorgeWilliams 14 de Agosto de 2025 à59 14:00:59 WEST

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 12 de Agosto de 2025 à59 12:00:59 WEST

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 4 de Agosto de 2025 à52 07:48:52 WEST

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 28 de Julho de 2025 à21 02:20:21 WEST

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

De volta ao topo
OR