Modelo de IA o3 da OpenAI tem pontuação mais baixa em teste de referência do que o inicialmente indicado

Lar

Notícias

7 de Junho de 2025

PatrickGonzález

# openai # o3

Modelo de IA o3 da OpenAI tem pontuação mais baixa em teste de referência do que o inicialmente indicado

Por que as discrepâncias de benchmark são importantes na IA

Quando se trata de IA, os números geralmente contam a história - e, às vezes, esses números não batem. Veja o modelo o3 da OpenAI, por exemplo. As alegações iniciais eram de cair o queixo: o o3 poderia lidar com mais de 25% dos problemas notoriamente difíceis do FrontierMath. Para fins de contexto, a concorrência estava presa em um único dígito baixo. Mas, com o avanço dos últimos desenvolvimentos, a Epoch AI - um respeitado instituto de pesquisa - deu uma guinada na narrativa. Suas descobertas sugerem que o desempenho real do o3 está próximo de 10%. Não é ruim, mas certamente não é o valor que a OpenAI apresentou inicialmente como manchete.

O que realmente está acontecendo?

Vamos detalhar. A pontuação original da OpenAI provavelmente foi obtida em condições ideais - condições que podem não ser exatamente replicáveis no mundo real. A Epoch apontou que seu ambiente de teste pode ser ligeiramente diferente do da OpenAI, e até mesmo a versão do FrontierMath que eles usaram era mais recente. Isso não quer dizer que a OpenAI tenha enganado alguém; suas afirmações iniciais estavam alinhadas com os testes internos, mas a disparidade destaca um problema mais amplo. Os benchmarks nem sempre são comparações iguais. E, convenhamos, as empresas têm incentivos para dar o melhor de si.

O papel da transparência

Essa situação traz à tona uma questão importante: Até que ponto as empresas de IA devem ser transparentes ao compartilhar resultados? Embora a OpenAI não tenha mentido completamente, suas mensagens criaram expectativas que não foram totalmente atendidas. É um equilíbrio delicado. As empresas querem mostrar seus avanços, mas também precisam ser honestas sobre o que esses números realmente significam. À medida que a IA se torna cada vez mais integrada à vida cotidiana, tanto os consumidores quanto os pesquisadores exigirão respostas mais claras.

Outras controvérsias no setor

As falhas de benchmarking não são exclusivas da OpenAI. Outros participantes do setor de IA enfrentaram um exame minucioso semelhante. Em janeiro, a Epoch se viu em maus lençóis depois de aceitar financiamento não revelado da OpenAI pouco antes do anúncio da o3. Enquanto isso, a xAI de Elon Musk foi criticada por supostamente ter ajustado seus gráficos de benchmark para fazer com que o Grok 3 parecesse melhor do que realmente era. Até mesmo a Meta, uma das gigantes da tecnologia, admitiu recentemente ter promovido pontuações com base em um modelo que não estava disponível publicamente. Claramente, a corrida para dominar as manchetes está esquentando - e nem todos estão jogando limpo.

Olhando para o futuro

Embora essas controvérsias possam parecer desanimadoras, elas são, na verdade, um sinal de progresso. À medida que o cenário da IA amadurece, o mesmo acontece com o discurso sobre responsabilidade. Consumidores e pesquisadores estão pressionando por maior transparência, e isso é bom. Isso força as empresas a serem mais ponderadas sobre a forma como apresentam suas conquistas e garante que os usuários não se deixem levar por um hype irrealista. No final das contas, o objetivo não deve ser jogar com os números - deve ser criar modelos que realmente promovam o campo.

Artigo relacionado

Organização sem fins lucrativos utiliza agentes de IA para aumentar os esforços de arrecadação de fundos para instituições de caridade Enquanto as grandes corporações de tecnologia promovem "agentes" de IA como impulsionadores de produtividade para as empresas, uma organização sem fins lucrativos está demonstrando seu potencial para

Os principais laboratórios de IA alertam que a humanidade está perdendo o controle sobre a compreensão dos sistemas de IA Em uma demonstração de união sem precedentes, pesquisadores da OpenAI, Google DeepMind, Anthropic e Meta deixaram de lado as diferenças competitivas para emitir um alerta coletivo sobre o desenvolvime

ChatGPT adiciona integração com Google Drive e Dropbox para acesso a arquivos ChatGPT aumenta a produtividade com novos recursos empresariaisA OpenAI revelou dois novos recursos poderosos que transformam o ChatGPT em uma ferramenta abrangente de produtividade empresarial: doc

Comentários (4)

0/200

Enviar

FrankSmith

10 de Setembro de 2025 à33 07:30:33 WEST

오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.

LiamWalker

12 de Agosto de 2025 à10 07:50:10 WEST

I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎

FrankLewis

7 de Agosto de 2025 à14 03:41:14 WEST

The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!

NicholasCarter

29 de Julho de 2025 à16 13:25:16 WEST

The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude Clone de Voz por IA: Guia definitivo para dominar a conversão de voz

Mais

Apresentou