opção
Lar
Notícias
Os modelos de 'raciocínio' da IA ​​surgem, aumentando os custos de benchmarking

Os modelos de 'raciocínio' da IA ​​surgem, aumentando os custos de benchmarking

22 de Abril de 2025
162

Os modelos de 'raciocínio' da IA ​​surgem, aumentando os custos de benchmarking

O Crescente Custo de Avaliação de Modelos de Raciocínio de IA

Laboratórios de IA como a OpenAI têm promovido seus modelos avançados de "raciocínio", projetados para abordar problemas complexos passo a passo. Esses modelos, particularmente eficazes em áreas como física, são de fato impressionantes. No entanto, eles vêm com um preço elevado quando se trata de avaliação, tornando desafiadora a verificação independente de suas capacidades.

De acordo com dados da Artificial Analysis, uma empresa terceirizada de testes de IA, o custo para avaliar o modelo de raciocínio o1 da OpenAI em sete benchmarks populares de IA é impressionante: $2.767,05. Esses benchmarks incluem MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 e MATH-500. Em contrapartida, a avaliação do modelo de raciocínio "híbrido" Claude 3.7 Sonnet da Anthropic nos mesmos testes custou $1.485,35, enquanto o o3-mini-high da OpenAI foi significativamente mais barato, custando $344,59.

Nem todos os modelos de raciocínio são igualmente caros para testar. Por exemplo, a Artificial Analysis gastou apenas $141,22 avaliando o o1-mini da OpenAI. No entanto, os custos desses modelos tendem a ser altos em média. A Artificial Analysis desembolsou cerca de $5.200 para avaliar cerca de uma dúzia de modelos de raciocínio, o que é quase o dobro dos $2.400 gastos na análise de mais de 80 modelos não voltados para raciocínio.

Para comparação, o modelo não voltado para raciocínio GPT-4o da OpenAI, lançado em maio de 2024, custou à Artificial Analysis apenas $108,85 para ser avaliado, enquanto o Claude 3.6 Sonnet, antecessor não voltado para raciocínio do Claude 3.7 Sonnet, custou $81,41.

George Cameron, cofundador da Artificial Analysis, compartilhou com a TechCrunch que a organização está preparada para aumentar seu orçamento de avaliação à medida que mais laboratórios de IA continuam a desenvolver modelos de raciocínio. "Na Artificial Analysis, realizamos centenas de avaliações mensalmente e dedicamos um orçamento significativo a isso", afirmou Cameron. "Estamos planejando aumentar esse gasto à medida que os modelos são lançados com mais frequência."

A Artificial Analysis não está sozinha enfrentando esses custos crescentes. Ross Taylor, CEO da startup de IA General Reasoning, gastou recentemente $580 para avaliar o Claude 3.7 Sonnet em cerca de 3.700 prompts únicos. Taylor estima que uma única execução do MMLU Pro, um benchmark projetado para testar a compreensão de linguagem, excederia $1.800.

Taylor destacou uma preocupação crescente em um post recente no X, afirmando: "Estamos caminhando para um mundo onde um laboratório relata x% em um benchmark onde gastam y quantidade de computação, mas onde os recursos para acadêmicos são

Por Que os Modelos de Raciocínio São Tão Caros para Avaliar?

A principal razão para o alto custo de teste dos modelos de raciocínio é sua tendência a gerar um número substancial de tokens. Tokens são unidades de texto bruto; por exemplo, a palavra "fantástico" pode ser dividida em "fan", "tas" e "tic". De acordo com a Artificial Analysis, o modelo o1 da OpenAI gerou mais de 44 milhões de tokens durante seus testes, o que é aproximadamente oito vezes o número de tokens gerados pelo modelo não voltado para raciocínio GPT-4o.

A maioria das empresas de IA cobra pelo uso do modelo com base no número de tokens, o que rapidamente se acumula. Além disso, os benchmarks modernos são projetados para elicitar um alto número de tokens ao incluir perguntas que envolvem tarefas complexas e de várias etapas. Jean-Stanislas Denain, pesquisador sênior da Epoch AI, explicou à TechCrunch: "Os benchmarks de hoje são mais complexos, embora o número de perguntas por benchmark tenha diminuído no geral. Eles frequentemente tentam avaliar a capacidade dos modelos de realizar tarefas do mundo real, como escrever e executar código, navegar na internet e usar computadores."

Denain também destacou que o custo por token para os modelos mais caros tem aumentado. Por exemplo, quando o Claude 3 Opus da Anthropic foi lançado em maio de 2024, custava $75 por milhão de tokens de saída. Em contrapartida, o GPT-4.5 e o o1-pro da OpenAI, lançados no início daquele ano, custavam $150 e $600 por milhão de tokens de saída, respectivamente.

Apesar do aumento do custo por token, Denain observou: "Como os modelos melhoraram ao longo do tempo, ainda é verdade que o custo para alcançar um determinado nível de desempenho diminuiu significativamente. Mas se você deseja avaliar os melhores e maiores modelos em qualquer momento, ainda está pagando mais."

A Integridade da Avaliação

Muitos laboratórios de IA, incluindo a OpenAI, oferecem acesso gratuito ou subsidiado aos seus modelos para fins de avaliação. No entanto, essa prática levanta preocupações sobre a integridade do processo de avaliação. Mesmo sem evidências de manipulação, a mera sugestão de envolvimento de um laboratório de IA pode lançar dúvidas sobre a objetividade dos resultados.

Ross Taylor expressou essa preocupação no X, perguntando: "Do ponto de vista científico, se você publica um resultado que ninguém pode replicar com o mesmo modelo, isso ainda é ciência? (Alguma vez foi ciência, rs)"

Os altos custos e os potenciais vieses na avaliação de IA destacam os desafios enfrentados pelo campo à medida que ele se esforça para desenvolver e validar modelos cada vez mais sofisticados.

Artigo relacionado
Claude Opus 4.7 é lançado com a confiabilidade em detrimento da inteligência Claude Opus 4.7 é lançado com a confiabilidade em detrimento da inteligência A Anthropic manteve um ritmo acelerado este ano, lançando novos recursos quase a cada dois dias. O tão aguardado Claude Opus 4.7 acaba de ser lançado oficialmente e, curiosamente, a Anthropic foi dire
A Haier lança o robô exoesqueleto esportivo com IA mais leve do mundo, pesando apenas 1,75 kg A Haier lança o robô exoesqueleto esportivo com IA mais leve do mundo, pesando apenas 1,75 kg O Grupo Haier apresentou o robô exoesqueleto com inteligência artificial mais leve do mundo para esportes — o Haier Exoskeleton Robot W3. Este lançamento estabelece um novo recorde do setor em termos
A primeira série dramática com AIGC da Yaoke Media, “O Mistério do Bronze em Qinling”, estreia hoje com protagonistas criados por IA A primeira série dramática com AIGC da Yaoke Media, “O Mistério do Bronze em Qinling”, estreia hoje com protagonistas criados por IA Hoje marca o lançamento oficial da minissérie de mistério e fantasia com IA da Yaoke Media, “A História Secreta do Bronze de Qinling”. Estrelada pelos dois primeiros atores de IA contratados pela empr
Recomendações de tópicos especiais relacionados
Negócios Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas
Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas

Os melhores gerenciadores de despesas com IA de 2026: as ferramentas mais bem avaliadas para digitalizar recibos e categorizar despesas corporativas automaticamente. Descubra soluções poderosas e revolucionárias para uma gestão de despesas sem esforço, um acompanhamento financeiro preciso e uma conformidade simplificada. Nossa comparação, cuidadosamente selecionada e atualizada semanalmente, entre opções gratuitas e pagas ajuda você a encontrar a solução ideal. Aproveite ao máximo as vantagens da IA com as recomendações dos especialistas da XIX.AI.

10 ferramentas
xix.ai
Negócios As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos
As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos

Descubra as melhores ferramentas de recrutamento com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções poderosas e revolucionárias para a triagem de currículos e a automação do agendamento de entrevistas com candidatos. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de contratação ideal e otimize seu processo de recrutamento hoje mesmo!

10 ferramentas
xix.ai
Produtividade Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental
Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental

Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.

10 ferramentas
xix.ai
chatbot Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes
Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes

Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.

10 ferramentas
xix.ai
Educação e Aprendizagem Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina
Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina

Descubra os melhores mentores em ciência de dados com IA para 2026, que o ajudarão a dominar SQL, Pandas e fluxos de trabalho de aprendizado de máquina. Conheça nossa seleção cuidadosamente elaborada e altamente avaliada no XIX.AI para obter orientações poderosas e revolucionárias. Compare opções gratuitas e pagas com informações valiosas da prática real. Domine a ciência de dados hoje mesmo.

10 ferramentas
xix.ai
chatbot Os melhores treinadores de paquera e conversação com IA: melhore seu carisma social e sua autoconfiança em tempo real
Os melhores treinadores de paquera e conversação com IA: melhore seu carisma social e sua autoconfiança em tempo real

Descubra os melhores treinadores de conversação e paquera com IA de 2026 no XIX.AI. Nossa seleção cuidadosamente escolhida e com as melhores avaliações ajuda você a desenvolver carisma social e confiança em tempo real. Explore ferramentas imperdíveis e revolucionárias, com comparações entre versões gratuitas e pagas e rankings atualizados semanalmente. Descubra hoje mesmo o seu diferencial social.

10 ferramentas
xix.ai
Comentários (17)
0/500
FrankJackson
FrankJackson 10 de Agosto de 2025 à0 10:01:00 WEST

These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?

DouglasRodriguez
DouglasRodriguez 28 de Julho de 2025 à21 02:20:21 WEST

These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.

StevenGonzalez
StevenGonzalez 24 de Abril de 2025 à5 13:58:05 WEST

These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕

JackPerez
JackPerez 24 de Abril de 2025 à48 08:52:48 WEST

Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕

GregoryJones
GregoryJones 24 de Abril de 2025 à43 08:10:43 WEST

AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕

SamuelRoberts
SamuelRoberts 24 de Abril de 2025 à58 05:23:58 WEST

Esses modelos de raciocínio de IA parecem legais, mas o aumento dos custos de benchmarking? Não tanto. Será que podemos ter os benefícios sem falir? 🤔

OR