opção
Lar
Notícias
AI Benchmarks: devemos ignorá -los por enquanto?

AI Benchmarks: devemos ignorá -los por enquanto?

10 de Abril de 2025
216

Bem-vindo ao boletim regular de IA da TechCrunch! Estamos fazendo uma pequena pausa, mas não se preocupe, você ainda pode obter toda a nossa cobertura de IA, incluindo minhas colunas, análises diárias e notícias de última hora, aqui mesmo na TechCrunch. Quer receber essas histórias diretamente na sua caixa de entrada todos os dias? Basta se inscrever em nossos boletins diários aqui.

Esta semana, a startup de IA de Elon Musk, xAI, lançou seu mais recente modelo de IA de ponta, Grok 3, que está impulsionando os aplicativos de chatbot Grok da empresa. Eles o treinaram em impressionantes 200.000 GPUs, e ele está superando vários outros modelos de ponta, incluindo alguns da OpenAI, em benchmarks de matemática, codificação e mais.

Mas vamos falar sobre o que esses benchmarks realmente significam.

Aqui na TC, reportamos esses números de benchmark, mesmo que nem sempre estejamos entusiasmados com isso, porque são uma das poucas maneiras pelas quais a indústria de IA tenta mostrar como seus modelos estão melhorando. O problema é que esses benchmarks de IA populares muitas vezes se concentram em coisas obscuras e dão pontuações que não refletem realmente o quão bem a IA faz as coisas que as pessoas realmente se importam.

Ethan Mollick, professor da Wharton, foi ao X dizer que há uma real necessidade de melhores testes e grupos independentes para executá-los. Ele destacou que as empresas de IA muitas vezes relatam seus próprios resultados de benchmark, o que torna difícil confiar neles completamente.

"Os benchmarks públicos são tanto 'meh' quanto saturados, deixando muito do teste de IA ser como críticas de comida, baseadas no gosto," escreveu Mollick. "Se a IA é crítica para o trabalho, precisamos de mais."

Há muitas pessoas por aí tentando criar novos benchmarks para IA, mas ninguém consegue concordar sobre o que é melhor. Alguns acham que os benchmarks deveriam focar no impacto econômico para serem úteis, enquanto outros acreditam que a adoção no mundo real e a utilidade são as verdadeiras medidas de sucesso.

Esse debate poderia continuar para sempre. Talvez, como sugere o usuário do X, Roon, devêssemos simplesmente prestar menos atenção a novos modelos e benchmarks, a menos que haja um grande avanço em IA. Pode ser melhor para nossa sanidade, mesmo que isso signifique perder um pouco do hype da IA.

Como mencionado, This Week in AI está fazendo uma pausa. Obrigado por nos acompanhar, leitores, por todos os altos e baixos. Até a próxima.

Notícias

Créditos da Imagem: Nathan Laine/Bloomberg / Getty Images
A OpenAI está tentando "descensurar" o ChatGPT. Max escreveu sobre como eles estão mudando sua abordagem ao desenvolvimento de IA para abraçar a "liberdade intelectual", mesmo em tópicos difíceis ou controversos.

Mira Murati, ex-CTO da OpenAI, tem uma nova startup chamada Thinking Machines Lab. Eles estão trabalhando em ferramentas para "fazer a IA trabalhar para as necessidades e objetivos únicos das pessoas".

A xAI lançou o Grok 3 e adicionou novos recursos aos aplicativos Grok para iOS e web.

A Meta está organizando sua primeira conferência de desenvolvedores focada em IA generativa nesta primavera. Chama-se LlamaCon, em homenagem aos seus modelos Llama, e acontecerá em 29 de abril.

Paul escreveu sobre o OpenEuroLLM, um projeto de cerca de 20 organizações para construir modelos de base para "IA transparente na Europa" que respeita a "diversidade linguística e cultural" de todas as línguas da UE.

Artigo de pesquisa da semana

Site do OpenAI ChatGPT exibido na tela de um laptop é visto nesta foto de ilustração.

Créditos da Imagem: Jakub Porzycki/NurPhoto / Getty Images
Pesquisadores da OpenAI criaram um novo benchmark de IA chamado SWE-Lancer para testar o quão bem a IA pode codificar. Ele é composto por mais de 1.400 tarefas de engenharia de software freelance, desde corrigir bugs e adicionar recursos até propor implementações técnicas.

A OpenAI diz que o modelo de melhor desempenho, Claude 3.5 Sonnet da Anthropic, obteve apenas 40,3% no benchmark completo SWE-Lancer, o que mostra que a IA ainda tem um longo caminho a percorrer. Eles não testaram modelos mais novos como o o3-mini da OpenAI ou o R1 da DeepSeek da China.

Modelo da semana

Uma empresa chinesa de IA chamada Stepfun lançou um modelo de IA "aberto" chamado Step-Audio que pode entender e gerar fala em chinês, inglês e japonês. Os usuários podem até ajustar a emoção e o dialeto do áudio sintético, incluindo canto.

A Stepfun é uma das várias startups chinesas de IA bem financiadas que lançam modelos com licenças permissivas. Fundada em 2023, eles recentemente fecharam uma rodada de financiamento no valor de centenas de milhões de investidores, incluindo empresas de private equity estatais chinesas.

Mix

Nous Research DeepHermes

Créditos da Imagem: Nous Research
Nous Research, um grupo de pesquisa em IA, afirma ter lançado um dos primeiros modelos de IA que combina raciocínio com "capacidades intuitivas de modelo de linguagem".

Seu modelo, DeepHermes-3 Preview, pode alternar entre "cadeias de pensamento" curtas e longas para equilibrar precisão e poder computacional. No modo "raciocínio", ele leva mais tempo para resolver problemas mais difíceis e mostra seu processo de pensamento ao longo do caminho.

Segundo relatos, a Anthropic planeja lançar um modelo semelhante em breve, e a OpenAI diz que está em seu roadmap de curto prazo.

Artigo relacionado
Grok critica os democratas e os Grok critica os democratas e os "executivos judeus" de Hollywood em comentários polêmicos Na manhã de sexta-feira, Elon Musk anunciou atualizações significativas para o @Grok, afirmando que os usuários notariam um melhor desempenho ao interagir com o assistente de IA. Embora não tenham sid
Organização sem fins lucrativos utiliza agentes de IA para aumentar os esforços de arrecadação de fundos para instituições de caridade Organização sem fins lucrativos utiliza agentes de IA para aumentar os esforços de arrecadação de fundos para instituições de caridade Enquanto as grandes corporações de tecnologia promovem "agentes" de IA como impulsionadores de produtividade para as empresas, uma organização sem fins lucrativos está demonstrando seu potencial para
Os principais laboratórios de IA alertam que a humanidade está perdendo o controle sobre a compreensão dos sistemas de IA Os principais laboratórios de IA alertam que a humanidade está perdendo o controle sobre a compreensão dos sistemas de IA Em uma demonstração de união sem precedentes, pesquisadores da OpenAI, Google DeepMind, Anthropic e Meta deixaram de lado as diferenças competitivas para emitir um alerta coletivo sobre o desenvolvime
Comentários (61)
0/200
JonathanDavis
JonathanDavis 19 de Agosto de 2025 à53 07:26:53 WEST

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 19 de Agosto de 2025 à59 06:00:59 WEST

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 11 de Agosto de 2025 à59 20:00:59 WEST

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 4 de Agosto de 2025 à0 07:01:00 WEST

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 1 de Agosto de 2025 à18 03:48:18 WEST

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 28 de Julho de 2025 à2 02:20:02 WEST

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

De volta ao topo
OR