opção
Lar
Notícias
AI Benchmarks: devemos ignorá -los por enquanto?

AI Benchmarks: devemos ignorá -los por enquanto?

10 de Abril de 2025
240

Bem-vindo ao boletim regular de IA da TechCrunch! Estamos fazendo uma pequena pausa, mas não se preocupe, você ainda pode obter toda a nossa cobertura de IA, incluindo minhas colunas, análises diárias e notícias de última hora, aqui mesmo na TechCrunch. Quer receber essas histórias diretamente na sua caixa de entrada todos os dias? Basta se inscrever em nossos boletins diários aqui.

Esta semana, a startup de IA de Elon Musk, xAI, lançou seu mais recente modelo de IA de ponta, Grok 3, que está impulsionando os aplicativos de chatbot Grok da empresa. Eles o treinaram em impressionantes 200.000 GPUs, e ele está superando vários outros modelos de ponta, incluindo alguns da OpenAI, em benchmarks de matemática, codificação e mais.

Mas vamos falar sobre o que esses benchmarks realmente significam.

Aqui na TC, reportamos esses números de benchmark, mesmo que nem sempre estejamos entusiasmados com isso, porque são uma das poucas maneiras pelas quais a indústria de IA tenta mostrar como seus modelos estão melhorando. O problema é que esses benchmarks de IA populares muitas vezes se concentram em coisas obscuras e dão pontuações que não refletem realmente o quão bem a IA faz as coisas que as pessoas realmente se importam.

Ethan Mollick, professor da Wharton, foi ao X dizer que há uma real necessidade de melhores testes e grupos independentes para executá-los. Ele destacou que as empresas de IA muitas vezes relatam seus próprios resultados de benchmark, o que torna difícil confiar neles completamente.

"Os benchmarks públicos são tanto 'meh' quanto saturados, deixando muito do teste de IA ser como críticas de comida, baseadas no gosto," escreveu Mollick. "Se a IA é crítica para o trabalho, precisamos de mais."

Há muitas pessoas por aí tentando criar novos benchmarks para IA, mas ninguém consegue concordar sobre o que é melhor. Alguns acham que os benchmarks deveriam focar no impacto econômico para serem úteis, enquanto outros acreditam que a adoção no mundo real e a utilidade são as verdadeiras medidas de sucesso.

Esse debate poderia continuar para sempre. Talvez, como sugere o usuário do X, Roon, devêssemos simplesmente prestar menos atenção a novos modelos e benchmarks, a menos que haja um grande avanço em IA. Pode ser melhor para nossa sanidade, mesmo que isso signifique perder um pouco do hype da IA.

Como mencionado, This Week in AI está fazendo uma pausa. Obrigado por nos acompanhar, leitores, por todos os altos e baixos. Até a próxima.

Notícias

Créditos da Imagem: Nathan Laine/Bloomberg / Getty Images
A OpenAI está tentando "descensurar" o ChatGPT. Max escreveu sobre como eles estão mudando sua abordagem ao desenvolvimento de IA para abraçar a "liberdade intelectual", mesmo em tópicos difíceis ou controversos.

Mira Murati, ex-CTO da OpenAI, tem uma nova startup chamada Thinking Machines Lab. Eles estão trabalhando em ferramentas para "fazer a IA trabalhar para as necessidades e objetivos únicos das pessoas".

A xAI lançou o Grok 3 e adicionou novos recursos aos aplicativos Grok para iOS e web.

A Meta está organizando sua primeira conferência de desenvolvedores focada em IA generativa nesta primavera. Chama-se LlamaCon, em homenagem aos seus modelos Llama, e acontecerá em 29 de abril.

Paul escreveu sobre o OpenEuroLLM, um projeto de cerca de 20 organizações para construir modelos de base para "IA transparente na Europa" que respeita a "diversidade linguística e cultural" de todas as línguas da UE.

Artigo de pesquisa da semana

Site do OpenAI ChatGPT exibido na tela de um laptop é visto nesta foto de ilustração.

Créditos da Imagem: Jakub Porzycki/NurPhoto / Getty Images
Pesquisadores da OpenAI criaram um novo benchmark de IA chamado SWE-Lancer para testar o quão bem a IA pode codificar. Ele é composto por mais de 1.400 tarefas de engenharia de software freelance, desde corrigir bugs e adicionar recursos até propor implementações técnicas.

A OpenAI diz que o modelo de melhor desempenho, Claude 3.5 Sonnet da Anthropic, obteve apenas 40,3% no benchmark completo SWE-Lancer, o que mostra que a IA ainda tem um longo caminho a percorrer. Eles não testaram modelos mais novos como o o3-mini da OpenAI ou o R1 da DeepSeek da China.

Modelo da semana

Uma empresa chinesa de IA chamada Stepfun lançou um modelo de IA "aberto" chamado Step-Audio que pode entender e gerar fala em chinês, inglês e japonês. Os usuários podem até ajustar a emoção e o dialeto do áudio sintético, incluindo canto.

A Stepfun é uma das várias startups chinesas de IA bem financiadas que lançam modelos com licenças permissivas. Fundada em 2023, eles recentemente fecharam uma rodada de financiamento no valor de centenas de milhões de investidores, incluindo empresas de private equity estatais chinesas.

Mix

Nous Research DeepHermes

Créditos da Imagem: Nous Research
Nous Research, um grupo de pesquisa em IA, afirma ter lançado um dos primeiros modelos de IA que combina raciocínio com "capacidades intuitivas de modelo de linguagem".

Seu modelo, DeepHermes-3 Preview, pode alternar entre "cadeias de pensamento" curtas e longas para equilibrar precisão e poder computacional. No modo "raciocínio", ele leva mais tempo para resolver problemas mais difíceis e mostra seu processo de pensamento ao longo do caminho.

Segundo relatos, a Anthropic planeja lançar um modelo semelhante em breve, e a OpenAI diz que está em seu roadmap de curto prazo.

Artigo relacionado
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
A duração do contrato de locação da Anthropic com a SpaceX divide opiniões A duração do contrato de locação da Anthropic com a SpaceX divide opiniões No início deste mês, a xAI fechou um importante acordo de computação com a Anthropic, comprometendo-se a pagar bilhões por mês pelo acesso exclusivo ao cluster Colossus. O acordo revelou-se vantajoso
Greg Brockman revela como Elon Musk deixou a OpenAI Greg Brockman revela como Elon Musk deixou a OpenAI No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
Recomendações de tópicos especiais relacionados
Produtividade Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental
Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental

Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.

10 ferramentas
xix.ai
chatbot Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes
Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes

Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.

10 ferramentas
xix.ai
Educação e Aprendizagem Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina
Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina

Descubra os melhores mentores em ciência de dados com IA para 2026, que o ajudarão a dominar SQL, Pandas e fluxos de trabalho de aprendizado de máquina. Conheça nossa seleção cuidadosamente elaborada e altamente avaliada no XIX.AI para obter orientações poderosas e revolucionárias. Compare opções gratuitas e pagas com informações valiosas da prática real. Domine a ciência de dados hoje mesmo.

10 ferramentas
xix.ai
chatbot Os melhores treinadores de paquera e conversação com IA: melhore seu carisma social e sua autoconfiança em tempo real
Os melhores treinadores de paquera e conversação com IA: melhore seu carisma social e sua autoconfiança em tempo real

Descubra os melhores treinadores de conversação e paquera com IA de 2026 no XIX.AI. Nossa seleção cuidadosamente escolhida e com as melhores avaliações ajuda você a desenvolver carisma social e confiança em tempo real. Explore ferramentas imperdíveis e revolucionárias, com comparações entre versões gratuitas e pagas e rankings atualizados semanalmente. Descubra hoje mesmo o seu diferencial social.

10 ferramentas
xix.ai
código Os melhores ferramentas de IA para testes unitários automatizados: geração de casos de teste Jest, PyTest e JUnit com apenas um clique
Os melhores ferramentas de IA para testes unitários automatizados: geração de casos de teste Jest, PyTest e JUnit com apenas um clique

Descubra as mais recentes e bem avaliadas ferramentas de IA de 2026 para testes unitários automatizados. Nossa seleção cuidadosa inclui soluções poderosas que podem transformar o seu processo, permitindo gerar casos de teste para Jest, PyTest e JUnit de forma instantânea. Compare opções gratuitas e pagas com testes reais e classificações atualizadas semanalmente no XIX.AI. Desfrute das vantagens da IA e aumente a produtividade do seu desenvolvimento hoje mesmo.

10 ferramentas
xix.ai
Análise de dados As melhores ferramentas de visualização de dados com IA: gere automaticamente painéis interativos de BI a partir de arquivos brutos
As melhores ferramentas de visualização de dados com IA: gere automaticamente painéis interativos de BI a partir de arquivos brutos

Descubra as melhores ferramentas de visualização de dados com IA de 2026 no XIX.AI. Nossa seleção cuidadosamente escolhida e com as melhores avaliações ajuda você a gerar automaticamente painéis de BI poderosos e interativos a partir de arquivos brutos, de forma instantânea. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Liberte o potencial dos seus dados hoje mesmo.

10 ferramentas
xix.ai
Comentários (61)
0/500
JonathanDavis
JonathanDavis 19 de Agosto de 2025 à53 07:26:53 WEST

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 19 de Agosto de 2025 à59 06:00:59 WEST

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 11 de Agosto de 2025 à59 20:00:59 WEST

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 4 de Agosto de 2025 à0 07:01:00 WEST

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 1 de Agosto de 2025 à18 03:48:18 WEST

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 28 de Julho de 2025 à2 02:20:02 WEST

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

OR