opção
Lar
Notícias
AI Benchmarks: devemos ignorá -los por enquanto?

AI Benchmarks: devemos ignorá -los por enquanto?

10 de Abril de 2025
169

Bem-vindo ao boletim regular de IA da TechCrunch! Estamos fazendo uma pequena pausa, mas não se preocupe, você ainda pode obter toda a nossa cobertura de IA, incluindo minhas colunas, análises diárias e notícias de última hora, aqui mesmo na TechCrunch. Quer receber essas histórias diretamente na sua caixa de entrada todos os dias? Basta se inscrever em nossos boletins diários aqui.

Esta semana, a startup de IA de Elon Musk, xAI, lançou seu mais recente modelo de IA de ponta, Grok 3, que está impulsionando os aplicativos de chatbot Grok da empresa. Eles o treinaram em impressionantes 200.000 GPUs, e ele está superando vários outros modelos de ponta, incluindo alguns da OpenAI, em benchmarks de matemática, codificação e mais.

Mas vamos falar sobre o que esses benchmarks realmente significam.

Aqui na TC, reportamos esses números de benchmark, mesmo que nem sempre estejamos entusiasmados com isso, porque são uma das poucas maneiras pelas quais a indústria de IA tenta mostrar como seus modelos estão melhorando. O problema é que esses benchmarks de IA populares muitas vezes se concentram em coisas obscuras e dão pontuações que não refletem realmente o quão bem a IA faz as coisas que as pessoas realmente se importam.

Ethan Mollick, professor da Wharton, foi ao X dizer que há uma real necessidade de melhores testes e grupos independentes para executá-los. Ele destacou que as empresas de IA muitas vezes relatam seus próprios resultados de benchmark, o que torna difícil confiar neles completamente.

"Os benchmarks públicos são tanto 'meh' quanto saturados, deixando muito do teste de IA ser como críticas de comida, baseadas no gosto," escreveu Mollick. "Se a IA é crítica para o trabalho, precisamos de mais."

Há muitas pessoas por aí tentando criar novos benchmarks para IA, mas ninguém consegue concordar sobre o que é melhor. Alguns acham que os benchmarks deveriam focar no impacto econômico para serem úteis, enquanto outros acreditam que a adoção no mundo real e a utilidade são as verdadeiras medidas de sucesso.

Esse debate poderia continuar para sempre. Talvez, como sugere o usuário do X, Roon, devêssemos simplesmente prestar menos atenção a novos modelos e benchmarks, a menos que haja um grande avanço em IA. Pode ser melhor para nossa sanidade, mesmo que isso signifique perder um pouco do hype da IA.

Como mencionado, This Week in AI está fazendo uma pausa. Obrigado por nos acompanhar, leitores, por todos os altos e baixos. Até a próxima.

Notícias

Créditos da Imagem: Nathan Laine/Bloomberg / Getty Images
A OpenAI está tentando "descensurar" o ChatGPT. Max escreveu sobre como eles estão mudando sua abordagem ao desenvolvimento de IA para abraçar a "liberdade intelectual", mesmo em tópicos difíceis ou controversos.

Mira Murati, ex-CTO da OpenAI, tem uma nova startup chamada Thinking Machines Lab. Eles estão trabalhando em ferramentas para "fazer a IA trabalhar para as necessidades e objetivos únicos das pessoas".

A xAI lançou o Grok 3 e adicionou novos recursos aos aplicativos Grok para iOS e web.

A Meta está organizando sua primeira conferência de desenvolvedores focada em IA generativa nesta primavera. Chama-se LlamaCon, em homenagem aos seus modelos Llama, e acontecerá em 29 de abril.

Paul escreveu sobre o OpenEuroLLM, um projeto de cerca de 20 organizações para construir modelos de base para "IA transparente na Europa" que respeita a "diversidade linguística e cultural" de todas as línguas da UE.

Artigo de pesquisa da semana

Site do OpenAI ChatGPT exibido na tela de um laptop é visto nesta foto de ilustração.

Créditos da Imagem: Jakub Porzycki/NurPhoto / Getty Images
Pesquisadores da OpenAI criaram um novo benchmark de IA chamado SWE-Lancer para testar o quão bem a IA pode codificar. Ele é composto por mais de 1.400 tarefas de engenharia de software freelance, desde corrigir bugs e adicionar recursos até propor implementações técnicas.

A OpenAI diz que o modelo de melhor desempenho, Claude 3.5 Sonnet da Anthropic, obteve apenas 40,3% no benchmark completo SWE-Lancer, o que mostra que a IA ainda tem um longo caminho a percorrer. Eles não testaram modelos mais novos como o o3-mini da OpenAI ou o R1 da DeepSeek da China.

Modelo da semana

Uma empresa chinesa de IA chamada Stepfun lançou um modelo de IA "aberto" chamado Step-Audio que pode entender e gerar fala em chinês, inglês e japonês. Os usuários podem até ajustar a emoção e o dialeto do áudio sintético, incluindo canto.

A Stepfun é uma das várias startups chinesas de IA bem financiadas que lançam modelos com licenças permissivas. Fundada em 2023, eles recentemente fecharam uma rodada de financiamento no valor de centenas de milhões de investidores, incluindo empresas de private equity estatais chinesas.

Mix

Nous Research DeepHermes

Créditos da Imagem: Nous Research
Nous Research, um grupo de pesquisa em IA, afirma ter lançado um dos primeiros modelos de IA que combina raciocínio com "capacidades intuitivas de modelo de linguagem".

Seu modelo, DeepHermes-3 Preview, pode alternar entre "cadeias de pensamento" curtas e longas para equilibrar precisão e poder computacional. No modo "raciocínio", ele leva mais tempo para resolver problemas mais difíceis e mostra seu processo de pensamento ao longo do caminho.

Segundo relatos, a Anthropic planeja lançar um modelo semelhante em breve, e a OpenAI diz que está em seu roadmap de curto prazo.

Artigo relacionado
Ex-Engenheiro da OpenAI Compartilha Percepções sobre Cultura da Empresa e Crescimento Rápido Ex-Engenheiro da OpenAI Compartilha Percepções sobre Cultura da Empresa e Crescimento Rápido Há três semanas, Calvin French-Owen, um engenheiro que contribuiu para um produto chave da OpenAI, deixou a empresa.Ele recentemente compartilhou um post de blog cativante detalhando seu ano na OpenAI
Google Revela Modelos de IA Gemini 2.5 Prontos para Produção para Competir com a OpenAI no Mercado Empresarial Google Revela Modelos de IA Gemini 2.5 Prontos para Produção para Competir com a OpenAI no Mercado Empresarial A Google intensificou sua estratégia de IA na segunda-feira, lançando seus modelos avançados Gemini 2.5 para uso empresarial e introduzindo uma variante econômica para competir em preço e desempenho.A
Meta Oferece Alto Salário para Talentos em IA, Nega Bônus de Contratação de $100M Meta Oferece Alto Salário para Talentos em IA, Nega Bônus de Contratação de $100M Meta atrai pesquisadores de IA para seu novo laboratório de superinteligência com pacotes de compensação multimilionários. No entanto, alegações de bônus de contratação de $100 milhões são falsas, seg
Comentários (58)
0/200
BillyLewis
BillyLewis 4 de Agosto de 2025 à0 07:01:00 WEST

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 1 de Agosto de 2025 à18 03:48:18 WEST

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 28 de Julho de 2025 à2 02:20:02 WEST

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

ChristopherThomas
ChristopherThomas 26 de Abril de 2025 à18 06:57:18 WEST

I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔

BrianWalker
BrianWalker 25 de Abril de 2025 à34 20:19:34 WEST

Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔

CharlesMartinez
CharlesMartinez 22 de Abril de 2025 à53 16:01:53 WEST

Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔

De volta ao topo
OR