Lar Notícias AI Benchmarks: devemos ignorá -los por enquanto?

AI Benchmarks: devemos ignorá -los por enquanto?

10 de Abril de 2025
MarkWilson
79

Bem -vindo ao boletim informativo regular da AI da TechCrunch! Estamos fazendo uma pequena pausa, mas não se preocupe, você ainda pode obter toda a nossa cobertura de IA, incluindo minhas colunas, análise diária e notícias de última hora, aqui no TechCrunch. Quer levar essas histórias diretamente para sua caixa de entrada todos os dias? Basta se inscrever em nossos boletins diários aqui.

Nesta semana, a startup de AI de Elon Musk, XAI, lançou seu mais recente modelo de IA, Grok 3, que está alimentando os aplicativos Grok Chatbot da empresa. Eles o treinaram em uma enorme quantidade de GPUs e está superando um monte de outros modelos de topo, incluindo alguns do OpenAI, em benchmarks para matemática, codificação e muito mais.

Mas vamos falar sobre o que esses benchmarks realmente significam.

Aqui na TC, relatamos esses números de referência, mesmo que nem sempre estamos emocionados com isso, porque eles são uma das poucas maneiras pelas quais a indústria da IA ​​tenta mostrar como seus modelos estão melhorando. O problema é que esses benchmarks populares de IA geralmente se concentram em coisas obscuras e fornecem pontuações que realmente não refletem o quão bem a IA faz as coisas que as pessoas realmente se preocupam.

Ethan Mollick, professor da Wharton, levou a X para dizer que há uma necessidade real de melhores testes e grupos independentes para administrá -los. Ele ressaltou que as empresas de IA geralmente relatam seus próprios resultados de referência, o que dificulta a confiança delas completamente.

"Os benchmarks públicos são 'meh' e saturados, deixando muitos testes de IA como críticas de alimentos, com base no sabor", escreveu Mollick. "Se a IA é fundamental para trabalhar, precisamos de mais".

Há muitas pessoas por aí tentando criar novos benchmarks para a IA, mas ninguém pode concordar com o que é melhor. Alguns acham que os benchmarks devem se concentrar no impacto econômico para serem úteis, enquanto outros acreditam que a adoção e a utilidade do mundo real são as verdadeiras medidas de sucesso.

Este debate pode continuar para sempre. Talvez, como o X, o usuário Roon sugere, devemos apenas prestar menos atenção a novos modelos e benchmarks, a menos que haja um grande avanço da IA. Pode ser melhor para a nossa sanidade, mesmo que signifique perder algum hype de IA.

Como mencionado, esta semana na IA está fazendo uma pausa. Obrigado por ficar conosco, leitores, através de todos os altos e baixos. Até a próxima vez.

Notícias

Créditos da imagem: Nathan Laine / Bloomberg / Getty Images
O Openai está tentando "Uncenor" Chatgpt. Max escreveu sobre como eles estão mudando sua abordagem para o desenvolvimento da IA ​​para adotar a "liberdade intelectual", mesmo em tópicos difíceis ou controversos.

Mira Murati, ex -CTO do Openai, tem uma nova startup chamada Thinking Machines Lab. Eles estão trabalhando em ferramentas para "fazer a IA funcionar para as necessidades e objetivos exclusivos das pessoas".

A Xai lançou o Grok 3 e adicionou novos recursos aos aplicativos GROK para iOS e a Web.

A Meta está organizando sua primeira conferência de desenvolvedor focada na IA generativa nesta primavera. Chama -se Llamacon, depois de seus modelos de lhama, e está acontecendo em 29 de abril.

Paul escreveu sobre o OpenEurollm, um projeto de cerca de 20 organizações para construir modelos de fundação para "IA transparente na Europa", que respeita a "diversidade linguística e cultural" de todas as línguas da UE.

Documento de pesquisa da semana

O site do OpenAi ChatGPT exibido em uma tela de laptop é visto nesta foto de ilustração.

Créditos da imagem: Jakub Porzycki / Nurphoto / Getty Images
Os pesquisadores do OpenAI criaram um novo benchmark de IA chamado SWE-Lancer para testar o quão bem a IA pode codificar. É composto por mais de 1.400 tarefas de engenharia de software freelancer, desde corrigindo bugs e adicionar recursos à propor implementações técnicas.

O Openai diz que o modelo de melhor desempenho, o Claude 3,5 soneto da Anthropic, obteve apenas 40,3% no benchmark completo do SWE-Lancer, que mostra que a IA ainda tem um longo caminho a percorrer. Eles não testaram modelos mais novos como o O3-Mini do Openai ou o R1 da Deepseek da China.

Modelo da semana

Uma empresa de IA chinesa chamada Stepfun lançou um modelo "aberto" chamado Step-Audio que pode entender e gerar discursos em chinês, inglês e japonês. Os usuários podem até ajustar a emoção e o dialeto do áudio sintético, incluindo o canto.

O Stepfun é uma das várias startups de IA chinesas bem financiadas que liberam modelos com licenças permissivas. Fundados em 2023, eles fecharam recentemente uma rodada de financiamento no valor de centenas de milhões de investidores, incluindo empresas de private equity estatais chinesas.

Saco de pega

Nous Research Deephers

Créditos da imagem: Nous Research
A Nous Research, um grupo de pesquisa de IA, afirma ter lançado um dos primeiros modelos de IA que combina raciocínio com "recursos intuitivos de modelo de linguagem".

Seu modelo, DeepHermes-3, pode alternar entre "cadeias de pensamento" curtas e longas para equilibrar a precisão e o poder computacional. No modo de "raciocínio", leva mais tempo para resolver problemas mais difíceis e mostra seu processo de pensamento ao longo do caminho.

A Anthropic está planejando lançar um modelo semelhante em breve, e o Openai diz que está no roteiro de curto prazo.

Artigo relacionado
Google搜索引入了複雜的多部分查詢的“ AI模式” Google搜索引入了複雜的多部分查詢的“ AI模式” Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話 Openai增強了Chatgpt,以回憶以前的對話 Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
Comentários (55)
0/200
FredAnderson
FredAnderson 10 de Abril de 2025 à25 13:30:25 GMT

Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!

WilliamYoung
WilliamYoung 11 de Abril de 2025 à49 03:44:49 GMT

AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!

ChristopherDavis
ChristopherDavis 10 de Abril de 2025 à5 13:20:05 GMT

Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!

StephenLee
StephenLee 10 de Abril de 2025 à13 20:29:13 GMT

Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!

TimothyRoberts
TimothyRoberts 11 de Abril de 2025 à34 06:46:34 GMT

Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!

NoahGreen
NoahGreen 11 de Abril de 2025 à46 12:48:46 GMT

I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!

Back to Top
OR