AI Benchmarks: devemos ignorá -los por enquanto?
Bem -vindo ao boletim informativo regular da AI da TechCrunch! Estamos fazendo uma pequena pausa, mas não se preocupe, você ainda pode obter toda a nossa cobertura de IA, incluindo minhas colunas, análise diária e notícias de última hora, aqui no TechCrunch. Quer levar essas histórias diretamente para sua caixa de entrada todos os dias? Basta se inscrever em nossos boletins diários aqui.
Nesta semana, a startup de AI de Elon Musk, XAI, lançou seu mais recente modelo de IA, Grok 3, que está alimentando os aplicativos Grok Chatbot da empresa. Eles o treinaram em uma enorme quantidade de GPUs e está superando um monte de outros modelos de topo, incluindo alguns do OpenAI, em benchmarks para matemática, codificação e muito mais.
Mas vamos falar sobre o que esses benchmarks realmente significam.
Aqui na TC, relatamos esses números de referência, mesmo que nem sempre estamos emocionados com isso, porque eles são uma das poucas maneiras pelas quais a indústria da IA tenta mostrar como seus modelos estão melhorando. O problema é que esses benchmarks populares de IA geralmente se concentram em coisas obscuras e fornecem pontuações que realmente não refletem o quão bem a IA faz as coisas que as pessoas realmente se preocupam.
Ethan Mollick, professor da Wharton, levou a X para dizer que há uma necessidade real de melhores testes e grupos independentes para administrá -los. Ele ressaltou que as empresas de IA geralmente relatam seus próprios resultados de referência, o que dificulta a confiança delas completamente.
"Os benchmarks públicos são 'meh' e saturados, deixando muitos testes de IA como críticas de alimentos, com base no sabor", escreveu Mollick. "Se a IA é fundamental para trabalhar, precisamos de mais".
Há muitas pessoas por aí tentando criar novos benchmarks para a IA, mas ninguém pode concordar com o que é melhor. Alguns acham que os benchmarks devem se concentrar no impacto econômico para serem úteis, enquanto outros acreditam que a adoção e a utilidade do mundo real são as verdadeiras medidas de sucesso.
Este debate pode continuar para sempre. Talvez, como o X, o usuário Roon sugere, devemos apenas prestar menos atenção a novos modelos e benchmarks, a menos que haja um grande avanço da IA. Pode ser melhor para a nossa sanidade, mesmo que signifique perder algum hype de IA.
Como mencionado, esta semana na IA está fazendo uma pausa. Obrigado por ficar conosco, leitores, através de todos os altos e baixos. Até a próxima vez.
Notícias

Créditos da imagem: Nathan Laine / Bloomberg / Getty Images O Openai está tentando "Uncenor" Chatgpt. Max escreveu sobre como eles estão mudando sua abordagem para o desenvolvimento da IA para adotar a "liberdade intelectual", mesmo em tópicos difíceis ou controversos.
Mira Murati, ex -CTO do Openai, tem uma nova startup chamada Thinking Machines Lab. Eles estão trabalhando em ferramentas para "fazer a IA funcionar para as necessidades e objetivos exclusivos das pessoas".
A Xai lançou o Grok 3 e adicionou novos recursos aos aplicativos GROK para iOS e a Web.
A Meta está organizando sua primeira conferência de desenvolvedor focada na IA generativa nesta primavera. Chama -se Llamacon, depois de seus modelos de lhama, e está acontecendo em 29 de abril.
Paul escreveu sobre o OpenEurollm, um projeto de cerca de 20 organizações para construir modelos de fundação para "IA transparente na Europa", que respeita a "diversidade linguística e cultural" de todas as línguas da UE.
Documento de pesquisa da semana

Créditos da imagem: Jakub Porzycki / Nurphoto / Getty Images Os pesquisadores do OpenAI criaram um novo benchmark de IA chamado SWE-Lancer para testar o quão bem a IA pode codificar. É composto por mais de 1.400 tarefas de engenharia de software freelancer, desde corrigindo bugs e adicionar recursos à propor implementações técnicas.
O Openai diz que o modelo de melhor desempenho, o Claude 3,5 soneto da Anthropic, obteve apenas 40,3% no benchmark completo do SWE-Lancer, que mostra que a IA ainda tem um longo caminho a percorrer. Eles não testaram modelos mais novos como o O3-Mini do Openai ou o R1 da Deepseek da China.
Modelo da semana
Uma empresa de IA chinesa chamada Stepfun lançou um modelo "aberto" chamado Step-Audio que pode entender e gerar discursos em chinês, inglês e japonês. Os usuários podem até ajustar a emoção e o dialeto do áudio sintético, incluindo o canto.
O Stepfun é uma das várias startups de IA chinesas bem financiadas que liberam modelos com licenças permissivas. Fundados em 2023, eles fecharam recentemente uma rodada de financiamento no valor de centenas de milhões de investidores, incluindo empresas de private equity estatais chinesas.
Saco de pega

Créditos da imagem: Nous Research A Nous Research, um grupo de pesquisa de IA, afirma ter lançado um dos primeiros modelos de IA que combina raciocínio com "recursos intuitivos de modelo de linguagem".
Seu modelo, DeepHermes-3, pode alternar entre "cadeias de pensamento" curtas e longas para equilibrar a precisão e o poder computacional. No modo de "raciocínio", leva mais tempo para resolver problemas mais difíceis e mostra seu processo de pensamento ao longo do caminho.
A Anthropic está planejando lançar um modelo semelhante em breve, e o Openai diz que está no roteiro de curto prazo.
Artigo relacionado
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準
為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
Comentários (55)
0/200
FredAnderson
10 de Abril de 2025 à0 00:00:00 GMT
Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!
0
WilliamYoung
11 de Abril de 2025 à0 00:00:00 GMT
AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!
0
ChristopherDavis
10 de Abril de 2025 à0 00:00:00 GMT
Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!
0
StephenLee
11 de Abril de 2025 à0 00:00:00 GMT
Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!
0
TimothyRoberts
11 de Abril de 2025 à0 00:00:00 GMT
Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!
0
NoahGreen
11 de Abril de 2025 à0 00:00:00 GMT
I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!
0
Bem -vindo ao boletim informativo regular da AI da TechCrunch! Estamos fazendo uma pequena pausa, mas não se preocupe, você ainda pode obter toda a nossa cobertura de IA, incluindo minhas colunas, análise diária e notícias de última hora, aqui no TechCrunch. Quer levar essas histórias diretamente para sua caixa de entrada todos os dias? Basta se inscrever em nossos boletins diários aqui.
Nesta semana, a startup de AI de Elon Musk, XAI, lançou seu mais recente modelo de IA, Grok 3, que está alimentando os aplicativos Grok Chatbot da empresa. Eles o treinaram em uma enorme quantidade de GPUs e está superando um monte de outros modelos de topo, incluindo alguns do OpenAI, em benchmarks para matemática, codificação e muito mais.
Mas vamos falar sobre o que esses benchmarks realmente significam.
Aqui na TC, relatamos esses números de referência, mesmo que nem sempre estamos emocionados com isso, porque eles são uma das poucas maneiras pelas quais a indústria da IA tenta mostrar como seus modelos estão melhorando. O problema é que esses benchmarks populares de IA geralmente se concentram em coisas obscuras e fornecem pontuações que realmente não refletem o quão bem a IA faz as coisas que as pessoas realmente se preocupam.
Ethan Mollick, professor da Wharton, levou a X para dizer que há uma necessidade real de melhores testes e grupos independentes para administrá -los. Ele ressaltou que as empresas de IA geralmente relatam seus próprios resultados de referência, o que dificulta a confiança delas completamente.
"Os benchmarks públicos são 'meh' e saturados, deixando muitos testes de IA como críticas de alimentos, com base no sabor", escreveu Mollick. "Se a IA é fundamental para trabalhar, precisamos de mais".
Há muitas pessoas por aí tentando criar novos benchmarks para a IA, mas ninguém pode concordar com o que é melhor. Alguns acham que os benchmarks devem se concentrar no impacto econômico para serem úteis, enquanto outros acreditam que a adoção e a utilidade do mundo real são as verdadeiras medidas de sucesso.
Este debate pode continuar para sempre. Talvez, como o X, o usuário Roon sugere, devemos apenas prestar menos atenção a novos modelos e benchmarks, a menos que haja um grande avanço da IA. Pode ser melhor para a nossa sanidade, mesmo que signifique perder algum hype de IA.
Como mencionado, esta semana na IA está fazendo uma pausa. Obrigado por ficar conosco, leitores, através de todos os altos e baixos. Até a próxima vez.
Notícias
Mira Murati, ex -CTO do Openai, tem uma nova startup chamada Thinking Machines Lab. Eles estão trabalhando em ferramentas para "fazer a IA funcionar para as necessidades e objetivos exclusivos das pessoas".
A Xai lançou o Grok 3 e adicionou novos recursos aos aplicativos GROK para iOS e a Web.
A Meta está organizando sua primeira conferência de desenvolvedor focada na IA generativa nesta primavera. Chama -se Llamacon, depois de seus modelos de lhama, e está acontecendo em 29 de abril.
Paul escreveu sobre o OpenEurollm, um projeto de cerca de 20 organizações para construir modelos de fundação para "IA transparente na Europa", que respeita a "diversidade linguística e cultural" de todas as línguas da UE.
Documento de pesquisa da semana
O Openai diz que o modelo de melhor desempenho, o Claude 3,5 soneto da Anthropic, obteve apenas 40,3% no benchmark completo do SWE-Lancer, que mostra que a IA ainda tem um longo caminho a percorrer. Eles não testaram modelos mais novos como o O3-Mini do Openai ou o R1 da Deepseek da China.
Modelo da semana
Uma empresa de IA chinesa chamada Stepfun lançou um modelo "aberto" chamado Step-Audio que pode entender e gerar discursos em chinês, inglês e japonês. Os usuários podem até ajustar a emoção e o dialeto do áudio sintético, incluindo o canto.
O Stepfun é uma das várias startups de IA chinesas bem financiadas que liberam modelos com licenças permissivas. Fundados em 2023, eles fecharam recentemente uma rodada de financiamento no valor de centenas de milhões de investidores, incluindo empresas de private equity estatais chinesas.
Saco de pega
Seu modelo, DeepHermes-3, pode alternar entre "cadeias de pensamento" curtas e longas para equilibrar a precisão e o poder computacional. No modo de "raciocínio", leva mais tempo para resolver problemas mais difíceis e mostra seu processo de pensamento ao longo do caminho.
A Anthropic está planejando lançar um modelo semelhante em breve, e o Openai diz que está no roteiro de curto prazo.




Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!




AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!




Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!




Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!




Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!




I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!












