AI基准:我们现在应该忽略它们吗?
欢迎体验TechCrunch的常规AI通讯!我们将稍作休息,但别担心,您仍可在此处TechCrunch获取所有AI相关报道,包括我的专栏、每日分析和突发新闻。想每天直接在收件箱中获取这些报道?请在此处订阅我们的每日通讯。
本周,埃隆·马斯克的AI初创公司xAI发布了其最新旗舰AI模型Grok 3,该模型为公司Grok聊天机器人应用提供支持。他们使用了惊人的20万个GPU进行训练,该模型在数学、编码等基准测试中超越了包括OpenAI在内的一些顶级模型。
但让我们来谈谈这些基准测试的实际意义。
在TC,我们会报道这些基准测试数据,尽管我们并不总是对此感到兴奋,因为这是AI行业试图展示其模型进步的少数方式之一。问题是,这些流行的AI基准测试往往聚焦于晦涩的内容,给出的分数并不能真正反映AI在人们真正关心的事情上的表现。
沃顿商学院的教授Ethan Mollick在X上表示,亟需更好的测试和独立机构来运行这些测试。他指出,AI公司往往自行报告基准测试结果,这使得结果难以完全信任。
“公开基准测试既‘一般’又饱和,导致许多AI测试就像美食评论,基于主观感受,”Mollick写道。“如果AI对工作至关重要,我们需要更多。”
有很多人试图为AI提出新的基准测试,但大家无法就最佳方案达成一致。一些人认为基准测试应聚焦于经济影响才有意义,而其他人则认为现实世界的采用率和实用性才是成功的真正衡量标准。
这场争论可能永远持续下去。或许,如X用户Roon建议,我们应该少关注新模型和基准测试,除非有重大的AI突破。这可能对我们的心理健康更好,即便意味着错过一些AI热潮。
如前所述,本周AI通讯将暂停。感谢读者们一直以来的支持,陪伴我们经历所有起伏。下次再见。
新闻

图片来源:Nathan Laine/Bloomberg / Getty Images OpenAI正尝试“解除审查”ChatGPT。Max撰文描述了他们如何改变AI开发方式,以拥抱“知识自由”,即使涉及困难或争议性话题。前OpenAI首席技术官Mira Murati成立了一家新初创公司Thinking Machines Lab。他们致力于开发工具,“使AI满足[人们]的独特需求和目标”。
xAI发布了Grok 3,并为iOS和网页版的Grok应用添加了新功能。
Meta将于今年春天举办首届专注于生成式AI的开发者大会。大会名为LlamaCon,以他们的Llama模型命名,将于4月29日举行。
Paul撰文介绍了OpenEuroLLM,一个由约20个组织合作的项目,旨在构建“透明的欧洲AI”基础模型,尊重欧盟所有语言的“语言和文化多样性”。
本周研究论文

图片来源:Jakub Porzycki/NurPhoto / Getty Images OpenAI研究人员提出了一个新的AI基准测试SWE-Lancer,用于测试AI的编码能力。该测试包含超过1400个自由软件工程任务,涵盖修复错误、添加功能以及提出技术实现方案。OpenAI表示,表现最好的模型Anthropic的Claude 3.5 Sonnet在完整的SWE-Lancer基准测试中仅得分40.3%,表明AI仍有很长的路要走。他们未测试较新的模型,如OpenAI的o3-mini或中国的DeepSeek的R1。
本周模型
一家名为Stepfun的中国AI公司发布了一个“开放”AI模型Step-Audio,可理解和生成中文、英文和日文的语音。用户甚至可以调整合成音频的情感和方言,包括唱歌。
Stepfun是多家资金雄厚的中国AI初创公司之一,发布了具有宽松许可的模型。该公司成立于2023年,最近完成了一轮由包括中国国有私募股权公司在内的投资者提供的数亿美元融资。
杂锦

图片来源:Nous Research AI研究组织Nous Research声称发布了首个结合推理与“直观语言模型能力”的AI模型。他们的模型DeepHermes-3 Preview可在短链和长链“思维链”之间切换,以平衡准确性和计算能力。在“推理”模式下,它会花更多时间解决较难的问题,并展示其思考过程。
据报道,Anthropic计划很快发布类似模型,OpenAI也表示这是其近期路线图的一部分。
相关文章
前OpenAI工程师分享公司文化与快速增长的见解
三周前,为OpenAI关键产品做出贡献的工程师Calvin French-Owen离开公司。他最近发表了一篇引人入胜的博客,详细描述了在OpenAI的一年,包括开发Codex的紧张努力,Codex是一个与Cursor和Anthropic的Claude Code竞争的编码代理。French-Owen澄清,他的离开并非因内部冲突,而是源于回归创业生活的愿望。他之前共同创立了Segment,一家2020
谷歌发布面向生产环境的Gemini 2.5 AI模型,挑战企业市场中的OpenAI
谷歌周一加码其AI战略,推出面向企业使用的先进Gemini 2.5模型,并引入成本效益更高的变体,以在价格和性能上展开竞争。这家隶属于Alphabet的公司将其旗舰AI模型——Gemini 2.5 Pro和Gemini 2.5 Flash——从测试阶段提升至全面可用,展示其在关键业务应用中的准备就绪。同时,谷歌推出了Gemini 2.5 Flash-Lite,定位为高容量任务中最具预算友好性的选择
Meta为AI人才提供高薪,否认1亿美元签约奖金
Meta正以数百万美元的丰厚薪酬吸引AI研究人员加入其新的超级智能实验室。然而,一位被招募的研究人员和泄露的内部会议言论表示,关于1亿美元“签约奖金”的说法不实。据The Verge周四报道,在一次泄露的公司全体会议上,Meta高管回应了关于OpenAI首席执行官Sam Altman声称Meta向顶尖研究人员提供奖金的问题。Meta的首席技术官Andrew Bosworth表示,只有极少数高级领导
评论 (58)
0/200
BillyLewis
2025-08-04 14:01:00
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
0
JimmyWilson
2025-08-01 10:48:18
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
0
JohnTaylor
2025-07-28 09:20:02
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.
0
ChristopherThomas
2025-04-26 13:57:18
I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔
0
BrianWalker
2025-04-26 03:19:34
Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔
0
CharlesMartinez
2025-04-22 23:01:53
Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔
0
欢迎体验TechCrunch的常规AI通讯!我们将稍作休息,但别担心,您仍可在此处TechCrunch获取所有AI相关报道,包括我的专栏、每日分析和突发新闻。想每天直接在收件箱中获取这些报道?请在此处订阅我们的每日通讯。
本周,埃隆·马斯克的AI初创公司xAI发布了其最新旗舰AI模型Grok 3,该模型为公司Grok聊天机器人应用提供支持。他们使用了惊人的20万个GPU进行训练,该模型在数学、编码等基准测试中超越了包括OpenAI在内的一些顶级模型。
但让我们来谈谈这些基准测试的实际意义。
在TC,我们会报道这些基准测试数据,尽管我们并不总是对此感到兴奋,因为这是AI行业试图展示其模型进步的少数方式之一。问题是,这些流行的AI基准测试往往聚焦于晦涩的内容,给出的分数并不能真正反映AI在人们真正关心的事情上的表现。
沃顿商学院的教授Ethan Mollick在X上表示,亟需更好的测试和独立机构来运行这些测试。他指出,AI公司往往自行报告基准测试结果,这使得结果难以完全信任。
“公开基准测试既‘一般’又饱和,导致许多AI测试就像美食评论,基于主观感受,”Mollick写道。“如果AI对工作至关重要,我们需要更多。”
有很多人试图为AI提出新的基准测试,但大家无法就最佳方案达成一致。一些人认为基准测试应聚焦于经济影响才有意义,而其他人则认为现实世界的采用率和实用性才是成功的真正衡量标准。
这场争论可能永远持续下去。或许,如X用户Roon建议,我们应该少关注新模型和基准测试,除非有重大的AI突破。这可能对我们的心理健康更好,即便意味着错过一些AI热潮。
如前所述,本周AI通讯将暂停。感谢读者们一直以来的支持,陪伴我们经历所有起伏。下次再见。
新闻
前OpenAI首席技术官Mira Murati成立了一家新初创公司Thinking Machines Lab。他们致力于开发工具,“使AI满足[人们]的独特需求和目标”。
xAI发布了Grok 3,并为iOS和网页版的Grok应用添加了新功能。
Meta将于今年春天举办首届专注于生成式AI的开发者大会。大会名为LlamaCon,以他们的Llama模型命名,将于4月29日举行。
Paul撰文介绍了OpenEuroLLM,一个由约20个组织合作的项目,旨在构建“透明的欧洲AI”基础模型,尊重欧盟所有语言的“语言和文化多样性”。
本周研究论文
OpenAI表示,表现最好的模型Anthropic的Claude 3.5 Sonnet在完整的SWE-Lancer基准测试中仅得分40.3%,表明AI仍有很长的路要走。他们未测试较新的模型,如OpenAI的o3-mini或中国的DeepSeek的R1。
本周模型
一家名为Stepfun的中国AI公司发布了一个“开放”AI模型Step-Audio,可理解和生成中文、英文和日文的语音。用户甚至可以调整合成音频的情感和方言,包括唱歌。
Stepfun是多家资金雄厚的中国AI初创公司之一,发布了具有宽松许可的模型。该公司成立于2023年,最近完成了一轮由包括中国国有私募股权公司在内的投资者提供的数亿美元融资。
杂锦
他们的模型DeepHermes-3 Preview可在短链和长链“思维链”之间切换,以平衡准确性和计算能力。在“推理”模式下,它会花更多时间解决较难的问题,并展示其思考过程。
据报道,Anthropic计划很快发布类似模型,OpenAI也表示这是其近期路线图的一部分。




AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.




I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔




Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔




Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔












