AI基准:我们现在应该忽略它们吗?
欢迎体验TechCrunch的常规AI通讯!我们将稍作休息,但别担心,您仍可在此处TechCrunch获取所有AI相关报道,包括我的专栏、每日分析和突发新闻。想每天直接在收件箱中获取这些报道?请在此处订阅我们的每日通讯。
本周,埃隆·马斯克的AI初创公司xAI发布了其最新旗舰AI模型Grok 3,该模型为公司Grok聊天机器人应用提供支持。他们使用了惊人的20万个GPU进行训练,该模型在数学、编码等基准测试中超越了包括OpenAI在内的一些顶级模型。
但让我们来谈谈这些基准测试的实际意义。
在TC,我们会报道这些基准测试数据,尽管我们并不总是对此感到兴奋,因为这是AI行业试图展示其模型进步的少数方式之一。问题是,这些流行的AI基准测试往往聚焦于晦涩的内容,给出的分数并不能真正反映AI在人们真正关心的事情上的表现。
沃顿商学院的教授Ethan Mollick在X上表示,亟需更好的测试和独立机构来运行这些测试。他指出,AI公司往往自行报告基准测试结果,这使得结果难以完全信任。
“公开基准测试既‘一般’又饱和,导致许多AI测试就像美食评论,基于主观感受,”Mollick写道。“如果AI对工作至关重要,我们需要更多。”
有很多人试图为AI提出新的基准测试,但大家无法就最佳方案达成一致。一些人认为基准测试应聚焦于经济影响才有意义,而其他人则认为现实世界的采用率和实用性才是成功的真正衡量标准。
这场争论可能永远持续下去。或许,如X用户Roon建议,我们应该少关注新模型和基准测试,除非有重大的AI突破。这可能对我们的心理健康更好,即便意味着错过一些AI热潮。
如前所述,本周AI通讯将暂停。感谢读者们一直以来的支持,陪伴我们经历所有起伏。下次再见。
新闻

图片来源:Nathan Laine/Bloomberg / Getty Images OpenAI正尝试“解除审查”ChatGPT。Max撰文描述了他们如何改变AI开发方式,以拥抱“知识自由”,即使涉及困难或争议性话题。前OpenAI首席技术官Mira Murati成立了一家新初创公司Thinking Machines Lab。他们致力于开发工具,“使AI满足[人们]的独特需求和目标”。
xAI发布了Grok 3,并为iOS和网页版的Grok应用添加了新功能。
Meta将于今年春天举办首届专注于生成式AI的开发者大会。大会名为LlamaCon,以他们的Llama模型命名,将于4月29日举行。
Paul撰文介绍了OpenEuroLLM,一个由约20个组织合作的项目,旨在构建“透明的欧洲AI”基础模型,尊重欧盟所有语言的“语言和文化多样性”。
本周研究论文

图片来源:Jakub Porzycki/NurPhoto / Getty Images OpenAI研究人员提出了一个新的AI基准测试SWE-Lancer,用于测试AI的编码能力。该测试包含超过1400个自由软件工程任务,涵盖修复错误、添加功能以及提出技术实现方案。OpenAI表示,表现最好的模型Anthropic的Claude 3.5 Sonnet在完整的SWE-Lancer基准测试中仅得分40.3%,表明AI仍有很长的路要走。他们未测试较新的模型,如OpenAI的o3-mini或中国的DeepSeek的R1。
本周模型
一家名为Stepfun的中国AI公司发布了一个“开放”AI模型Step-Audio,可理解和生成中文、英文和日文的语音。用户甚至可以调整合成音频的情感和方言,包括唱歌。
Stepfun是多家资金雄厚的中国AI初创公司之一,发布了具有宽松许可的模型。该公司成立于2023年,最近完成了一轮由包括中国国有私募股权公司在内的投资者提供的数亿美元融资。
杂锦

图片来源:Nous Research AI研究组织Nous Research声称发布了首个结合推理与“直观语言模型能力”的AI模型。他们的模型DeepHermes-3 Preview可在短链和长链“思维链”之间切换,以平衡准确性和计算能力。在“推理”模式下,它会花更多时间解决较难的问题,并展示其思考过程。
据报道,Anthropic计划很快发布类似模型,OpenAI也表示这是其近期路线图的一部分。
相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
Anthropic租用SpaceX设施的期限引发争议
本月早些时候,xAI 与 Anthropic 敲定了重大计算资源合作协议,承诺每月支付数十亿美元以获得 Colossus 集群的独家使用权。该协议对双方均有利:xAI 获得了关键收入,而 Anthropic 则在持续的计算资源竞争中取得了进展。然而,今天上午在X平台上,埃隆·马斯克淡化了SpaceX对该协议的承诺程度。“SpaceX并未承诺对Colossus进行多年租赁,尽管未来仍有可能发生,”他
相关专题推荐
评论 (61)
0/500
AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.
AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?
AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
欢迎体验TechCrunch的常规AI通讯!我们将稍作休息,但别担心,您仍可在此处TechCrunch获取所有AI相关报道,包括我的专栏、每日分析和突发新闻。想每天直接在收件箱中获取这些报道?请在此处订阅我们的每日通讯。
本周,埃隆·马斯克的AI初创公司xAI发布了其最新旗舰AI模型Grok 3,该模型为公司Grok聊天机器人应用提供支持。他们使用了惊人的20万个GPU进行训练,该模型在数学、编码等基准测试中超越了包括OpenAI在内的一些顶级模型。
但让我们来谈谈这些基准测试的实际意义。
在TC,我们会报道这些基准测试数据,尽管我们并不总是对此感到兴奋,因为这是AI行业试图展示其模型进步的少数方式之一。问题是,这些流行的AI基准测试往往聚焦于晦涩的内容,给出的分数并不能真正反映AI在人们真正关心的事情上的表现。
沃顿商学院的教授Ethan Mollick在X上表示,亟需更好的测试和独立机构来运行这些测试。他指出,AI公司往往自行报告基准测试结果,这使得结果难以完全信任。
“公开基准测试既‘一般’又饱和,导致许多AI测试就像美食评论,基于主观感受,”Mollick写道。“如果AI对工作至关重要,我们需要更多。”
有很多人试图为AI提出新的基准测试,但大家无法就最佳方案达成一致。一些人认为基准测试应聚焦于经济影响才有意义,而其他人则认为现实世界的采用率和实用性才是成功的真正衡量标准。
这场争论可能永远持续下去。或许,如X用户Roon建议,我们应该少关注新模型和基准测试,除非有重大的AI突破。这可能对我们的心理健康更好,即便意味着错过一些AI热潮。
如前所述,本周AI通讯将暂停。感谢读者们一直以来的支持,陪伴我们经历所有起伏。下次再见。
新闻

前OpenAI首席技术官Mira Murati成立了一家新初创公司Thinking Machines Lab。他们致力于开发工具,“使AI满足[人们]的独特需求和目标”。
xAI发布了Grok 3,并为iOS和网页版的Grok应用添加了新功能。
Meta将于今年春天举办首届专注于生成式AI的开发者大会。大会名为LlamaCon,以他们的Llama模型命名,将于4月29日举行。
Paul撰文介绍了OpenEuroLLM,一个由约20个组织合作的项目,旨在构建“透明的欧洲AI”基础模型,尊重欧盟所有语言的“语言和文化多样性”。
本周研究论文

OpenAI表示,表现最好的模型Anthropic的Claude 3.5 Sonnet在完整的SWE-Lancer基准测试中仅得分40.3%,表明AI仍有很长的路要走。他们未测试较新的模型,如OpenAI的o3-mini或中国的DeepSeek的R1。
本周模型
一家名为Stepfun的中国AI公司发布了一个“开放”AI模型Step-Audio,可理解和生成中文、英文和日文的语音。用户甚至可以调整合成音频的情感和方言,包括唱歌。
Stepfun是多家资金雄厚的中国AI初创公司之一,发布了具有宽松许可的模型。该公司成立于2023年,最近完成了一轮由包括中国国有私募股权公司在内的投资者提供的数亿美元融资。
杂锦

他们的模型DeepHermes-3 Preview可在短链和长链“思维链”之间切换,以平衡准确性和计算能力。在“推理”模式下,它会花更多时间解决较难的问题,并展示其思考过程。
据报道,Anthropic计划很快发布类似模型,OpenAI也表示这是其近期路线图的一部分。
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
Anthropic租用SpaceX设施的期限引发争议
本月早些时候,xAI 与 Anthropic 敲定了重大计算资源合作协议,承诺每月支付数十亿美元以获得 Colossus 集群的独家使用权。该协议对双方均有利:xAI 获得了关键收入,而 Anthropic 则在持续的计算资源竞争中取得了进展。然而,今天上午在X平台上,埃隆·马斯克淡化了SpaceX对该协议的承诺程度。“SpaceX并未承诺对Colossus进行多年租赁,尽管未来仍有可能发生,”他
AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.
AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?
AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔





首页






