选项
首页
新闻
AI基准:我们现在应该忽略它们吗?

AI基准:我们现在应该忽略它们吗?

2025-04-10
240

欢迎体验TechCrunch的常规AI通讯!我们将稍作休息,但别担心,您仍可在此处TechCrunch获取所有AI相关报道,包括我的专栏、每日分析和突发新闻。想每天直接在收件箱中获取这些报道?请在此处订阅我们的每日通讯。

本周,埃隆·马斯克的AI初创公司xAI发布了其最新旗舰AI模型Grok 3,该模型为公司Grok聊天机器人应用提供支持。他们使用了惊人的20万个GPU进行训练,该模型在数学、编码等基准测试中超越了包括OpenAI在内的一些顶级模型。

但让我们来谈谈这些基准测试的实际意义。

在TC,我们会报道这些基准测试数据,尽管我们并不总是对此感到兴奋,因为这是AI行业试图展示其模型进步的少数方式之一。问题是,这些流行的AI基准测试往往聚焦于晦涩的内容,给出的分数并不能真正反映AI在人们真正关心的事情上的表现。

沃顿商学院的教授Ethan Mollick在X上表示,亟需更好的测试和独立机构来运行这些测试。他指出,AI公司往往自行报告基准测试结果,这使得结果难以完全信任。

“公开基准测试既‘一般’又饱和,导致许多AI测试就像美食评论,基于主观感受,”Mollick写道。“如果AI对工作至关重要,我们需要更多。”

有很多人试图为AI提出新的基准测试,但大家无法就最佳方案达成一致。一些人认为基准测试应聚焦于经济影响才有意义,而其他人则认为现实世界的采用率和实用性才是成功的真正衡量标准。

这场争论可能永远持续下去。或许,如X用户Roon建议,我们应该少关注新模型和基准测试,除非有重大的AI突破。这可能对我们的心理健康更好,即便意味着错过一些AI热潮。

如前所述,本周AI通讯将暂停。感谢读者们一直以来的支持,陪伴我们经历所有起伏。下次再见。

新闻

图片来源:Nathan Laine/Bloomberg / Getty Images
OpenAI正尝试“解除审查”ChatGPT。Max撰文描述了他们如何改变AI开发方式,以拥抱“知识自由”,即使涉及困难或争议性话题。

前OpenAI首席技术官Mira Murati成立了一家新初创公司Thinking Machines Lab。他们致力于开发工具,“使AI满足[人们]的独特需求和目标”。

xAI发布了Grok 3,并为iOS和网页版的Grok应用添加了新功能。

Meta将于今年春天举办首届专注于生成式AI的开发者大会。大会名为LlamaCon,以他们的Llama模型命名,将于4月29日举行。

Paul撰文介绍了OpenEuroLLM,一个由约20个组织合作的项目,旨在构建“透明的欧洲AI”基础模型,尊重欧盟所有语言的“语言和文化多样性”。

本周研究论文

OpenAI ChatGPT网站显示在笔记本屏幕上的插图照片。

图片来源:Jakub Porzycki/NurPhoto / Getty Images
OpenAI研究人员提出了一个新的AI基准测试SWE-Lancer,用于测试AI的编码能力。该测试包含超过1400个自由软件工程任务,涵盖修复错误、添加功能以及提出技术实现方案。

OpenAI表示,表现最好的模型Anthropic的Claude 3.5 Sonnet在完整的SWE-Lancer基准测试中仅得分40.3%,表明AI仍有很长的路要走。他们未测试较新的模型,如OpenAI的o3-mini或中国的DeepSeek的R1。

本周模型

一家名为Stepfun的中国AI公司发布了一个“开放”AI模型Step-Audio,可理解和生成中文、英文和日文的语音。用户甚至可以调整合成音频的情感和方言,包括唱歌。

Stepfun是多家资金雄厚的中国AI初创公司之一,发布了具有宽松许可的模型。该公司成立于2023年,最近完成了一轮由包括中国国有私募股权公司在内的投资者提供的数亿美元融资。

杂锦

Nous Research DeepHermes

图片来源:Nous Research
AI研究组织Nous Research声称发布了首个结合推理与“直观语言模型能力”的AI模型。

他们的模型DeepHermes-3 Preview可在短链和长链“思维链”之间切换,以平衡准确性和计算能力。在“推理”模式下,它会花更多时间解决较难的问题,并展示其思考过程。

据报道,Anthropic计划很快发布类似模型,OpenAI也表示这是其近期路线图的一部分。

相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系 萨提亚·纳德拉准备利用与OpenAI的新合作关系 周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
Anthropic租用SpaceX设施的期限引发争议 Anthropic租用SpaceX设施的期限引发争议 本月早些时候,xAI 与 Anthropic 敲定了重大计算资源合作协议,承诺每月支付数十亿美元以获得 Colossus 集群的独家使用权。该协议对双方均有利:xAI 获得了关键收入,而 Anthropic 则在持续的计算资源竞争中取得了进展。然而,今天上午在X平台上,埃隆·马斯克淡化了SpaceX对该协议的承诺程度。“SpaceX并未承诺对Colossus进行多年租赁,尽管未来仍有可能发生,”他
相关专题推荐
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
评论 (61)
0/500
JonathanDavis
JonathanDavis 2025-08-19 14:26:53

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 2025-08-19 13:00:59

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 2025-08-12 03:00:59

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 2025-08-04 14:01:00

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 2025-08-01 10:48:18

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 2025-07-28 09:20:02

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

OR