选项
首页
新闻
AI基准:我们现在应该忽略它们吗?

AI基准:我们现在应该忽略它们吗?

2025-04-10
216

欢迎体验TechCrunch的常规AI通讯!我们将稍作休息,但别担心,您仍可在此处TechCrunch获取所有AI相关报道,包括我的专栏、每日分析和突发新闻。想每天直接在收件箱中获取这些报道?请在此处订阅我们的每日通讯。

本周,埃隆·马斯克的AI初创公司xAI发布了其最新旗舰AI模型Grok 3,该模型为公司Grok聊天机器人应用提供支持。他们使用了惊人的20万个GPU进行训练,该模型在数学、编码等基准测试中超越了包括OpenAI在内的一些顶级模型。

但让我们来谈谈这些基准测试的实际意义。

在TC,我们会报道这些基准测试数据,尽管我们并不总是对此感到兴奋,因为这是AI行业试图展示其模型进步的少数方式之一。问题是,这些流行的AI基准测试往往聚焦于晦涩的内容,给出的分数并不能真正反映AI在人们真正关心的事情上的表现。

沃顿商学院的教授Ethan Mollick在X上表示,亟需更好的测试和独立机构来运行这些测试。他指出,AI公司往往自行报告基准测试结果,这使得结果难以完全信任。

“公开基准测试既‘一般’又饱和,导致许多AI测试就像美食评论,基于主观感受,”Mollick写道。“如果AI对工作至关重要,我们需要更多。”

有很多人试图为AI提出新的基准测试,但大家无法就最佳方案达成一致。一些人认为基准测试应聚焦于经济影响才有意义,而其他人则认为现实世界的采用率和实用性才是成功的真正衡量标准。

这场争论可能永远持续下去。或许,如X用户Roon建议,我们应该少关注新模型和基准测试,除非有重大的AI突破。这可能对我们的心理健康更好,即便意味着错过一些AI热潮。

如前所述,本周AI通讯将暂停。感谢读者们一直以来的支持,陪伴我们经历所有起伏。下次再见。

新闻

图片来源:Nathan Laine/Bloomberg / Getty Images
OpenAI正尝试“解除审查”ChatGPT。Max撰文描述了他们如何改变AI开发方式,以拥抱“知识自由”,即使涉及困难或争议性话题。

前OpenAI首席技术官Mira Murati成立了一家新初创公司Thinking Machines Lab。他们致力于开发工具,“使AI满足[人们]的独特需求和目标”。

xAI发布了Grok 3,并为iOS和网页版的Grok应用添加了新功能。

Meta将于今年春天举办首届专注于生成式AI的开发者大会。大会名为LlamaCon,以他们的Llama模型命名,将于4月29日举行。

Paul撰文介绍了OpenEuroLLM,一个由约20个组织合作的项目,旨在构建“透明的欧洲AI”基础模型,尊重欧盟所有语言的“语言和文化多样性”。

本周研究论文

OpenAI ChatGPT网站显示在笔记本屏幕上的插图照片。

图片来源:Jakub Porzycki/NurPhoto / Getty Images
OpenAI研究人员提出了一个新的AI基准测试SWE-Lancer,用于测试AI的编码能力。该测试包含超过1400个自由软件工程任务,涵盖修复错误、添加功能以及提出技术实现方案。

OpenAI表示,表现最好的模型Anthropic的Claude 3.5 Sonnet在完整的SWE-Lancer基准测试中仅得分40.3%,表明AI仍有很长的路要走。他们未测试较新的模型,如OpenAI的o3-mini或中国的DeepSeek的R1。

本周模型

一家名为Stepfun的中国AI公司发布了一个“开放”AI模型Step-Audio,可理解和生成中文、英文和日文的语音。用户甚至可以调整合成音频的情感和方言,包括唱歌。

Stepfun是多家资金雄厚的中国AI初创公司之一,发布了具有宽松许可的模型。该公司成立于2023年,最近完成了一轮由包括中国国有私募股权公司在内的投资者提供的数亿美元融资。

杂锦

Nous Research DeepHermes

图片来源:Nous Research
AI研究组织Nous Research声称发布了首个结合推理与“直观语言模型能力”的AI模型。

他们的模型DeepHermes-3 Preview可在短链和长链“思维链”之间切换,以平衡准确性和计算能力。在“推理”模式下,它会花更多时间解决较难的问题,并展示其思考过程。

据报道,Anthropic计划很快发布类似模型,OpenAI也表示这是其近期路线图的一部分。

相关文章
格鲁克在争议性言论中抨击民主党人和好莱坞的 格鲁克在争议性言论中抨击民主党人和好莱坞的 "犹太高管 周五上午,埃隆-马斯克(Elon Musk)宣布对 @Grok 进行重大升级,称用户在与人工智能助手交互时会发现其性能有所提升。虽然没有提供具体细节,但这位 xAI 负责人此前曾承诺,在承认 Grok 的训练数据包含有问题的内容来源后,将对 Grok 进行重新训练。马斯克还鼓励 X 用户提交有争议但可验证的信息,目前的人工智能系统可能会回避这些信息。Grok的争议性回应更新后,用户开始用带有
非营利组织利用人工智能代理促进慈善筹款工作 非营利组织利用人工智能代理促进慈善筹款工作 当大型科技公司将人工智能 "代理 "作为企业生产力的助推器进行推广时,一家非营利组织正在展示它们在社会公益方面的潜力。由开放慈善组织(Open Philanthropy)支持的慈善研究机构赛智未来(Sage Future)最近进行了一项创新实验,展示了人工智能模型如何在慈善筹款方面进行合作。该非营利组织在一个模拟数字环境中设置了四个先进的人工智能模型--OpenAI 的 GPT-4o 和 o1
顶级人工智能实验室警告人类正在失去理解人工智能系统的能力 顶级人工智能实验室警告人类正在失去理解人工智能系统的能力 来自 OpenAI、谷歌 DeepMind、Anthropic 和 Meta 的研究人员前所未有地团结起来,搁置竞争分歧,就负责任的人工智能发展发出集体警告。来自这些通常相互竞争的组织的 40 多名顶尖科学家共同撰写了一篇开创性的研究论文,强调确保人工智能决策过程透明度的窗口正在迅速关闭。这次合作的重点是现代人工智能系统的一个关键发展--它们在生成最终输出之前,能够以人类可读的语言阐明推理过程的新
评论 (61)
0/200
JonathanDavis
JonathanDavis 2025-08-19 14:26:53

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 2025-08-19 13:00:59

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 2025-08-12 03:00:59

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 2025-08-04 14:01:00

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 2025-08-01 10:48:18

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 2025-07-28 09:20:02

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

返回顶部
OR