选项
首页
新闻
人工智能“推理”模型激增,推动了基准成本

人工智能“推理”模型激增,推动了基准成本

2025-04-22
162

人工智能“推理”模型激增,推动了基准成本

人工智能推理模型基准测试成本的上升

像OpenAI这样的人工智能实验室一直在宣传其先进的“推理”人工智能模型,这些模型旨在逐步解决复杂问题。这些模型在物理学等领域尤其有效,确实令人印象深刻。然而,在基准测试方面,它们的成本极高,这使得独立验证其能力变得具有挑战性。

根据第三方人工智能测试公司Artificial Analysis的数据,评估OpenAI的o1推理模型在七个热门人工智能基准测试中的成本高达2767.05美元。这些基准测试包括MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME 2024和MATH-500。相比之下,测试Anthropic的“混合”推理模型Claude 3.7 Sonnet在相同测试中的成本为1485.35美元,而OpenAI的o3-mini-high则显著便宜,仅为344.59美元。

并非所有推理模型的测试成本都同样高昂。例如,Artificial Analysis仅花费141.22美元评估OpenAI的o1-mini。然而,这些模型的测试成本平均较高。Artificial Analysis为评估大约十二个推理模型花费了约5200美元,这几乎是分析超过80个非推理模型所花费的2400美元的两倍。

相比之下,OpenAI于2024年5月发布的非推理GPT-4o模型,Artificial Analysis仅花费108.85美元进行评估,而Claude 3.6 Sonnet(Claude 3.7 Sonnet的非推理前身)成本为81.41美元。

Artificial Analysis的联合创始人George Cameron在接受TechCrunch采访时表示,该组织准备随着更多人工智能实验室继续开发推理模型而增加其基准测试预算。Cameron表示:“在Artificial Analysis,我们每月进行数百次评估,并为此投入了大量预算。我们计划随着模型更频繁发布而增加这部分支出。”

Artificial Analysis并非唯一面临这些成本上升的公司。人工智能初创公司General Reasoning的首席执行官Ross Taylor最近花费580美元在约3700个独特提示上评估Claude 3.7 Sonnet。Taylor估计,仅运行一次MMLU Pro(一个旨在测试语言理解能力的基准测试)就将超过1800美元。

Taylor在X上最近的一篇帖子中强调了一个日益增长的担忧,他表示:“我们正在走向一个世界,实验室报告某个基准测试的x%成绩,他们花费了y数量的计算资源,但学术界的资源远远少于y。没有人能够重现这些结果。”

为什么推理模型的基准测试成本如此高昂?

测试推理模型成本高的主要原因是它们倾向于生成大量令牌。令牌是原始文本的单位;例如,单词“fantastic”可能被分解为“fan”、“tas”和“tic”。据Artificial Analysis称,OpenAI的o1模型在测试中生成了超过4400万个令牌,约为非推理GPT-4o模型生成令牌数的八倍。

大多数人工智能公司根据令牌数量收费,这很快就会累积。此外,现代基准测试通过包含涉及复杂多步骤任务的问题,设计为诱导生成大量令牌。Epoch AI的资深研究员Jean-Stanislas Denain向TechCrunch解释说:“今天的基准测试更加复杂,尽管每个基准测试的问题数量总体减少。它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网和使用计算机。”

Denain还指出,最昂贵模型的每令牌成本一直在上升。例如,Anthropic的Claude 3 Opus于2024年5月发布时,每百万输出令牌的成本为75美元。相比之下,OpenAI的GPT-4.5和o1-pro在同年早些时候发布时,每百万输出令牌的成本分别为150美元和600美元。

尽管每令牌成本不断增加,Denain指出:“由于模型随时间变得更好,达到特定性能水平的成本仍然大幅下降。但如果你想在任何时间点评估最好的最大模型,你仍然需要支付更多。”

基准测试的完整性

许多人工智能实验室,包括OpenAI,为基准测试目的提供免费或补贴的模型访问。然而,这种做法引发了对评估过程完整性的担忧。即使没有证据显示存在操纵,仅仅人工智能实验室参与的暗示就可能让人对结果的客观性产生怀疑。

Ross Taylor在X上表达了这一担忧,他问道:“从科学的角度来看,如果你发布了一个无人能用相同模型重现的结果,这还是科学吗?(它曾经是科学吗,哈哈)”

人工智能基准测试的高成本和潜在偏见凸显了该领域在开发和验证日益复杂的模型时面临的挑战。

相关文章
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增 AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增 继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote 小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote 4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
腾讯旗下“小龙虾”表现远超预期,团队将运力扩大10倍,并致歉及提供补偿 腾讯旗下“小龙虾”表现远超预期,团队将运力扩大10倍,并致歉及提供补偿 腾讯正式推出全场景AI智能助手“WorkBuddy”,凭借高度集成和低部署门槛,标志着大型模型应用层竞争进入新阶段。该产品在发布当天便引发了业界广泛关注。 用户流量远超预期,导致相关产品腾讯云代码助手(CodeBuddy)出现登录故障及服务不稳定。腾讯云团队随后发布致歉声明,表示技术团队已紧急将容量扩容十倍,目前服务已全面恢复。受影响用户获得了5,000腾讯云代金券作为补偿。业界观察人士将Work
相关专题推荐
文字转语音 专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率
专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成(TTS)应用,专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具,重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案,释放学生的潜能。立即访问XIX.AI,开启您的探索之旅。

10 个工具
xix.ai
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
评论 (17)
0/500
FrankJackson
FrankJackson 2025-08-10 17:01:00

These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?

DouglasRodriguez
DouglasRodriguez 2025-07-28 09:20:21

These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.

StevenGonzalez
StevenGonzalez 2025-04-24 20:58:05

These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕

JackPerez
JackPerez 2025-04-24 15:52:48

Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕

GregoryJones
GregoryJones 2025-04-24 15:10:43

AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕

SamuelRoberts
SamuelRoberts 2025-04-24 12:23:58

Esses modelos de raciocínio de IA parecem legais, mas o aumento dos custos de benchmarking? Não tanto. Será que podemos ter os benefícios sem falir? 🤔

OR