人工智能“推理”模型激增,推动了基准成本

人工智能推理模型基准测试成本的上升
像OpenAI这样的人工智能实验室一直在宣传其先进的“推理”人工智能模型,这些模型旨在逐步解决复杂问题。这些模型在物理学等领域尤其有效,确实令人印象深刻。然而,在基准测试方面,它们的成本极高,这使得独立验证其能力变得具有挑战性。
根据第三方人工智能测试公司Artificial Analysis的数据,评估OpenAI的o1推理模型在七个热门人工智能基准测试中的成本高达2767.05美元。这些基准测试包括MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME 2024和MATH-500。相比之下,测试Anthropic的“混合”推理模型Claude 3.7 Sonnet在相同测试中的成本为1485.35美元,而OpenAI的o3-mini-high则显著便宜,仅为344.59美元。
并非所有推理模型的测试成本都同样高昂。例如,Artificial Analysis仅花费141.22美元评估OpenAI的o1-mini。然而,这些模型的测试成本平均较高。Artificial Analysis为评估大约十二个推理模型花费了约5200美元,这几乎是分析超过80个非推理模型所花费的2400美元的两倍。
相比之下,OpenAI于2024年5月发布的非推理GPT-4o模型,Artificial Analysis仅花费108.85美元进行评估,而Claude 3.6 Sonnet(Claude 3.7 Sonnet的非推理前身)成本为81.41美元。
Artificial Analysis的联合创始人George Cameron在接受TechCrunch采访时表示,该组织准备随着更多人工智能实验室继续开发推理模型而增加其基准测试预算。Cameron表示:“在Artificial Analysis,我们每月进行数百次评估,并为此投入了大量预算。我们计划随着模型更频繁发布而增加这部分支出。”
Artificial Analysis并非唯一面临这些成本上升的公司。人工智能初创公司General Reasoning的首席执行官Ross Taylor最近花费580美元在约3700个独特提示上评估Claude 3.7 Sonnet。Taylor估计,仅运行一次MMLU Pro(一个旨在测试语言理解能力的基准测试)就将超过1800美元。
Taylor在X上最近的一篇帖子中强调了一个日益增长的担忧,他表示:“我们正在走向一个世界,实验室报告某个基准测试的x%成绩,他们花费了y数量的计算资源,但学术界的资源远远少于y。没有人能够重现这些结果。”
为什么推理模型的基准测试成本如此高昂?
测试推理模型成本高的主要原因是它们倾向于生成大量令牌。令牌是原始文本的单位;例如,单词“fantastic”可能被分解为“fan”、“tas”和“tic”。据Artificial Analysis称,OpenAI的o1模型在测试中生成了超过4400万个令牌,约为非推理GPT-4o模型生成令牌数的八倍。
大多数人工智能公司根据令牌数量收费,这很快就会累积。此外,现代基准测试通过包含涉及复杂多步骤任务的问题,设计为诱导生成大量令牌。Epoch AI的资深研究员Jean-Stanislas Denain向TechCrunch解释说:“今天的基准测试更加复杂,尽管每个基准测试的问题数量总体减少。它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网和使用计算机。”
Denain还指出,最昂贵模型的每令牌成本一直在上升。例如,Anthropic的Claude 3 Opus于2024年5月发布时,每百万输出令牌的成本为75美元。相比之下,OpenAI的GPT-4.5和o1-pro在同年早些时候发布时,每百万输出令牌的成本分别为150美元和600美元。
尽管每令牌成本不断增加,Denain指出:“由于模型随时间变得更好,达到特定性能水平的成本仍然大幅下降。但如果你想在任何时间点评估最好的最大模型,你仍然需要支付更多。”
基准测试的完整性
许多人工智能实验室,包括OpenAI,为基准测试目的提供免费或补贴的模型访问。然而,这种做法引发了对评估过程完整性的担忧。即使没有证据显示存在操纵,仅仅人工智能实验室参与的暗示就可能让人对结果的客观性产生怀疑。
Ross Taylor在X上表达了这一担忧,他问道:“从科学的角度来看,如果你发布了一个无人能用相同模型重现的结果,这还是科学吗?(它曾经是科学吗,哈哈)”
人工智能基准测试的高成本和潜在偏见凸显了该领域在开发和验证日益复杂的模型时面临的挑战。
相关文章
Qodo与Google Cloud合作,为开发者提供免费AI代码审查工具
Qodo,一家专注于代码质量的以色列AI编码初创公司,已与Google Cloud建立合作关系,以增强AI生成软件的完整性。随着企业越来越依赖AI进行编码,对强大的监督和质量保证工具的需求不断增长。Qodo的首席执行官伊塔马尔·弗里德曼指出,AI生成的代码现已成为现代开发的核心。“想象一个未来,AI编写所有代码;人类无法全部审查,”弗里德曼说。“我们需要系统来确保代码符合预期价值观。”Qodo的创
DeepMind的AI在2025年数学奥林匹克获得金牌
DeepMind的AI在数学推理方面取得惊人飞跃,在2025年国际数学奥林匹克(IMO)中获得金牌,仅在2024年获得银牌一年后。这一突破凸显了AI在解决需要类人创意的复杂抽象问题方面的日益强大。本文探讨了DeepMind的转型之旅、关键技术进步及其里程碑的广泛影响。为何IMO重要自1959年以来,国际数学奥林匹克一直是全球顶尖的高中生数学竞赛。它以代数、几何、数论和组合数学的六个复杂问题挑战参赛
AI驱动的视差制作工具:打造动态2.5D动画
使用视差制作工具将静态图像转化为引人入胜的2.5D动画。この开源工具赋予艺术家和游戏开发者为作品注入深度和动态的能力。借助Stability AI API,视差制作工具确保即使在普通硬件上也能实现流畅的工作流程。探索此工具的功能及其如何提升您的创意项目。主要亮点视差制作工具是一个用于制作2.5D动画的开源解决方案。它将图像转化为与Blender和Unreal Engine兼容的动画。与Stabil
评论 (17)
0/200
FrankJackson
2025-08-10 17:01:00
These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?
0
DouglasRodriguez
2025-07-28 09:20:21
These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.
0
StevenGonzalez
2025-04-24 20:58:05
These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕
0
JackPerez
2025-04-24 15:52:48
Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕
0
GregoryJones
2025-04-24 15:10:43
AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕
0
SamuelRoberts
2025-04-24 12:23:58
Esses modelos de raciocínio de IA parecem legais, mas o aumento dos custos de benchmarking? Não tanto. Será que podemos ter os benefícios sem falir? 🤔
0
人工智能推理模型基准测试成本的上升
像OpenAI这样的人工智能实验室一直在宣传其先进的“推理”人工智能模型,这些模型旨在逐步解决复杂问题。这些模型在物理学等领域尤其有效,确实令人印象深刻。然而,在基准测试方面,它们的成本极高,这使得独立验证其能力变得具有挑战性。
根据第三方人工智能测试公司Artificial Analysis的数据,评估OpenAI的o1推理模型在七个热门人工智能基准测试中的成本高达2767.05美元。这些基准测试包括MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME 2024和MATH-500。相比之下,测试Anthropic的“混合”推理模型Claude 3.7 Sonnet在相同测试中的成本为1485.35美元,而OpenAI的o3-mini-high则显著便宜,仅为344.59美元。
并非所有推理模型的测试成本都同样高昂。例如,Artificial Analysis仅花费141.22美元评估OpenAI的o1-mini。然而,这些模型的测试成本平均较高。Artificial Analysis为评估大约十二个推理模型花费了约5200美元,这几乎是分析超过80个非推理模型所花费的2400美元的两倍。
相比之下,OpenAI于2024年5月发布的非推理GPT-4o模型,Artificial Analysis仅花费108.85美元进行评估,而Claude 3.6 Sonnet(Claude 3.7 Sonnet的非推理前身)成本为81.41美元。
Artificial Analysis的联合创始人George Cameron在接受TechCrunch采访时表示,该组织准备随着更多人工智能实验室继续开发推理模型而增加其基准测试预算。Cameron表示:“在Artificial Analysis,我们每月进行数百次评估,并为此投入了大量预算。我们计划随着模型更频繁发布而增加这部分支出。”
Artificial Analysis并非唯一面临这些成本上升的公司。人工智能初创公司General Reasoning的首席执行官Ross Taylor最近花费580美元在约3700个独特提示上评估Claude 3.7 Sonnet。Taylor估计,仅运行一次MMLU Pro(一个旨在测试语言理解能力的基准测试)就将超过1800美元。
Taylor在X上最近的一篇帖子中强调了一个日益增长的担忧,他表示:“我们正在走向一个世界,实验室报告某个基准测试的x%成绩,他们花费了y数量的计算资源,但学术界的资源远远少于y。没有人能够重现这些结果。”
为什么推理模型的基准测试成本如此高昂?
测试推理模型成本高的主要原因是它们倾向于生成大量令牌。令牌是原始文本的单位;例如,单词“fantastic”可能被分解为“fan”、“tas”和“tic”。据Artificial Analysis称,OpenAI的o1模型在测试中生成了超过4400万个令牌,约为非推理GPT-4o模型生成令牌数的八倍。
大多数人工智能公司根据令牌数量收费,这很快就会累积。此外,现代基准测试通过包含涉及复杂多步骤任务的问题,设计为诱导生成大量令牌。Epoch AI的资深研究员Jean-Stanislas Denain向TechCrunch解释说:“今天的基准测试更加复杂,尽管每个基准测试的问题数量总体减少。它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网和使用计算机。”
Denain还指出,最昂贵模型的每令牌成本一直在上升。例如,Anthropic的Claude 3 Opus于2024年5月发布时,每百万输出令牌的成本为75美元。相比之下,OpenAI的GPT-4.5和o1-pro在同年早些时候发布时,每百万输出令牌的成本分别为150美元和600美元。
尽管每令牌成本不断增加,Denain指出:“由于模型随时间变得更好,达到特定性能水平的成本仍然大幅下降。但如果你想在任何时间点评估最好的最大模型,你仍然需要支付更多。”
基准测试的完整性
许多人工智能实验室,包括OpenAI,为基准测试目的提供免费或补贴的模型访问。然而,这种做法引发了对评估过程完整性的担忧。即使没有证据显示存在操纵,仅仅人工智能实验室参与的暗示就可能让人对结果的客观性产生怀疑。
Ross Taylor在X上表达了这一担忧,他问道:“从科学的角度来看,如果你发布了一个无人能用相同模型重现的结果,这还是科学吗?(它曾经是科学吗,哈哈)”
人工智能基准测试的高成本和潜在偏见凸显了该领域在开发和验证日益复杂的模型时面临的挑战。



These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?




These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.




These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕




Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕




AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕




Esses modelos de raciocínio de IA parecem legais, mas o aumento dos custos de benchmarking? Não tanto. Será que podemos ter os benefícios sem falir? 🤔












