人工智能“推理”模型激增,推动了基准成本

人工智能推理模型基准测试成本的上升
像OpenAI这样的人工智能实验室一直在宣传其先进的“推理”人工智能模型,这些模型旨在逐步解决复杂问题。这些模型在物理学等领域尤其有效,确实令人印象深刻。然而,在基准测试方面,它们的成本极高,这使得独立验证其能力变得具有挑战性。
根据第三方人工智能测试公司Artificial Analysis的数据,评估OpenAI的o1推理模型在七个热门人工智能基准测试中的成本高达2767.05美元。这些基准测试包括MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME 2024和MATH-500。相比之下,测试Anthropic的“混合”推理模型Claude 3.7 Sonnet在相同测试中的成本为1485.35美元,而OpenAI的o3-mini-high则显著便宜,仅为344.59美元。
并非所有推理模型的测试成本都同样高昂。例如,Artificial Analysis仅花费141.22美元评估OpenAI的o1-mini。然而,这些模型的测试成本平均较高。Artificial Analysis为评估大约十二个推理模型花费了约5200美元,这几乎是分析超过80个非推理模型所花费的2400美元的两倍。
相比之下,OpenAI于2024年5月发布的非推理GPT-4o模型,Artificial Analysis仅花费108.85美元进行评估,而Claude 3.6 Sonnet(Claude 3.7 Sonnet的非推理前身)成本为81.41美元。
Artificial Analysis的联合创始人George Cameron在接受TechCrunch采访时表示,该组织准备随着更多人工智能实验室继续开发推理模型而增加其基准测试预算。Cameron表示:“在Artificial Analysis,我们每月进行数百次评估,并为此投入了大量预算。我们计划随着模型更频繁发布而增加这部分支出。”
Artificial Analysis并非唯一面临这些成本上升的公司。人工智能初创公司General Reasoning的首席执行官Ross Taylor最近花费580美元在约3700个独特提示上评估Claude 3.7 Sonnet。Taylor估计,仅运行一次MMLU Pro(一个旨在测试语言理解能力的基准测试)就将超过1800美元。
Taylor在X上最近的一篇帖子中强调了一个日益增长的担忧,他表示:“我们正在走向一个世界,实验室报告某个基准测试的x%成绩,他们花费了y数量的计算资源,但学术界的资源远远少于y。没有人能够重现这些结果。”
为什么推理模型的基准测试成本如此高昂?
测试推理模型成本高的主要原因是它们倾向于生成大量令牌。令牌是原始文本的单位;例如,单词“fantastic”可能被分解为“fan”、“tas”和“tic”。据Artificial Analysis称,OpenAI的o1模型在测试中生成了超过4400万个令牌,约为非推理GPT-4o模型生成令牌数的八倍。
大多数人工智能公司根据令牌数量收费,这很快就会累积。此外,现代基准测试通过包含涉及复杂多步骤任务的问题,设计为诱导生成大量令牌。Epoch AI的资深研究员Jean-Stanislas Denain向TechCrunch解释说:“今天的基准测试更加复杂,尽管每个基准测试的问题数量总体减少。它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网和使用计算机。”
Denain还指出,最昂贵模型的每令牌成本一直在上升。例如,Anthropic的Claude 3 Opus于2024年5月发布时,每百万输出令牌的成本为75美元。相比之下,OpenAI的GPT-4.5和o1-pro在同年早些时候发布时,每百万输出令牌的成本分别为150美元和600美元。
尽管每令牌成本不断增加,Denain指出:“由于模型随时间变得更好,达到特定性能水平的成本仍然大幅下降。但如果你想在任何时间点评估最好的最大模型,你仍然需要支付更多。”
基准测试的完整性
许多人工智能实验室,包括OpenAI,为基准测试目的提供免费或补贴的模型访问。然而,这种做法引发了对评估过程完整性的担忧。即使没有证据显示存在操纵,仅仅人工智能实验室参与的暗示就可能让人对结果的客观性产生怀疑。
Ross Taylor在X上表达了这一担忧,他问道:“从科学的角度来看,如果你发布了一个无人能用相同模型重现的结果,这还是科学吗?(它曾经是科学吗,哈哈)”
人工智能基准测试的高成本和潜在偏见凸显了该领域在开发和验证日益复杂的模型时面临的挑战。
相关文章
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增
继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote
4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
腾讯旗下“小龙虾”表现远超预期,团队将运力扩大10倍,并致歉及提供补偿
腾讯正式推出全场景AI智能助手“WorkBuddy”,凭借高度集成和低部署门槛,标志着大型模型应用层竞争进入新阶段。该产品在发布当天便引发了业界广泛关注。 用户流量远超预期,导致相关产品腾讯云代码助手(CodeBuddy)出现登录故障及服务不稳定。腾讯云团队随后发布致歉声明,表示技术团队已紧急将容量扩容十倍,目前服务已全面恢复。受影响用户获得了5,000腾讯云代金券作为补偿。业界观察人士将Work
相关专题推荐
评论 (17)
0/500
These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?
These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.
These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕
Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕
AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕

人工智能推理模型基准测试成本的上升
像OpenAI这样的人工智能实验室一直在宣传其先进的“推理”人工智能模型,这些模型旨在逐步解决复杂问题。这些模型在物理学等领域尤其有效,确实令人印象深刻。然而,在基准测试方面,它们的成本极高,这使得独立验证其能力变得具有挑战性。
根据第三方人工智能测试公司Artificial Analysis的数据,评估OpenAI的o1推理模型在七个热门人工智能基准测试中的成本高达2767.05美元。这些基准测试包括MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME 2024和MATH-500。相比之下,测试Anthropic的“混合”推理模型Claude 3.7 Sonnet在相同测试中的成本为1485.35美元,而OpenAI的o3-mini-high则显著便宜,仅为344.59美元。
并非所有推理模型的测试成本都同样高昂。例如,Artificial Analysis仅花费141.22美元评估OpenAI的o1-mini。然而,这些模型的测试成本平均较高。Artificial Analysis为评估大约十二个推理模型花费了约5200美元,这几乎是分析超过80个非推理模型所花费的2400美元的两倍。
相比之下,OpenAI于2024年5月发布的非推理GPT-4o模型,Artificial Analysis仅花费108.85美元进行评估,而Claude 3.6 Sonnet(Claude 3.7 Sonnet的非推理前身)成本为81.41美元。
Artificial Analysis的联合创始人George Cameron在接受TechCrunch采访时表示,该组织准备随着更多人工智能实验室继续开发推理模型而增加其基准测试预算。Cameron表示:“在Artificial Analysis,我们每月进行数百次评估,并为此投入了大量预算。我们计划随着模型更频繁发布而增加这部分支出。”
Artificial Analysis并非唯一面临这些成本上升的公司。人工智能初创公司General Reasoning的首席执行官Ross Taylor最近花费580美元在约3700个独特提示上评估Claude 3.7 Sonnet。Taylor估计,仅运行一次MMLU Pro(一个旨在测试语言理解能力的基准测试)就将超过1800美元。
Taylor在X上最近的一篇帖子中强调了一个日益增长的担忧,他表示:“我们正在走向一个世界,实验室报告某个基准测试的x%成绩,他们花费了y数量的计算资源,但学术界的资源远远少于y。没有人能够重现这些结果。”
为什么推理模型的基准测试成本如此高昂?
测试推理模型成本高的主要原因是它们倾向于生成大量令牌。令牌是原始文本的单位;例如,单词“fantastic”可能被分解为“fan”、“tas”和“tic”。据Artificial Analysis称,OpenAI的o1模型在测试中生成了超过4400万个令牌,约为非推理GPT-4o模型生成令牌数的八倍。
大多数人工智能公司根据令牌数量收费,这很快就会累积。此外,现代基准测试通过包含涉及复杂多步骤任务的问题,设计为诱导生成大量令牌。Epoch AI的资深研究员Jean-Stanislas Denain向TechCrunch解释说:“今天的基准测试更加复杂,尽管每个基准测试的问题数量总体减少。它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网和使用计算机。”
Denain还指出,最昂贵模型的每令牌成本一直在上升。例如,Anthropic的Claude 3 Opus于2024年5月发布时,每百万输出令牌的成本为75美元。相比之下,OpenAI的GPT-4.5和o1-pro在同年早些时候发布时,每百万输出令牌的成本分别为150美元和600美元。
尽管每令牌成本不断增加,Denain指出:“由于模型随时间变得更好,达到特定性能水平的成本仍然大幅下降。但如果你想在任何时间点评估最好的最大模型,你仍然需要支付更多。”
基准测试的完整性
许多人工智能实验室,包括OpenAI,为基准测试目的提供免费或补贴的模型访问。然而,这种做法引发了对评估过程完整性的担忧。即使没有证据显示存在操纵,仅仅人工智能实验室参与的暗示就可能让人对结果的客观性产生怀疑。
Ross Taylor在X上表达了这一担忧,他问道:“从科学的角度来看,如果你发布了一个无人能用相同模型重现的结果,这还是科学吗?(它曾经是科学吗,哈哈)”
人工智能基准测试的高成本和潜在偏见凸显了该领域在开发和验证日益复杂的模型时面临的挑战。
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增
继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote
4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
腾讯旗下“小龙虾”表现远超预期,团队将运力扩大10倍,并致歉及提供补偿
腾讯正式推出全场景AI智能助手“WorkBuddy”,凭借高度集成和低部署门槛,标志着大型模型应用层竞争进入新阶段。该产品在发布当天便引发了业界广泛关注。 用户流量远超预期,导致相关产品腾讯云代码助手(CodeBuddy)出现登录故障及服务不稳定。腾讯云团队随后发布致歉声明,表示技术团队已紧急将容量扩容十倍,目前服务已全面恢复。受影响用户获得了5,000腾讯云代金券作为补偿。业界观察人士将Work
These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?
These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.
These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕
Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕
AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕





首页






