人工智能“推理”模型激增，推動了基準成本

首頁

新聞

2025-04-22

NicholasAdams

112

人工智能“推理”模型激增，推動了基準成本

AI推理模型基準測試成本的上升

像OpenAI這樣的AI實驗室一直在宣傳其先進的「推理」AI模型，這些模型設計為逐步解決複雜問題。這些模型在物理學等領域尤為出色，令人印象深刻。然而，在基準測試方面，它們的成本極高，這使得獨立驗證其能力變得具有挑戰性。

根據第三方AI測試公司Artificial Analysis的數據，評估OpenAI的o1推理模型在七個熱門AI基準測試中的成本高達2,767.05美元。這些基準包括MMLU-Pro、GPQA Diamond、人類的最後考試、LiveCodeBench、SciCode、AIME 2024和MATH-500。相比之下，對Anthropic的「混合」推理模型Claude 3.7 Sonnet進行相同測試的成本為1,485.35美元，而OpenAI的o3-mini-high則顯著便宜，仅為344.59美元。

並非所有推理模型的測試成本都同樣高昂。例如，Artificial Analysis僅花費141.22美元評估OpenAI的o1-mini。然而，這些模型的平均測試成本往往較高。Artificial Analysis已花費約5,200美元評估大約十二個推理模型，這幾乎是分析超過80個非推理模型所花費2,400美元的兩倍。

作為對比，OpenAI於2024年5月發布的非推理GPT-4o模型，Artificial Analysis僅花費108.85美元進行評估，而Claude 3.6 Sonnet，作為Claude 3.7 Sonnet的非推理前身，成本為81.41美元。

Artificial Analysis的聯合創始人George Cameron在接受TechCrunch採訪時表示，隨著更多AI實驗室繼續開發推理模型，該組織已準備好增加其基準測試預算。Cameron表示：「在Artificial Analysis，我們每月進行數百次評估，並為此投入了可觀的預算。我們計劃隨著模型發布頻率的增加而增加這項支出。」

Artificial Analysis並非唯一面臨這些成本上升的機構。AI初創公司General Reasoning的執行長Ross Taylor最近花費580美元在約3,700個獨特提示上評估Claude 3.7 Sonnet。Taylor估計，單獨運行一次MMLU Pro（一個旨在測試語言理解能力的基準）的成本將超過1,800美元。

Taylor在X上的近期帖子中強調了一個日益嚴重的問題，他表示：「我們正在走向一個世界，實驗室報告某個基準的x%成績，他們花費了y的計算資源，但學術界的資源遠遠小於y。沒有人能夠重現這些結果。」

為什麼推理模型的基準測試如此昂貴？

測試推理模型成本高的主要原因是它們傾向於生成大量token。Token是原始文本的單位；例如，單詞「fantastic」可能被分解為「fan」、「tas」和「tic」。根據Artificial Analysis的數據，OpenAI的o1模型在測試中生成了超過4,400萬個token，約為非推理GPT-4o模型生成token數量的八倍。

大多數AI公司根據token數量收取模型使用費用，這很快就會累積。此外，現代基準測試設計為通過包含涉及複雜、多步驟任務的問題來引發大量token。Epoch AI的高級研究員Jean-Stanislas Denain向TechCrunch解釋說：「如今的基準測試更加複雜，儘管每個基準的問題數量總體減少。它們通常試圖評估模型執行現實世界任務的能力，例如編寫和執行程式碼、瀏覽網際網路和使用電腦。」

Denain還指出，最昂貴模型的每token成本一直在上升。例如，Anthropic的Claude 3 Opus於2024年5月發布時，每百萬輸出token的成本為75美元。相比之下，OpenAI的GPT-4.5和o1-pro在同年早些時候發布，成本分別為每百萬輸出token 150美元和600美元。

儘管每token成本增加，Denain指出：「隨著模型隨著時間的推移變得更好，達到特定性能水平的成本仍然大幅下降。但如果你想評估當前最好的最大模型，你仍然需要支付更多。」

基準測試的完整性

許多AI實驗室，包括OpenAI，為基準測試目的提供免費或補貼的模型使用權。然而，這種做法引發了對評估過程完整性的擔憂。即使沒有操縱的證據，僅僅是AI實驗室參與的暗示就可能對結果的客觀性產生懷疑。

Ross Taylor在X上表達了這種擔憂，他問道：「從科學的角度來看，如果你發布了一個沒有人能用同一模型重現的結果，這還算是科學嗎？（它曾經是科學嗎，哈哈）」

AI基準測試的高成本和潛在偏見凸顯了該領域在開發和驗證日益複雜的模型時所面臨的挑戰。

AI Powered Cover Letters：期刊投稿專家指南在現今競爭激烈的學術出版環境中，撰寫一封有效的求職信對您的稿件能否被接受起著舉足輕重的作用。探索像 ChatGPT 之類的人工智能工具如何簡化這項重要任務，幫助您撰寫出精緻、專業的求職信，吸引期刊編輯的注意。我們的全面指南揭示了逐步優化您的投稿包並最大化出版成功率的策略。重點必要的研究準備：彙整所有稿件細節和期刊規格。AI 輔助撰稿：使用 ChatGPT 生成初始求職信模板。個人客製化：完善 AI

美國將因社交媒體法規制裁外國官員美國站出來反對全球數位內容法規美國國務院本周針對歐洲的數位治理政策發出尖銳的外交譴責，顯示在網路平台控制權上的緊張關係正不斷升級。國務卿 Marco Rubio 公布了一項新的簽證限制政策，針對參與美國認為影響美國數位空間的過度審查的外國官員。新簽證限制說明根據週三公佈的政策，美國將拒絕被判定為正在執行影響美國受保護言論的海外內容規定的外國公民入境。Rubio 強調兩項主要的違法行為：

AI 驅動的 YouTube 影片摘要器終極指南在資訊豐富的數位環境中，AI 驅動的 YouTube 影片摘要器已成為有效率內容消費不可或缺的工具。本深入指南將探討如何使用尖端的 NLP 技術，特別是 Hugging Face 的 BART 模型結合 YouTube 的 Transcript API，建立精密的摘要工具。無論您是要開發生產力工具、增強可及性解決方案，或是創造教育資源，本指南都能提供您所需的一切，讓您能以文字與音訊輸出功能來實作專

評論 (17)

0/200

提交

FrankJackson

2025-08-10 17:01:00

These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?

DouglasRodriguez

2025-07-28 09:20:21

These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.

StevenGonzalez

2025-04-24 20:58:05

These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕

JackPerez

2025-04-24 15:52:48

Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕

GregoryJones

2025-04-24 15:10:43

AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕

SamuelRoberts

2025-04-24 12:23:58

Esses modelos de raciocínio de IA parecem legais, mas o aumento dos custos de benchmarking? Não tanto. Será que podemos ter os benefícios sem falir? 🤔

頭號新聞

2025頂級AI影片生成器：Pika Labs與其他對比 Gemini 2.5 Pro現在比Claude，GPT-4O更便宜，更便宜 AI配音：真實聲音創作終極指南 Cambium的AI將垃圾木頭變成木材 AI Builder和Power Automate革新文件摘要 Openai增強了AI語音助手以進行更好的聊天如何確保您的數據值得信賴AI集成 NotebookLM在全球範圍內擴展，添加幻燈片並增強了事實檢查對美國數據中心的調整可以解鎖76 GW的新電源容量 Google利用AI暫停了超過3900萬的廣告帳戶，以涉嫌欺詐

精選