人工智能“推理”模型激增,推動了基準成本

AI推理模型基準測試成本的上升
像OpenAI這樣的AI實驗室一直在宣傳其先進的「推理」AI模型,這些模型設計為逐步解決複雜問題。這些模型在物理學等領域尤為出色,令人印象深刻。然而,在基準測試方面,它們的成本極高,這使得獨立驗證其能力變得具有挑戰性。
根據第三方AI測試公司Artificial Analysis的數據,評估OpenAI的o1推理模型在七個熱門AI基準測試中的成本高達2,767.05美元。這些基準包括MMLU-Pro、GPQA Diamond、人類的最後考試、LiveCodeBench、SciCode、AIME 2024和MATH-500。相比之下,對Anthropic的「混合」推理模型Claude 3.7 Sonnet進行相同測試的成本為1,485.35美元,而OpenAI的o3-mini-high則顯著便宜,仅為344.59美元。
並非所有推理模型的測試成本都同樣高昂。例如,Artificial Analysis僅花費141.22美元評估OpenAI的o1-mini。然而,這些模型的平均測試成本往往較高。Artificial Analysis已花費約5,200美元評估大約十二個推理模型,這幾乎是分析超過80個非推理模型所花費2,400美元的兩倍。
作為對比,OpenAI於2024年5月發布的非推理GPT-4o模型,Artificial Analysis僅花費108.85美元進行評估,而Claude 3.6 Sonnet,作為Claude 3.7 Sonnet的非推理前身,成本為81.41美元。
Artificial Analysis的聯合創始人George Cameron在接受TechCrunch採訪時表示,隨著更多AI實驗室繼續開發推理模型,該組織已準備好增加其基準測試預算。Cameron表示:「在Artificial Analysis,我們每月進行數百次評估,並為此投入了可觀的預算。我們計劃隨著模型發布頻率的增加而增加這項支出。」
Artificial Analysis並非唯一面臨這些成本上升的機構。AI初創公司General Reasoning的執行長Ross Taylor最近花費580美元在約3,700個獨特提示上評估Claude 3.7 Sonnet。Taylor估計,單獨運行一次MMLU Pro(一個旨在測試語言理解能力的基準)的成本將超過1,800美元。
Taylor在X上的近期帖子中強調了一個日益嚴重的問題,他表示:「我們正在走向一個世界,實驗室報告某個基準的x%成績,他們花費了y的計算資源,但學術界的資源遠遠小於y。沒有人能夠重現這些結果。」
為什麼推理模型的基準測試如此昂貴?
測試推理模型成本高的主要原因是它們傾向於生成大量token。Token是原始文本的單位;例如,單詞「fantastic」可能被分解為「fan」、「tas」和「tic」。根據Artificial Analysis的數據,OpenAI的o1模型在測試中生成了超過4,400萬個token,約為非推理GPT-4o模型生成token數量的八倍。
大多數AI公司根據token數量收取模型使用費用,這很快就會累積。此外,現代基準測試設計為通過包含涉及複雜、多步驟任務的問題來引發大量token。Epoch AI的高級研究員Jean-Stanislas Denain向TechCrunch解釋說:「如今的基準測試更加複雜,儘管每個基準的問題數量總體減少。它們通常試圖評估模型執行現實世界任務的能力,例如編寫和執行程式碼、瀏覽網際網路和使用電腦。」
Denain還指出,最昂貴模型的每token成本一直在上升。例如,Anthropic的Claude 3 Opus於2024年5月發布時,每百萬輸出token的成本為75美元。相比之下,OpenAI的GPT-4.5和o1-pro在同年早些時候發布,成本分別為每百萬輸出token 150美元和600美元。
儘管每token成本增加,Denain指出:「隨著模型隨著時間的推移變得更好,達到特定性能水平的成本仍然大幅下降。但如果你想評估當前最好的最大模型,你仍然需要支付更多。」
基準測試的完整性
許多AI實驗室,包括OpenAI,為基準測試目的提供免費或補貼的模型使用權。然而,這種做法引發了對評估過程完整性的擔憂。即使沒有操縱的證據,僅僅是AI實驗室參與的暗示就可能對結果的客觀性產生懷疑。
Ross Taylor在X上表達了這種擔憂,他問道:「從科學的角度來看,如果你發布了一個沒有人能用同一模型重現的結果,這還算是科學嗎?(它曾經是科學嗎,哈哈)」
AI基準測試的高成本和潛在偏見凸顯了該領域在開發和驗證日益複雜的模型時所面臨的挑戰。
相關文章
如何保護資產、建築物及個人健康?
在這個充滿變數的世界裡,保障已不再僅是選項,而是戰略上的必要之舉。無論是守護財務、強化建築結構,還是關注個人健康,長期的穩定都仰賴於主動規劃。真正的安全是多層次的,取決於財務管理、結構韌性與明智的健康意識三者相輔相成。守護最重要的事物,意味著必須未雨綢繆,而非僅在損害發生後才做出反應。財務保障:第一道防線每個人與每家企業都運作於財務架構之中。收入、支出、負債與投資構成了穩定的基石。若缺乏有條不紊的
AI 瀏覽器 Comet 正式上線,在 iPad 上全面支援多工處理
Perplexity 的 AI 瀏覽器 Comet 已正式推出 iPad 版本,現已全面相容於 iPadOS。此次更新導入多視窗瀏覽功能、多工處理支援,並與 OpenAI 和 Anthropic 等頂尖 AI 模型深度整合,帶來更智能的網路體驗。Comet 瀏覽器拓展了使用者探索網路及與 AI 聊天機器人互動的方式,提供直觀的管道存取 OpenAI 和 Anthropic 等頂尖 AI 模型,以進
Trace籌集了300萬美元,用於解決企業採用AI智慧助手時所遇到的各種障礙。
儘管人工智慧代理具有巨大潛力,但它們在企業中仍難以取得實質性進展。一家新興的初創企業認為,根本問題在於缺乏上下文資訊。Trace是一家專注於工作流程協作的初創企業,它作為Y Combinator 2025年夏季培訓專案的一部分誕生,旨在彌補這一空白。該公司能夠梳理複雜的企業環境和業務流程,為人工智慧代理提供所需的上下文資訊,從而幫助它們快速發展。“OpenAI和Anthropic培養出了非常優秀的人工智慧實習生,企業完全可以利用這些資源,”Trace的執行長Tim Cherkasov解釋
相關專題推薦
評論 (17)
0/500
These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?
These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.
These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕
Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕
AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕

AI推理模型基準測試成本的上升
像OpenAI這樣的AI實驗室一直在宣傳其先進的「推理」AI模型,這些模型設計為逐步解決複雜問題。這些模型在物理學等領域尤為出色,令人印象深刻。然而,在基準測試方面,它們的成本極高,這使得獨立驗證其能力變得具有挑戰性。
根據第三方AI測試公司Artificial Analysis的數據,評估OpenAI的o1推理模型在七個熱門AI基準測試中的成本高達2,767.05美元。這些基準包括MMLU-Pro、GPQA Diamond、人類的最後考試、LiveCodeBench、SciCode、AIME 2024和MATH-500。相比之下,對Anthropic的「混合」推理模型Claude 3.7 Sonnet進行相同測試的成本為1,485.35美元,而OpenAI的o3-mini-high則顯著便宜,仅為344.59美元。
並非所有推理模型的測試成本都同樣高昂。例如,Artificial Analysis僅花費141.22美元評估OpenAI的o1-mini。然而,這些模型的平均測試成本往往較高。Artificial Analysis已花費約5,200美元評估大約十二個推理模型,這幾乎是分析超過80個非推理模型所花費2,400美元的兩倍。
作為對比,OpenAI於2024年5月發布的非推理GPT-4o模型,Artificial Analysis僅花費108.85美元進行評估,而Claude 3.6 Sonnet,作為Claude 3.7 Sonnet的非推理前身,成本為81.41美元。
Artificial Analysis的聯合創始人George Cameron在接受TechCrunch採訪時表示,隨著更多AI實驗室繼續開發推理模型,該組織已準備好增加其基準測試預算。Cameron表示:「在Artificial Analysis,我們每月進行數百次評估,並為此投入了可觀的預算。我們計劃隨著模型發布頻率的增加而增加這項支出。」
Artificial Analysis並非唯一面臨這些成本上升的機構。AI初創公司General Reasoning的執行長Ross Taylor最近花費580美元在約3,700個獨特提示上評估Claude 3.7 Sonnet。Taylor估計,單獨運行一次MMLU Pro(一個旨在測試語言理解能力的基準)的成本將超過1,800美元。
Taylor在X上的近期帖子中強調了一個日益嚴重的問題,他表示:「我們正在走向一個世界,實驗室報告某個基準的x%成績,他們花費了y的計算資源,但學術界的資源遠遠小於y。沒有人能夠重現這些結果。」
為什麼推理模型的基準測試如此昂貴?
測試推理模型成本高的主要原因是它們傾向於生成大量token。Token是原始文本的單位;例如,單詞「fantastic」可能被分解為「fan」、「tas」和「tic」。根據Artificial Analysis的數據,OpenAI的o1模型在測試中生成了超過4,400萬個token,約為非推理GPT-4o模型生成token數量的八倍。
大多數AI公司根據token數量收取模型使用費用,這很快就會累積。此外,現代基準測試設計為通過包含涉及複雜、多步驟任務的問題來引發大量token。Epoch AI的高級研究員Jean-Stanislas Denain向TechCrunch解釋說:「如今的基準測試更加複雜,儘管每個基準的問題數量總體減少。它們通常試圖評估模型執行現實世界任務的能力,例如編寫和執行程式碼、瀏覽網際網路和使用電腦。」
Denain還指出,最昂貴模型的每token成本一直在上升。例如,Anthropic的Claude 3 Opus於2024年5月發布時,每百萬輸出token的成本為75美元。相比之下,OpenAI的GPT-4.5和o1-pro在同年早些時候發布,成本分別為每百萬輸出token 150美元和600美元。
儘管每token成本增加,Denain指出:「隨著模型隨著時間的推移變得更好,達到特定性能水平的成本仍然大幅下降。但如果你想評估當前最好的最大模型,你仍然需要支付更多。」
基準測試的完整性
許多AI實驗室,包括OpenAI,為基準測試目的提供免費或補貼的模型使用權。然而,這種做法引發了對評估過程完整性的擔憂。即使沒有操縱的證據,僅僅是AI實驗室參與的暗示就可能對結果的客觀性產生懷疑。
Ross Taylor在X上表達了這種擔憂,他問道:「從科學的角度來看,如果你發布了一個沒有人能用同一模型重現的結果,這還算是科學嗎?(它曾經是科學嗎,哈哈)」
AI基準測試的高成本和潛在偏見凸顯了該領域在開發和驗證日益複雜的模型時所面臨的挑戰。
如何保護資產、建築物及個人健康?
在這個充滿變數的世界裡,保障已不再僅是選項,而是戰略上的必要之舉。無論是守護財務、強化建築結構,還是關注個人健康,長期的穩定都仰賴於主動規劃。真正的安全是多層次的,取決於財務管理、結構韌性與明智的健康意識三者相輔相成。守護最重要的事物,意味著必須未雨綢繆,而非僅在損害發生後才做出反應。財務保障:第一道防線每個人與每家企業都運作於財務架構之中。收入、支出、負債與投資構成了穩定的基石。若缺乏有條不紊的
AI 瀏覽器 Comet 正式上線,在 iPad 上全面支援多工處理
Perplexity 的 AI 瀏覽器 Comet 已正式推出 iPad 版本,現已全面相容於 iPadOS。此次更新導入多視窗瀏覽功能、多工處理支援,並與 OpenAI 和 Anthropic 等頂尖 AI 模型深度整合,帶來更智能的網路體驗。Comet 瀏覽器拓展了使用者探索網路及與 AI 聊天機器人互動的方式,提供直觀的管道存取 OpenAI 和 Anthropic 等頂尖 AI 模型,以進
Trace籌集了300萬美元,用於解決企業採用AI智慧助手時所遇到的各種障礙。
儘管人工智慧代理具有巨大潛力,但它們在企業中仍難以取得實質性進展。一家新興的初創企業認為,根本問題在於缺乏上下文資訊。Trace是一家專注於工作流程協作的初創企業,它作為Y Combinator 2025年夏季培訓專案的一部分誕生,旨在彌補這一空白。該公司能夠梳理複雜的企業環境和業務流程,為人工智慧代理提供所需的上下文資訊,從而幫助它們快速發展。“OpenAI和Anthropic培養出了非常優秀的人工智慧實習生,企業完全可以利用這些資源,”Trace的執行長Tim Cherkasov解釋
These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?
These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.
These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕
Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕
AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕





首頁






