オプション
ニュース
ai '推論モデルのサージ、ベンチマークコストを押し上げます

ai '推論モデルのサージ、ベンチマークコストを押し上げます

2025年4月22日
112

ai '推論モデルのサージ、ベンチマークコストを押し上げます

AI推論モデルのベンチマークコストの上昇

OpenAIなどのAIラボは、複雑な問題を段階的に解決するように設計された先進的な「推論」AIモデルを宣伝しています。これらのモデルは、特に物理学などの分野で非常に効果的で、確かに印象的です。しかし、ベンチマークを行う際には高額なコストがかかり、その能力を独立して検証することが困難になっています。

第三者のAIテスト企業であるArtificial Analysisのデータによると、OpenAIのo1推論モデルを7つの人気AIベンチマークで評価するコストは驚くべきことに2,767.05ドルです。これらのベンチマークには、MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME 2024、MATH-500が含まれます。一方、Anthropicの「ハイブリッド」推論モデルであるClaude 3.7 Sonnetを同じテストでベンチマークしたコストは1,485.35ドルで、OpenAIのo3-mini-highは344.59ドルと大幅に安価でした。

すべての推論モデルが同じようにテストに高額な費用がかかるわけではありません。たとえば、Artificial AnalysisはOpenAIのo1-miniの評価に141.22ドルしか費やしていません。しかし、これらのモデルのコストは平均して高額になる傾向があります。Artificial Analysisは約12の推論モデルの評価に約5,200ドルを費やしており、これは80以上の非推論モデルの分析に費やした2,400ドルのほぼ2倍です。

比較として、2024年5月にリリースされたOpenAIの非推論GPT-4oモデルの評価には、Artificial Analysisは108.85ドルしかかからず、Claude 3.7 Sonnetの非推論の前モデルであるClaude 3.6 Sonnetは81.41ドルでした。

Artificial Analysisの共同創業者であるGeorge Cameronは、TechCrunchに対し、AIラボが推論モデルの開発を続けるにつれてベンチマーク予算を増やす準備ができていると述べました。「Artificial Analysisでは、毎月数百の評価を行い、これにかなりの予算を割いています」とCameronは述べています。「モデルがより頻繁にリリースされるにつれて、この支出が増える予定です。」

Artificial Analysisだけがこのコスト上昇に直面しているわけではありません。AIスタートアップGeneral ReasoningのCEOであるRoss Taylorは、最近、Claude 3.7 Sonnetを約3,700のユニークなプロンプトで評価するのに580ドルを費やしました。Taylorは、言語理解をテストするために設計されたベンチマークであるMMLU Proの1回の実行には1,800ドルを超えると見積もっています。

Taylorは最近のXの投稿で懸念を強調し、「私たちは、ラボがベンチマークでx%を報告し、yの計算量を費やす世界に移行していますが、学術研究者のリソースはyよりもはるかに少ないです。誰もその結果を再現できなくなるでしょう。」と述べました。

なぜ推論モデルのベンチマークは高額なのか?

推論モデルのテストが高額になる主な理由は、大量のトークンを生成する傾向があるためです。トークンは生のテキストの単位で、たとえば「fantastic」という単語は「fan」「tas」「tic」に分解される可能性があります。Artificial Analysisによると、OpenAIのo1モデルはテスト中に4,400万以上のトークンを生成し、これは非推論のGPT-4oモデルが生成したトークンの約8倍です。

ほとんどのAI企業は、トークンの数に基づいてモデルの使用料を請求しており、これが急速に累積します。さらに、現代のベンチマークは、複雑な多段階タスクを含む質問を組み込むことで、大量のトークンを引き出すように設計されています。Epoch AIのシニアリサーチャーであるJean-Stanislas Denainは、TechCrunchに対し、「今日のベンチマークは、質問数が全体的に減少しているにもかかわらず、より複雑になっています。それらはしばしば、コードの作成と実行、インターネットの閲覧、コンピュータの使用など、現実世界のタスクを実行するモデルの能力を評価しようとします。」と説明しました。

Denainはまた、最も高額なモデルのトークンあたりのコストが上昇していると指摘しました。たとえば、2024年5月にリリースされたAnthropicのClaude 3 Opusは、100万出力トークンあたり75ドルでした。一方、同年早々にリリースされたOpenAIのGPT-4.5とo1-proは、それぞれ100万出力トークンあたり150ドルと600ドルでした。

トークンあたりのコストが上昇しているにもかかわらず、Denainは「モデルが時間とともに改善しているため、特定の性能レベルに到達するコストは依然として大幅に減少しています。しかし、任意の時点で最高最大のモデルを評価したい場合、それでもより多く支払うことになります。」と述べました。

ベンチマークの公正性

OpenAIを含む多くのAIラボは、ベンチマーク目的でモデルへの無料または補助付きアクセスを提供しています。しかし、この慣行は評価プロセスの公正性に関する懸念を引き起こします。操作の証拠がなくても、AIラボの関与のほのめかしだけで、結果の客観性に疑問を投げかける可能性があります。

Ross TaylorはXでこの懸念を表明し、「科学的観点から、誰も同じモデルで再現できない結果を公開した場合、それはもはや科学と言えるのでしょうか?(そもそも科学だったのか、笑)」と尋ねました。

AIベンチマークの高コストと潜在的なバイアスは、ますます高度なモデルを開発し検証しようとする分野が直面する課題を浮き彫りにしています。

関連記事
QodoがGoogle Cloudと提携し、開発者向け無料AIコードレビューを提供 QodoがGoogle Cloudと提携し、開発者向け無料AIコードレビューを提供 Qodo、イスラエル拠点のAIコーディングスタートアップは、コード品質に焦点を当て、Google Cloudと提携し、AI生成ソフトウェアの完全性を強化。企業がコーディングにAIをますます活用する中、堅牢な監視と品質保証ツールの需要が増加。QodoのCEOイタマール・フリードマンは、AI生成コードが現代の開発の中心であると指摘。「AIがすべてのコードを書く未来を想像してください。人間がすべてをレビ
DeepMindのAIが2025年数学オリンピックで金メダルを獲得 DeepMindのAIが2025年数学オリンピックで金メダルを獲得 DeepMindのAIは、数学的推論において驚くべき飛躍を遂げ、2024年に銀メダルを獲得したわずか1年後の2025年国際数学オリンピック(IMO)で金メダルを獲得しました。このブレークスルーは、AIが人間のような創造性を必要とする複雑で抽象的な問題を解く能力の向上を強調しています。この記事では、DeepMindの変革的な軌跡、主要な技術的進歩、そしてこのマイルストーンの広範な影響を探ります。IM
AI駆動のパララックスメーカー:ダイナミックな2.5Dアニメーションを作成 AI駆動のパララックスメーカー:ダイナミックな2.5Dアニメーションを作成 静止画を魅力的な2.5Dアニメーションに変換するParallax Maker。このオープンソースツールは、アーティストやゲーム開発者が作品に奥行きと動きを加えることを可能にします。Stability AI APIを活用することで、Parallax Makerは控えめなハードウェアでもスムーズなワークフローを保証します。このツールの機能と、それがあなたのクリエイティブなプロジェクトをどのように向上さ
コメント (17)
0/200
FrankJackson
FrankJackson 2025年8月10日 18:01:00 JST

These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?

DouglasRodriguez
DouglasRodriguez 2025年7月28日 10:20:21 JST

These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.

StevenGonzalez
StevenGonzalez 2025年4月24日 21:58:05 JST

These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕

JackPerez
JackPerez 2025年4月24日 16:52:48 JST

Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕

GregoryJones
GregoryJones 2025年4月24日 16:10:43 JST

AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕

SamuelRoberts
SamuelRoberts 2025年4月24日 13:23:58 JST

Esses modelos de raciocínio de IA parecem legais, mas o aumento dos custos de benchmarking? Não tanto. Será que podemos ter os benefícios sem falir? 🤔

トップに戻ります
OR