ハギング・フェイス:企業がパフォーマンスを維持しながらAIコストを削減する方法

多くの企業は、AIの開発には膨大な計算能力が必要だと思い込み、単にリソースを増やすことを優先している。
しかし、ハギング・フェイスのAI・気候リーダーであるサーシャ・ルッチョーニは、別の道を提案する。AIをより賢く使うことに焦点を移したらどうだろう?追加的な(そしてしばしば過剰な)計算能力を執拗に追求する代わりに、企業はモデルのパフォーマンスと精度を向上させることができる。
ルッチョーニは、核心的な問題はアプローチにあると主張する。企業は、単に計算量を増やすのではなく、より賢い計算を目指すべきだという。
「より多くのFLOPS、より多くのGPU、より多くの時間を必要とすることに固執するあまり、私たちはよりインテリジェントな方法を見落としているのです」と彼女は説明する。
あらゆる規模の企業がAIをより効率的に導入するための、Hugging Faceの5つの重要な戦略を紹介しよう。
1: タスクに適したモデルを選択する
すべてのアプリケーションに対して、巨大で汎用的なモデルをデフォルトにしたいという衝動に駆られてはいけない。特化された、あるいは抽出されたモデルは、多くの場合、特定のタスクに対して同等、あるいはそれ以上の精度を達成することができます。
ルッチョーニの研究によれば、タスクに特化したモデルは、汎用モデルよりも20倍から30倍少ないエネルギー消費で済むという。「これらのモデルは、あらゆるクエリを処理するように設計された大規模な言語モデルとは異なり、単一の目的のために構築されています」と彼女は述べている。
ここでは、モデルの蒸留が重要である。本格的なモデルは、最初に学習させ、その後特定の機能のために改良することができる。例えば、Luccioni氏は、DeepSeek R1は非常に大規模であるため、ほとんどの組織では実行する余裕がなく、少なくとも8つのGPUを必要とすることが多いと指摘した。対照的に、蒸留されたバージョンは10倍から30倍小さくなり、単一のGPUで動作することができます。
彼女はまた、ゼロからトレーニングする必要をなくすオープンソースモデルの効率的な利点を強調した。適切なモデルを探すのにリソースを浪費していた数年前とは異なり、現在ではベースモデルから始めて、ニーズに合わせて微調整することができる。
ルッチョーニ氏は、「これにより、各自がモデルをトレーニングして計算資源を効果的に浪費するような孤立した取り組みではなく、協調的で漸進的なイノベーションが促進される」と語った。
ジェネレーティブAIのコストはしばしばその利点を上回り、企業の幻滅を招くという認識が広まっている。電子メールの作成や会議の議事録作成のような一般的な用途は純粋に役立つが、タスクに特化したモデルは依然としてかなりの労力を必要とする。ルッチョーニによれば、既製のモデルでは不十分であることが多く、価格も高い。
このギャップを埋めることが、付加価値の次のフロンティアとなる。「ほとんどの企業は、特定のタスクの達成を望んでいる。「彼らは人工知能(AGI)を求めているのではなく、特化した知能を求めているのです。それが私たちが取り組むべき課題なのです」。
2.効率をデフォルトにする
ナッジ理論」の原則をシステム設計に取り入れ、保守的な計算予算を設定し、常時稼働の生成機能を制限し、高コストの計算モードを選択するようユーザーに求める。
行動科学における "ナッジ理論 "とは、積極的な行動を促すために選択をさりげなく誘導することである。ルッチョーニは、テイクアウトの食事にカトラリーを提供する典型的な例を挙げた。食器をデフォルトで提供するのではなく、オプトインで選択できるようにすることで、無駄を劇的に減らすことができる。
「オプトアウトモデルからオプトインモデルにシフトするだけで、ユーザーの行動に強力な影響を与えることができます」とルッチョーニ氏は説明する。
デフォルトの設定は、しばしば不必要な利用やコスト増につながる。例えば、検索エンジンの中には、検索結果の上部にAIの要約を自動生成するものもある。ルッチョーニ氏はまた、最近OpenAIのGPT-5を使用した際、非常に単純なクエリであっても、モデルがデフォルトで完全な推論モードになることを観察した。
「私にとっては、それは例外です。"人生の意味は何ですか?"と尋ねるなら、確かにAIの要約は役に立つかもしれません。しかし、『モントリオールの天気はどうですか』とか『近所の薬局の営業時間は?生成的な要約は必要ない。デフォルトは推論なしであるべきである"
3.ハードウェア利用の最適化
バッチ処理の実装、数値精度の調整、特定のハードウェア世代に合わせたバッチサイズの微調整を行い、無駄なメモリと電力消費を最小限に抑える。
企業は具体的なニーズを評価すべきである:モデルは継続的に実行する必要があるのか?モデルは継続的に実行する必要があるのか?このような場合、常時最適化は不可欠である、とLuccioni氏は指摘する。モデルを定期的に実行してメモリを節約したり、バッチ処理でメモリ使用を最適化したりすることもできる。
工学的な課題ではありますが、非常に特殊な課題であるため、『すべてのモデルを蒸留せよ』とか『すべてのモデルの精度を変更せよ』といった包括的なアドバイスをすることは困難です」とルッチョーニ氏は言う。
最近の研究では、理想的なバッチサイズは、特定のモデルやバージョンに至るまで、ハードウェアに大きく依存することを発見した。バッチサイズを1単位増やすだけで、より多くのメモリ・リソースが必要になるため、エネルギー使用量が増えることもある。
「これは、人々が見落としがちな点です。バッチサイズを最大化すればいい』と考えるが、真の効率は、これらすべての変数を綿密に調整することから生まれる。その結果、高度に最適化されたシステムができあがるのですが、それは非常に特殊な状況に合わせて調整されたものなのです」とルッチョーニは説明する。
4.エネルギーの透明性を高める
インセンティブは変化を促す。これを念頭に、ハギング・フェイスは今年初め、AIエネルギー・スコアを立ち上げた。このイニシアティブは、1つ星から5つ星までの評価システムを用いてエネルギー効率を促進するもので、最も効率的なモデルは「5つ星」の指定を受ける。
これは「AIのためのエネルギー・スター」ともいえるもので、効率基準を定め、対象となる家電製品にそのロゴを表示する、長年にわたる連邦政府のプログラムにヒントを得たものである。
「何十年もの間、この星評価は強力な動機づけでした。人々はそれを望んでいた。「エネルギー・スコアで同じようなインパクトを達成することは素晴らしいことです」。
ハギング・フェイスは、9月にディープシークやGPT-ossのような新しいモデルで更新し、6ヶ月ごと、あるいは新しいモデルが登場するたびに更新し続ける予定である。その目的は、モデル開発者が高評価を「名誉の証」とみなすことだ、とルッチョーニは語った。
5.コンピュート数が多ければ多いほど良い」という考え方を見直す
最大のGPUクラスターを追い求めるのではなく、こう問い直すことから始めよう:「望む結果を達成するための最もインテリジェントな方法は何か?数多くのアプリケーションにおいて、よりスマートなアーキテクチャと、よりよくキュレーションされたデータセットは、総当たり的なスケーリングよりも良い結果をもたらします。
「おそらくほとんどの人は、考えているほど多くのGPUを必要としていないと思います」とLuccioni氏は述べた。彼女は、GPUが処理する実際のタスク、GPUが必要な理由、そのようなタスクが以前はどのように実行されていたのか、GPUを追加することで実際にどのような具体的なメリットが得られるのかを再考するよう企業に促した。
「より大きなクラスタが必要だと誰もが感じるようになった。「重要なのは、AIを何のために使うのか、どのような具体的なテクニックが必要なのか、そしてそのテクニックが本当に要求するものは何なのかを分析することです。
関連記事
Amazonは2025年にAIに1,000億ドルをコミットします
DeepseekがAI予算の減少の時代を導くことを示唆している最近の話題にもかかわらず、Big Techがブレーキを打っているという兆候はありません。それどころか、彼らはガスを踏んでいます。 Amazonは、1,000億ドルを超えるCAPIを予測するための最新の巨人です。
Nvidiaは次世代GPUを発表します:Blackwell Ultra、Vera Rubin、Feynman
火曜日にサンノゼで開催されたNVIDIAのGTC 2025会議で、CEOのJensen Huangは、今後数か月で市場に出回るGPUSセットのラインナップを発表しました。ショーのスター? Vera Rubin GPUは、2026年後半のリリースを予定しています。この獣は数十ギガバイトの記憶を誇っていて、監護権が付いています
「Cursor Composer 2」対「Claude Opus 4.6」:ベンチマークテストがAIコーディングを巡る新たな議論を巻き起こす
3月19日、Cursorは自社開発のコーディングモデル「Composer 2」を正式にリリースした。 この発表は開発者コミュニティで即座に議論を巻き起こした。Cursorによると、Composer 2はTerminal-Bench 2.0で61.7%のスコアを記録し、同一のテスト条件下でClaude Opus 4.6の58.0%を大幅に上回ったという。Anthropicのフラッグシップモデルが、自
関連特集おすすめ
コメント (0)
0/500

多くの企業は、AIの開発には膨大な計算能力が必要だと思い込み、単にリソースを増やすことを優先している。
しかし、ハギング・フェイスのAI・気候リーダーであるサーシャ・ルッチョーニは、別の道を提案する。AIをより賢く使うことに焦点を移したらどうだろう?追加的な(そしてしばしば過剰な)計算能力を執拗に追求する代わりに、企業はモデルのパフォーマンスと精度を向上させることができる。
ルッチョーニは、核心的な問題はアプローチにあると主張する。企業は、単に計算量を増やすのではなく、より賢い計算を目指すべきだという。
「より多くのFLOPS、より多くのGPU、より多くの時間を必要とすることに固執するあまり、私たちはよりインテリジェントな方法を見落としているのです」と彼女は説明する。
あらゆる規模の企業がAIをより効率的に導入するための、Hugging Faceの5つの重要な戦略を紹介しよう。
1: タスクに適したモデルを選択する
すべてのアプリケーションに対して、巨大で汎用的なモデルをデフォルトにしたいという衝動に駆られてはいけない。特化された、あるいは抽出されたモデルは、多くの場合、特定のタスクに対して同等、あるいはそれ以上の精度を達成することができます。
ルッチョーニの研究によれば、タスクに特化したモデルは、汎用モデルよりも20倍から30倍少ないエネルギー消費で済むという。「これらのモデルは、あらゆるクエリを処理するように設計された大規模な言語モデルとは異なり、単一の目的のために構築されています」と彼女は述べている。
ここでは、モデルの蒸留が重要である。本格的なモデルは、最初に学習させ、その後特定の機能のために改良することができる。例えば、Luccioni氏は、DeepSeek R1は非常に大規模であるため、ほとんどの組織では実行する余裕がなく、少なくとも8つのGPUを必要とすることが多いと指摘した。対照的に、蒸留されたバージョンは10倍から30倍小さくなり、単一のGPUで動作することができます。
彼女はまた、ゼロからトレーニングする必要をなくすオープンソースモデルの効率的な利点を強調した。適切なモデルを探すのにリソースを浪費していた数年前とは異なり、現在ではベースモデルから始めて、ニーズに合わせて微調整することができる。
ルッチョーニ氏は、「これにより、各自がモデルをトレーニングして計算資源を効果的に浪費するような孤立した取り組みではなく、協調的で漸進的なイノベーションが促進される」と語った。
ジェネレーティブAIのコストはしばしばその利点を上回り、企業の幻滅を招くという認識が広まっている。電子メールの作成や会議の議事録作成のような一般的な用途は純粋に役立つが、タスクに特化したモデルは依然としてかなりの労力を必要とする。ルッチョーニによれば、既製のモデルでは不十分であることが多く、価格も高い。
このギャップを埋めることが、付加価値の次のフロンティアとなる。「ほとんどの企業は、特定のタスクの達成を望んでいる。「彼らは人工知能(AGI)を求めているのではなく、特化した知能を求めているのです。それが私たちが取り組むべき課題なのです」。
2.効率をデフォルトにする
ナッジ理論」の原則をシステム設計に取り入れ、保守的な計算予算を設定し、常時稼働の生成機能を制限し、高コストの計算モードを選択するようユーザーに求める。
行動科学における "ナッジ理論 "とは、積極的な行動を促すために選択をさりげなく誘導することである。ルッチョーニは、テイクアウトの食事にカトラリーを提供する典型的な例を挙げた。食器をデフォルトで提供するのではなく、オプトインで選択できるようにすることで、無駄を劇的に減らすことができる。
「オプトアウトモデルからオプトインモデルにシフトするだけで、ユーザーの行動に強力な影響を与えることができます」とルッチョーニ氏は説明する。
デフォルトの設定は、しばしば不必要な利用やコスト増につながる。例えば、検索エンジンの中には、検索結果の上部にAIの要約を自動生成するものもある。ルッチョーニ氏はまた、最近OpenAIのGPT-5を使用した際、非常に単純なクエリであっても、モデルがデフォルトで完全な推論モードになることを観察した。
「私にとっては、それは例外です。"人生の意味は何ですか?"と尋ねるなら、確かにAIの要約は役に立つかもしれません。しかし、『モントリオールの天気はどうですか』とか『近所の薬局の営業時間は?生成的な要約は必要ない。デフォルトは推論なしであるべきである"
3.ハードウェア利用の最適化
バッチ処理の実装、数値精度の調整、特定のハードウェア世代に合わせたバッチサイズの微調整を行い、無駄なメモリと電力消費を最小限に抑える。
企業は具体的なニーズを評価すべきである:モデルは継続的に実行する必要があるのか?モデルは継続的に実行する必要があるのか?このような場合、常時最適化は不可欠である、とLuccioni氏は指摘する。モデルを定期的に実行してメモリを節約したり、バッチ処理でメモリ使用を最適化したりすることもできる。
工学的な課題ではありますが、非常に特殊な課題であるため、『すべてのモデルを蒸留せよ』とか『すべてのモデルの精度を変更せよ』といった包括的なアドバイスをすることは困難です」とルッチョーニ氏は言う。
最近の研究では、理想的なバッチサイズは、特定のモデルやバージョンに至るまで、ハードウェアに大きく依存することを発見した。バッチサイズを1単位増やすだけで、より多くのメモリ・リソースが必要になるため、エネルギー使用量が増えることもある。
「これは、人々が見落としがちな点です。バッチサイズを最大化すればいい』と考えるが、真の効率は、これらすべての変数を綿密に調整することから生まれる。その結果、高度に最適化されたシステムができあがるのですが、それは非常に特殊な状況に合わせて調整されたものなのです」とルッチョーニは説明する。
4.エネルギーの透明性を高める
インセンティブは変化を促す。これを念頭に、ハギング・フェイスは今年初め、AIエネルギー・スコアを立ち上げた。このイニシアティブは、1つ星から5つ星までの評価システムを用いてエネルギー効率を促進するもので、最も効率的なモデルは「5つ星」の指定を受ける。
これは「AIのためのエネルギー・スター」ともいえるもので、効率基準を定め、対象となる家電製品にそのロゴを表示する、長年にわたる連邦政府のプログラムにヒントを得たものである。
「何十年もの間、この星評価は強力な動機づけでした。人々はそれを望んでいた。「エネルギー・スコアで同じようなインパクトを達成することは素晴らしいことです」。
ハギング・フェイスは、9月にディープシークやGPT-ossのような新しいモデルで更新し、6ヶ月ごと、あるいは新しいモデルが登場するたびに更新し続ける予定である。その目的は、モデル開発者が高評価を「名誉の証」とみなすことだ、とルッチョーニは語った。
5.コンピュート数が多ければ多いほど良い」という考え方を見直す
最大のGPUクラスターを追い求めるのではなく、こう問い直すことから始めよう:「望む結果を達成するための最もインテリジェントな方法は何か?数多くのアプリケーションにおいて、よりスマートなアーキテクチャと、よりよくキュレーションされたデータセットは、総当たり的なスケーリングよりも良い結果をもたらします。
「おそらくほとんどの人は、考えているほど多くのGPUを必要としていないと思います」とLuccioni氏は述べた。彼女は、GPUが処理する実際のタスク、GPUが必要な理由、そのようなタスクが以前はどのように実行されていたのか、GPUを追加することで実際にどのような具体的なメリットが得られるのかを再考するよう企業に促した。
「より大きなクラスタが必要だと誰もが感じるようになった。「重要なのは、AIを何のために使うのか、どのような具体的なテクニックが必要なのか、そしてそのテクニックが本当に要求するものは何なのかを分析することです。
Amazonは2025年にAIに1,000億ドルをコミットします
DeepseekがAI予算の減少の時代を導くことを示唆している最近の話題にもかかわらず、Big Techがブレーキを打っているという兆候はありません。それどころか、彼らはガスを踏んでいます。 Amazonは、1,000億ドルを超えるCAPIを予測するための最新の巨人です。
Nvidiaは次世代GPUを発表します:Blackwell Ultra、Vera Rubin、Feynman
火曜日にサンノゼで開催されたNVIDIAのGTC 2025会議で、CEOのJensen Huangは、今後数か月で市場に出回るGPUSセットのラインナップを発表しました。ショーのスター? Vera Rubin GPUは、2026年後半のリリースを予定しています。この獣は数十ギガバイトの記憶を誇っていて、監護権が付いています
「Cursor Composer 2」対「Claude Opus 4.6」:ベンチマークテストがAIコーディングを巡る新たな議論を巻き起こす
3月19日、Cursorは自社開発のコーディングモデル「Composer 2」を正式にリリースした。 この発表は開発者コミュニティで即座に議論を巻き起こした。Cursorによると、Composer 2はTerminal-Bench 2.0で61.7%のスコアを記録し、同一のテスト条件下でClaude Opus 4.6の58.0%を大幅に上回ったという。Anthropicのフラッグシップモデルが、自





家






