3つの方法メタのllama3.1はGen AIの進歩です

火曜日に、Metaは大規模言語モデル(LLM)のLlamaファミリーの最新作であるLlama 3.1を発表しました。同社はLlama 3.1を、通常最も先進的なAIモデルに使われる「フロンティアモデル」として、初のオープンソースモデルであると誇らしげに宣伝しています。
Llama 3.1にはさまざまなサイズがありますが、特に注目を集めているのは「405B」という巨大なモデルです。驚異的な4050億のニューラル「ウェイト」、つまりパラメータを持つこのモデルは、NvidiaのNemotron 4、GoogleのGemma 2、Mixtralといった他の著名なオープンソースモデルを凌駕します。さらに興味深いのは、Metaチームがこの巨大モデルを構築する際に下した3つの重要な決定です。
これらの決定は、ニューラルネットワークエンジニアリングのマスタークラスとも言えるもので、Llama 3.1 405Bの構築とトレーニングの基盤を形成しています。また、MetaがLlama 2で示した効率性の向上を基盤としており、ディープラーニングの全体的な計算コストを削減する有望な方法を示しました。
まず、Llama 3.1 405Bは、GoogleがクローズドソースのGemini 1.5やMistralがMixtralで使用している「エキスパートの混合」アプローチを採用していません。この方法では、異なるニューラルウェイトの組み合わせを作成し、一部をオフにすることで予測を効率化します。代わりに、Metaの研究者は、Googleが2017年に導入して以来の定番である「デコーダー専用トランスフォーマーモデルアーキテクチャ」にこだわりました。この選択により、トレーニングプロセスがより安定すると彼らは主張しています。
次に、この単純なトランスフォーマーベースのモデル性能を向上させるため、Metaのチームは巧妙な多段階トレーニングアプローチを考案しました。トレーニングデータと計算量のバランスが予測の品質に大きく影響することは誰もが知っています。しかし、モデルのサイズとデータに基づいて性能を予測する従来の「スケーリング法則」は、推論テストのような「下流」のタスクでの性能を必ずしも反映しません。
そこで、Metaは独自のスケーリング法則を開発しました。彼らはトレーニングデータと計算量を増やし、複数の反復でさまざまな組み合わせをテストして、結果として得られるモデルが重要な下流タスクでどれだけ優れているかを確認しました。この綿密なプロセスにより、最適なポイントを見極め、主力モデルとして4050億のパラメータを選択しました。最終トレーニングは、MetaのGrand Teton AIサーバー上の16,000個のNvidia H100 GPUチップによって駆動され、データとウェイトを並列で実行する複雑なシステムを使用しました。
3つ目の革新は、トレーニング後のフェーズにあります。各トレーニングラウンド後、Llama 3.1は、OpenAIや他の企業がモデルの出力を洗練させるために行うような、人間のフィードバックに基づく厳格なプロセスを経ます。これには「教師あり微調整」が含まれ、モデルが人間の好みに基づいて望ましい出力と望ましくない出力を区別することを学びます。
Metaはさらに、スタンフォード大学のAI研究者たちが今年開拓した、人間のフィードバックからの強化学習のより効率的なバージョンである「直接選好最適化」(DPO)を導入しています。また、Llama 3.1に外部検索エンジンなどの「ツール」を使用するトレーニングを行い、API呼び出しで解決されたプロンプトの例を示すことで、「ゼロショット」ツール使用能力を高めています。
「幻覚」を防ぐため、チームは特定のトレーニングデータを厳選し、オリジナルの質問と回答のペアを作成し、モデルが知っていることだけを答え、不確かなことには答えないように微調整しました。
開発全体を通じて、Metaの研究者はシンプルさを強調し、高品質なデータ、スケール、そして単純なアプローチが一貫して最良の結果をもたらすと述べました。より複雑なアーキテクチャやトレーニングレシピを模索したにもかかわらず、追加の複雑さがその利点を正当化しないことがわかりました。
Llama 3.1 405Bの規模は、通常商用クローズドソースモデルに比べて小さくなるオープンソースモデルにとって画期的なものです。MetaのCEO、Mark Zuckerbergは、経済的な利点を強調し、開発者がLlama 3.1 405Bで推論を実行するコストが、GPT-4oのようなモデルを使用するコストの半分であると述べました。
Zuckerbergはまた、オープンソースAIをソフトウェアの自然な進化として支持し、Unixが独自仕様からオープンソース開発によってより進んだ、安全で、幅広いエコシステムへと進化したことに例えました。
しかし、ZDNETのSteven Vaughan-Nicholsが指摘するように、MetaのHugging Faceへのコード投稿にはいくつかの詳細が欠けており、コードライセンスは典型的なオープンソースライセンスよりも制限的です。そのため、Llama 3.1は一種のオープンソースではありますが、完全にはそうではありません。それでも、トレーニングプロセスの詳細の豊富さは、OpenAIやGoogleのような巨人がクローズドソースモデルについてますます口を閉ざしている中で、さわやかな変化です。
関連記事
AIのヒップホップにおける役割:革新のツールか創造の近道か?
人工知能は日常生活を再構築しており、音楽シーンもその変化を感じています。ヒップホップでは、最新のAIシステムがトラック制作、歌詞作成、ライブパフォーマンスを変革しようとしています。この記事では、AIがヒップホップでの位置付けを掘り下げ、アーティストにとっての後押しとなるか、真の創造性を弱める支えにすぎないかを検討します。利点、倫理的問題、ヒップホップの雰囲気に今後与える影響を見ていきます。 主な
Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化
Oracleは、Financial Timesが報じたところによると、OpenAIが開発するテキサスの主要な新データセンターを動かすために、約40億ドルのNvidiaチップに投資する予定です。この取引は、これまでで最大規模のチップ取得の一つであり、AIコンピューティングリソースに対する急増する需要を強調しています。テキサス州アビリーンに位置するこの施設は、米国初の「Stargate」データセンター
ソフトバンクが日本でAIデータセンターのために676百万ドルのシャープ工場を取得
ソフトバンクは、単独およびOpenAIとのパートナーシップを通じて、日本に主要なAIハブを設立するという目標を進めています。この技術大手は金曜日に、676百万ドルを投じてシャープの元LCDパネル工場を取得し、それをAIデータセンターに変換することを確認しました。ソフトバンクとシャープの取引には、大阪の堺工場の土地と建物が含まれており、1000億円(676百万ドル)で購入されました。この買収は、生成
コメント (26)
0/200
ThomasBaker
2025年7月31日 10:41:20 JST
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
0
AlbertThomas
2025年4月23日 0:18:49 JST
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
0
GaryGonzalez
2025年4月22日 17:13:48 JST
ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀
0
AnthonyPerez
2025年4月22日 16:26:53 JST
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀
0
JustinAnderson
2025年4月21日 6:42:32 JST
¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪
0
WilliamAllen
2025年4月20日 10:52:01 JST
Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀
0
火曜日に、Metaは大規模言語モデル(LLM)のLlamaファミリーの最新作であるLlama 3.1を発表しました。同社はLlama 3.1を、通常最も先進的なAIモデルに使われる「フロンティアモデル」として、初のオープンソースモデルであると誇らしげに宣伝しています。
Llama 3.1にはさまざまなサイズがありますが、特に注目を集めているのは「405B」という巨大なモデルです。驚異的な4050億のニューラル「ウェイト」、つまりパラメータを持つこのモデルは、NvidiaのNemotron 4、GoogleのGemma 2、Mixtralといった他の著名なオープンソースモデルを凌駕します。さらに興味深いのは、Metaチームがこの巨大モデルを構築する際に下した3つの重要な決定です。
これらの決定は、ニューラルネットワークエンジニアリングのマスタークラスとも言えるもので、Llama 3.1 405Bの構築とトレーニングの基盤を形成しています。また、MetaがLlama 2で示した効率性の向上を基盤としており、ディープラーニングの全体的な計算コストを削減する有望な方法を示しました。
まず、Llama 3.1 405Bは、GoogleがクローズドソースのGemini 1.5やMistralがMixtralで使用している「エキスパートの混合」アプローチを採用していません。この方法では、異なるニューラルウェイトの組み合わせを作成し、一部をオフにすることで予測を効率化します。代わりに、Metaの研究者は、Googleが2017年に導入して以来の定番である「デコーダー専用トランスフォーマーモデルアーキテクチャ」にこだわりました。この選択により、トレーニングプロセスがより安定すると彼らは主張しています。
次に、この単純なトランスフォーマーベースのモデル性能を向上させるため、Metaのチームは巧妙な多段階トレーニングアプローチを考案しました。トレーニングデータと計算量のバランスが予測の品質に大きく影響することは誰もが知っています。しかし、モデルのサイズとデータに基づいて性能を予測する従来の「スケーリング法則」は、推論テストのような「下流」のタスクでの性能を必ずしも反映しません。
そこで、Metaは独自のスケーリング法則を開発しました。彼らはトレーニングデータと計算量を増やし、複数の反復でさまざまな組み合わせをテストして、結果として得られるモデルが重要な下流タスクでどれだけ優れているかを確認しました。この綿密なプロセスにより、最適なポイントを見極め、主力モデルとして4050億のパラメータを選択しました。最終トレーニングは、MetaのGrand Teton AIサーバー上の16,000個のNvidia H100 GPUチップによって駆動され、データとウェイトを並列で実行する複雑なシステムを使用しました。
3つ目の革新は、トレーニング後のフェーズにあります。各トレーニングラウンド後、Llama 3.1は、OpenAIや他の企業がモデルの出力を洗練させるために行うような、人間のフィードバックに基づく厳格なプロセスを経ます。これには「教師あり微調整」が含まれ、モデルが人間の好みに基づいて望ましい出力と望ましくない出力を区別することを学びます。
Metaはさらに、スタンフォード大学のAI研究者たちが今年開拓した、人間のフィードバックからの強化学習のより効率的なバージョンである「直接選好最適化」(DPO)を導入しています。また、Llama 3.1に外部検索エンジンなどの「ツール」を使用するトレーニングを行い、API呼び出しで解決されたプロンプトの例を示すことで、「ゼロショット」ツール使用能力を高めています。
「幻覚」を防ぐため、チームは特定のトレーニングデータを厳選し、オリジナルの質問と回答のペアを作成し、モデルが知っていることだけを答え、不確かなことには答えないように微調整しました。
開発全体を通じて、Metaの研究者はシンプルさを強調し、高品質なデータ、スケール、そして単純なアプローチが一貫して最良の結果をもたらすと述べました。より複雑なアーキテクチャやトレーニングレシピを模索したにもかかわらず、追加の複雑さがその利点を正当化しないことがわかりました。
Llama 3.1 405Bの規模は、通常商用クローズドソースモデルに比べて小さくなるオープンソースモデルにとって画期的なものです。MetaのCEO、Mark Zuckerbergは、経済的な利点を強調し、開発者がLlama 3.1 405Bで推論を実行するコストが、GPT-4oのようなモデルを使用するコストの半分であると述べました。
Zuckerbergはまた、オープンソースAIをソフトウェアの自然な進化として支持し、Unixが独自仕様からオープンソース開発によってより進んだ、安全で、幅広いエコシステムへと進化したことに例えました。
しかし、ZDNETのSteven Vaughan-Nicholsが指摘するように、MetaのHugging Faceへのコード投稿にはいくつかの詳細が欠けており、コードライセンスは典型的なオープンソースライセンスよりも制限的です。そのため、Llama 3.1は一種のオープンソースではありますが、完全にはそうではありません。それでも、トレーニングプロセスの詳細の豊富さは、OpenAIやGoogleのような巨人がクローズドソースモデルについてますます口を閉ざしている中で、さわやかな変化です。


Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎




O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀




ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀




¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀




¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪




Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀












