3つの方法メタのllama3.1はGen AIの進歩です

火曜日に、Metaは大規模言語モデル(LLM)のLlamaファミリーの最新作であるLlama 3.1を発表しました。同社はLlama 3.1を、通常最も先進的なAIモデルに使われる「フロンティアモデル」として、初のオープンソースモデルであると誇らしげに宣伝しています。
Llama 3.1にはさまざまなサイズがありますが、特に注目を集めているのは「405B」という巨大なモデルです。驚異的な4050億のニューラル「ウェイト」、つまりパラメータを持つこのモデルは、NvidiaのNemotron 4、GoogleのGemma 2、Mixtralといった他の著名なオープンソースモデルを凌駕します。さらに興味深いのは、Metaチームがこの巨大モデルを構築する際に下した3つの重要な決定です。
これらの決定は、ニューラルネットワークエンジニアリングのマスタークラスとも言えるもので、Llama 3.1 405Bの構築とトレーニングの基盤を形成しています。また、MetaがLlama 2で示した効率性の向上を基盤としており、ディープラーニングの全体的な計算コストを削減する有望な方法を示しました。
まず、Llama 3.1 405Bは、GoogleがクローズドソースのGemini 1.5やMistralがMixtralで使用している「エキスパートの混合」アプローチを採用していません。この方法では、異なるニューラルウェイトの組み合わせを作成し、一部をオフにすることで予測を効率化します。代わりに、Metaの研究者は、Googleが2017年に導入して以来の定番である「デコーダー専用トランスフォーマーモデルアーキテクチャ」にこだわりました。この選択により、トレーニングプロセスがより安定すると彼らは主張しています。
次に、この単純なトランスフォーマーベースのモデル性能を向上させるため、Metaのチームは巧妙な多段階トレーニングアプローチを考案しました。トレーニングデータと計算量のバランスが予測の品質に大きく影響することは誰もが知っています。しかし、モデルのサイズとデータに基づいて性能を予測する従来の「スケーリング法則」は、推論テストのような「下流」のタスクでの性能を必ずしも反映しません。
そこで、Metaは独自のスケーリング法則を開発しました。彼らはトレーニングデータと計算量を増やし、複数の反復でさまざまな組み合わせをテストして、結果として得られるモデルが重要な下流タスクでどれだけ優れているかを確認しました。この綿密なプロセスにより、最適なポイントを見極め、主力モデルとして4050億のパラメータを選択しました。最終トレーニングは、MetaのGrand Teton AIサーバー上の16,000個のNvidia H100 GPUチップによって駆動され、データとウェイトを並列で実行する複雑なシステムを使用しました。
3つ目の革新は、トレーニング後のフェーズにあります。各トレーニングラウンド後、Llama 3.1は、OpenAIや他の企業がモデルの出力を洗練させるために行うような、人間のフィードバックに基づく厳格なプロセスを経ます。これには「教師あり微調整」が含まれ、モデルが人間の好みに基づいて望ましい出力と望ましくない出力を区別することを学びます。
Metaはさらに、スタンフォード大学のAI研究者たちが今年開拓した、人間のフィードバックからの強化学習のより効率的なバージョンである「直接選好最適化」(DPO)を導入しています。また、Llama 3.1に外部検索エンジンなどの「ツール」を使用するトレーニングを行い、API呼び出しで解決されたプロンプトの例を示すことで、「ゼロショット」ツール使用能力を高めています。
「幻覚」を防ぐため、チームは特定のトレーニングデータを厳選し、オリジナルの質問と回答のペアを作成し、モデルが知っていることだけを答え、不確かなことには答えないように微調整しました。
開発全体を通じて、Metaの研究者はシンプルさを強調し、高品質なデータ、スケール、そして単純なアプローチが一貫して最良の結果をもたらすと述べました。より複雑なアーキテクチャやトレーニングレシピを模索したにもかかわらず、追加の複雑さがその利点を正当化しないことがわかりました。
Llama 3.1 405Bの規模は、通常商用クローズドソースモデルに比べて小さくなるオープンソースモデルにとって画期的なものです。MetaのCEO、Mark Zuckerbergは、経済的な利点を強調し、開発者がLlama 3.1 405Bで推論を実行するコストが、GPT-4oのようなモデルを使用するコストの半分であると述べました。
Zuckerbergはまた、オープンソースAIをソフトウェアの自然な進化として支持し、Unixが独自仕様からオープンソース開発によってより進んだ、安全で、幅広いエコシステムへと進化したことに例えました。
しかし、ZDNETのSteven Vaughan-Nicholsが指摘するように、MetaのHugging Faceへのコード投稿にはいくつかの詳細が欠けており、コードライセンスは典型的なオープンソースライセンスよりも制限的です。そのため、Llama 3.1は一種のオープンソースではありますが、完全にはそうではありません。それでも、トレーニングプロセスの詳細の豊富さは、OpenAIやGoogleのような巨人がクローズドソースモデルについてますます口を閉ざしている中で、さわやかな変化です。
関連記事
Anthropic、AIが作成した書籍の著作権侵害をめぐる訴訟を解決
Anthropic社は、米国の著作者との重要な著作権紛争で解決に達し、高額になる可能性のある裁判を回避する集団訴訟の和解案に合意した。今週火曜日に裁判所文書に提出されたこの合意は、AI企業が海賊版の文学作品を使ってクロードモデルを訓練したという申し立てに起因する。和解の詳細は非公開だが、この訴訟は作家のアンドレア・バーツ、チャールズ・グレイバー、カーク・ウォレス・ジョンソンの主張に端を発している。
メタ社、AIモデル「ラマ」のホストと収益を共有、出願書類で明らかに
メタ社のマーク・ザッカーバーグ最高経営責任者(CEO)は2023年7月、「アクセスの販売」はラマAIモデルのビジネスモデルではないと強調したが、新たに開示された裁判資料から、メタ社がこれらのオープンソースモデルをホスティングするクラウドプロバイダーと収益分配パートナーシップを結んでいることが明らかになった。ホスティングパートナーシップによる収益化未修正のKadrey v. Meta訴訟の文書
AIに最適化された隠されたデータの99%を解き放つ
何世代にもわたり、企業は業界を問わず、蓄積された情報が変革をもたらす資産であり、顧客とのやり取りを強化し、データ主導のビジネス戦略を比類ない精度で形成できる資産であることを理解してきた。人工知能が理論的な可能性から実用的なビジネス・ソリューションへと移行しつつある今日、企業データの戦略的価値はかつてない高みに達しています。しかし、この価値を引き出すには、体系的な収集とクリーニングから、プライバシー
コメント (27)
0/200
DavidRodriguez
2025年8月31日 1:30:32 JST
Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐
0
ThomasBaker
2025年7月31日 10:41:20 JST
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
0
AlbertThomas
2025年4月23日 0:18:49 JST
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
0
GaryGonzalez
2025年4月22日 17:13:48 JST
ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀
0
AnthonyPerez
2025年4月22日 16:26:53 JST
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀
0
JustinAnderson
2025年4月21日 6:42:32 JST
¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪
0
火曜日に、Metaは大規模言語モデル(LLM)のLlamaファミリーの最新作であるLlama 3.1を発表しました。同社はLlama 3.1を、通常最も先進的なAIモデルに使われる「フロンティアモデル」として、初のオープンソースモデルであると誇らしげに宣伝しています。
Llama 3.1にはさまざまなサイズがありますが、特に注目を集めているのは「405B」という巨大なモデルです。驚異的な4050億のニューラル「ウェイト」、つまりパラメータを持つこのモデルは、NvidiaのNemotron 4、GoogleのGemma 2、Mixtralといった他の著名なオープンソースモデルを凌駕します。さらに興味深いのは、Metaチームがこの巨大モデルを構築する際に下した3つの重要な決定です。
これらの決定は、ニューラルネットワークエンジニアリングのマスタークラスとも言えるもので、Llama 3.1 405Bの構築とトレーニングの基盤を形成しています。また、MetaがLlama 2で示した効率性の向上を基盤としており、ディープラーニングの全体的な計算コストを削減する有望な方法を示しました。
まず、Llama 3.1 405Bは、GoogleがクローズドソースのGemini 1.5やMistralがMixtralで使用している「エキスパートの混合」アプローチを採用していません。この方法では、異なるニューラルウェイトの組み合わせを作成し、一部をオフにすることで予測を効率化します。代わりに、Metaの研究者は、Googleが2017年に導入して以来の定番である「デコーダー専用トランスフォーマーモデルアーキテクチャ」にこだわりました。この選択により、トレーニングプロセスがより安定すると彼らは主張しています。
次に、この単純なトランスフォーマーベースのモデル性能を向上させるため、Metaのチームは巧妙な多段階トレーニングアプローチを考案しました。トレーニングデータと計算量のバランスが予測の品質に大きく影響することは誰もが知っています。しかし、モデルのサイズとデータに基づいて性能を予測する従来の「スケーリング法則」は、推論テストのような「下流」のタスクでの性能を必ずしも反映しません。
そこで、Metaは独自のスケーリング法則を開発しました。彼らはトレーニングデータと計算量を増やし、複数の反復でさまざまな組み合わせをテストして、結果として得られるモデルが重要な下流タスクでどれだけ優れているかを確認しました。この綿密なプロセスにより、最適なポイントを見極め、主力モデルとして4050億のパラメータを選択しました。最終トレーニングは、MetaのGrand Teton AIサーバー上の16,000個のNvidia H100 GPUチップによって駆動され、データとウェイトを並列で実行する複雑なシステムを使用しました。
3つ目の革新は、トレーニング後のフェーズにあります。各トレーニングラウンド後、Llama 3.1は、OpenAIや他の企業がモデルの出力を洗練させるために行うような、人間のフィードバックに基づく厳格なプロセスを経ます。これには「教師あり微調整」が含まれ、モデルが人間の好みに基づいて望ましい出力と望ましくない出力を区別することを学びます。
Metaはさらに、スタンフォード大学のAI研究者たちが今年開拓した、人間のフィードバックからの強化学習のより効率的なバージョンである「直接選好最適化」(DPO)を導入しています。また、Llama 3.1に外部検索エンジンなどの「ツール」を使用するトレーニングを行い、API呼び出しで解決されたプロンプトの例を示すことで、「ゼロショット」ツール使用能力を高めています。
「幻覚」を防ぐため、チームは特定のトレーニングデータを厳選し、オリジナルの質問と回答のペアを作成し、モデルが知っていることだけを答え、不確かなことには答えないように微調整しました。
開発全体を通じて、Metaの研究者はシンプルさを強調し、高品質なデータ、スケール、そして単純なアプローチが一貫して最良の結果をもたらすと述べました。より複雑なアーキテクチャやトレーニングレシピを模索したにもかかわらず、追加の複雑さがその利点を正当化しないことがわかりました。
Llama 3.1 405Bの規模は、通常商用クローズドソースモデルに比べて小さくなるオープンソースモデルにとって画期的なものです。MetaのCEO、Mark Zuckerbergは、経済的な利点を強調し、開発者がLlama 3.1 405Bで推論を実行するコストが、GPT-4oのようなモデルを使用するコストの半分であると述べました。
Zuckerbergはまた、オープンソースAIをソフトウェアの自然な進化として支持し、Unixが独自仕様からオープンソース開発によってより進んだ、安全で、幅広いエコシステムへと進化したことに例えました。
しかし、ZDNETのSteven Vaughan-Nicholsが指摘するように、MetaのHugging Faceへのコード投稿にはいくつかの詳細が欠けており、コードライセンスは典型的なオープンソースライセンスよりも制限的です。そのため、Llama 3.1は一種のオープンソースではありますが、完全にはそうではありません。それでも、トレーニングプロセスの詳細の豊富さは、OpenAIやGoogleのような巨人がクローズドソースモデルについてますます口を閉ざしている中で、さわやかな変化です。



Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐




Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎




O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀




ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀




¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀




¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪












