Nvidiaの新しいllama-3.1Nemotronウルトラは、半分のサイズでDeepseek R1を上回る

メタが最新のLlama 4モデルファミリーをめぐる厳しい監視に直面している中、Nvidiaはメタの以前のLlama-3.1-405B-Instructモデルを基にした新しい完全オープンソースの大規模言語モデル(LLM)を静かに公開しました。このモデルはLlama-3.1-Nemotron-Ultra-253B-v1と名付けられ、2530億のパラメータを誇り、高度な推論、指示追従、AIアシスタントのワークフローに優れるように設計されています。Nvidiaは3月の年次GPU Technology Conference(GTC)でこのモデルについて初めて示唆しました。
このリリースは、Nvidiaがアーキテクチャの革新と綿密な事後トレーニングプロセスを通じてパフォーマンスの向上に取り組んでいることを強調しています。2025年4月7日に発表され、モデルのコード、ウェイト、事後トレーニングデータは現在Hugging Faceで自由にアクセス可能です。システムプロンプトに基づいて複雑な推論タスクとシンプルな出力の間をシームレスに切り替えるように設計されており、開発者にアプリケーションの柔軟性を提供します。
効率的な推論のために設計
Nvidiaが以前にLLMの推論最適化に取り組んだ努力を基に、Llama-3.1-Nemotron-Ultra-253Bはニューラルアーキテクチャサーチ(NAS)プロセスを取り入れてアーキテクチャを改良しています。これには、スキップされたアテンションレイヤー、融合されたフィードフォワードネットワーク(FFN)、可変FFN圧縮率などの革新的な機能が含まれます。これらの変更により、モデルのメモリ使用量と計算要件が削減され、出力品質を損なうことなく単一の8x H100 GPUノードに展開可能です。
Nvidiaは、このモデルがデータセンター展開において堅牢なパフォーマンスを提供しながらコスト効率が高いと主張しています。NvidiaのB100およびHopperマイクロアーキテクチャと互換性があり、BF16およびFP8精度モードの両方でテストされています。
推論と整合性のための事後トレーニング
このモデルは包括的な事後トレーニングを経ています。これには、数学、コード生成、チャット、ツール使用などさまざまなドメインでの監督付き微調整が含まれ、続いてグループ相対ポリシー最適化(GRPO)による強化学習が行われ、指示追従と推論能力が強化されました。
さらに、650億トークンにわたる知識蒸留フェーズと、追加の880億トークンでの継続的な事前トレーニングが行われました。トレーニングデータソースにはFineWeb、Buzz-V1.2、Dolmaが含まれ、事後トレーニングのプロンプトと応答は公開コーパスと合成生成メソッドの両方から取得されました。このアプローチにより、モデルは推論モードを区別するのに役立ちました。
多数のドメインとベンチマークでのパフォーマンス向上
推論が有効化されると、モデルはさまざまなベンチマークで大幅な改善を示しました。たとえば、MATH500ベンチマークでは、標準モードでの80.40%から推論有効化で97.00%にパフォーマンスが急上昇しました。同様に、AIME25スコアは16.67%から72.50%に跳ね上がり、LiveCodeBenchの結果は29.03%から66.31%に倍増しました。
このモデルはツールベースのタスクや一般的な質問応答(GPQA)でも優れており、推論モードでは56.60%に対し76.01%を記録しました。これらのベンチマークは最大シーケンス長32,000トークンで実施され、各テストは正確性のため最大16回繰り返されました。
最先端のMoEモデルDeepSeek R1(6710億パラメータ)と比較しても、Nvidiaのモデルはパラメータが少ないにもかかわらず互角に戦います。GPQA(76.01対71.5)、IFEval指示追従(89.45対83.3)、LiveCodeBenchコーディングタスク(66.31対65.9)などのタスクでDeepSeek R1を上回ります。ただし、DeepSeek R1は特定の数学評価、特にAIME25(79.8対72.50)およびMATH500(97.3対97.00)でわずかに優位です。
これらの結果は、Nvidiaの密なモデルが推論と一般的な指示整合性においてMoEモデルに匹敵するかそれを上回る一方、数学集約的なカテゴリではわずかに遅れることを示しています。
使用と統合
このモデルはHugging Face Transformersライブラリ(バージョン4.48.3推奨)とシームレスに統合され、最大128,000トークンのシーケンスをサポートします。開発者はシステムプロンプトを使用して推論動作を切り替え、タスクのニーズに応じてデコード戦略を選択できます。推論タスクでは、Nvidiaは温度サンプリング(0.6)とトップp値0.95を使用することを提案し、決定論的出力には貪欲デコードを推奨しています。
Llama-3.1-Nemotron-Ultra-253Bは、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語を含む多言語アプリケーションをサポートします。チャットボットの開発、AIエージェントワークフロー、検索拡張生成(RAG)、コード生成など、さまざまなLLMユースケースに適しています。
商用利用のためのライセンス
Nvidia Open Model LicenseおよびLlama 3.1 Community License Agreementの下でリリースされ、このモデルは商用アプリケーションに対応しています。Nvidiaは、責任あるAI開発の重要性を強調し、チームが特定のユースケースに対してモデルの整合性、安全性、バイアスを評価することを促しています。
NvidiaのAIモデル事後トレーニングディレクターであるOleksii Kuchaievは、Xでこのオープンリリースについて興奮を共有し、トグル可能な推論機能を備えた253Bの密なデザインと、オープンウェイトおよびデータの包含を強調しました。
関連記事
ElevenLabs、ブラックロック、ジェイミー・フォックス、エヴァ・ロンゴリアを新たな投資家として発表
音声AI企業であるElevenLabsは、2月に発表された5億ドルのシリーズDラウンドにおいて、追加の投資家名を明らかにした。 これには、ブラックロック、ウェリントン、D.E.ショー、シュローダーズといった機関投資家、NVIDIA、セールスフォース、サンタンデール、KPN、ドイツテレコムなどの企業、そしてジェイミー・フォックス、エヴァ・ロンゴリア、『Squid Game』のクリエイターであるファン
Meta AIがFacebookマーケットプレイスでの購入者からのメッセージに対応するようになりました
Facebookは木曜日、Facebook Marketplaceに、購入者からの問い合わせへの自動返信を含む新たなMeta AI機能を導入すると発表した。同プラットフォームでは、AIを活用して出品手続きの迅速化や出品者プロフィールの要約を行うほか、出品者が商品ページで配送オプションを提供できるようになった。出品者は購入者からの問い合わせを頻繁に受けるため、FacebookはMeta AIを活用し
Meta、AmazonのAI用CPUを数百万台分調達する契約を締結
アマゾンは、再び自社開発のカスタムチップを活用し、Metaとの重要な提携関係を確立した。アマゾンは金曜日、Metaが拡大するAI需要に対応するため、数百万個のAWS Gravitonチップを導入することに合意したと発表した。なお、AWSグラビトンはGPU(グラフィックス処理ユニット)ではなく、ARMベースのCPU(汎用計算用に設計された中央処理装置)である点に留意が必要だ。大規模モデルのトレーニン
関連特集おすすめ
コメント (54)
0/500
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀

メタが最新のLlama 4モデルファミリーをめぐる厳しい監視に直面している中、Nvidiaはメタの以前のLlama-3.1-405B-Instructモデルを基にした新しい完全オープンソースの大規模言語モデル(LLM)を静かに公開しました。このモデルはLlama-3.1-Nemotron-Ultra-253B-v1と名付けられ、2530億のパラメータを誇り、高度な推論、指示追従、AIアシスタントのワークフローに優れるように設計されています。Nvidiaは3月の年次GPU Technology Conference(GTC)でこのモデルについて初めて示唆しました。
このリリースは、Nvidiaがアーキテクチャの革新と綿密な事後トレーニングプロセスを通じてパフォーマンスの向上に取り組んでいることを強調しています。2025年4月7日に発表され、モデルのコード、ウェイト、事後トレーニングデータは現在Hugging Faceで自由にアクセス可能です。システムプロンプトに基づいて複雑な推論タスクとシンプルな出力の間をシームレスに切り替えるように設計されており、開発者にアプリケーションの柔軟性を提供します。
効率的な推論のために設計
Nvidiaが以前にLLMの推論最適化に取り組んだ努力を基に、Llama-3.1-Nemotron-Ultra-253Bはニューラルアーキテクチャサーチ(NAS)プロセスを取り入れてアーキテクチャを改良しています。これには、スキップされたアテンションレイヤー、融合されたフィードフォワードネットワーク(FFN)、可変FFN圧縮率などの革新的な機能が含まれます。これらの変更により、モデルのメモリ使用量と計算要件が削減され、出力品質を損なうことなく単一の8x H100 GPUノードに展開可能です。
Nvidiaは、このモデルがデータセンター展開において堅牢なパフォーマンスを提供しながらコスト効率が高いと主張しています。NvidiaのB100およびHopperマイクロアーキテクチャと互換性があり、BF16およびFP8精度モードの両方でテストされています。
推論と整合性のための事後トレーニング
このモデルは包括的な事後トレーニングを経ています。これには、数学、コード生成、チャット、ツール使用などさまざまなドメインでの監督付き微調整が含まれ、続いてグループ相対ポリシー最適化(GRPO)による強化学習が行われ、指示追従と推論能力が強化されました。
さらに、650億トークンにわたる知識蒸留フェーズと、追加の880億トークンでの継続的な事前トレーニングが行われました。トレーニングデータソースにはFineWeb、Buzz-V1.2、Dolmaが含まれ、事後トレーニングのプロンプトと応答は公開コーパスと合成生成メソッドの両方から取得されました。このアプローチにより、モデルは推論モードを区別するのに役立ちました。
多数のドメインとベンチマークでのパフォーマンス向上
推論が有効化されると、モデルはさまざまなベンチマークで大幅な改善を示しました。たとえば、MATH500ベンチマークでは、標準モードでの80.40%から推論有効化で97.00%にパフォーマンスが急上昇しました。同様に、AIME25スコアは16.67%から72.50%に跳ね上がり、LiveCodeBenchの結果は29.03%から66.31%に倍増しました。
このモデルはツールベースのタスクや一般的な質問応答(GPQA)でも優れており、推論モードでは56.60%に対し76.01%を記録しました。これらのベンチマークは最大シーケンス長32,000トークンで実施され、各テストは正確性のため最大16回繰り返されました。
最先端のMoEモデルDeepSeek R1(6710億パラメータ)と比較しても、Nvidiaのモデルはパラメータが少ないにもかかわらず互角に戦います。GPQA(76.01対71.5)、IFEval指示追従(89.45対83.3)、LiveCodeBenchコーディングタスク(66.31対65.9)などのタスクでDeepSeek R1を上回ります。ただし、DeepSeek R1は特定の数学評価、特にAIME25(79.8対72.50)およびMATH500(97.3対97.00)でわずかに優位です。
これらの結果は、Nvidiaの密なモデルが推論と一般的な指示整合性においてMoEモデルに匹敵するかそれを上回る一方、数学集約的なカテゴリではわずかに遅れることを示しています。
使用と統合
このモデルはHugging Face Transformersライブラリ(バージョン4.48.3推奨)とシームレスに統合され、最大128,000トークンのシーケンスをサポートします。開発者はシステムプロンプトを使用して推論動作を切り替え、タスクのニーズに応じてデコード戦略を選択できます。推論タスクでは、Nvidiaは温度サンプリング(0.6)とトップp値0.95を使用することを提案し、決定論的出力には貪欲デコードを推奨しています。
Llama-3.1-Nemotron-Ultra-253Bは、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語を含む多言語アプリケーションをサポートします。チャットボットの開発、AIエージェントワークフロー、検索拡張生成(RAG)、コード生成など、さまざまなLLMユースケースに適しています。
商用利用のためのライセンス
Nvidia Open Model LicenseおよびLlama 3.1 Community License Agreementの下でリリースされ、このモデルは商用アプリケーションに対応しています。Nvidiaは、責任あるAI開発の重要性を強調し、チームが特定のユースケースに対してモデルの整合性、安全性、バイアスを評価することを促しています。
NvidiaのAIモデル事後トレーニングディレクターであるOleksii Kuchaievは、Xでこのオープンリリースについて興奮を共有し、トグル可能な推論機能を備えた253Bの密なデザインと、オープンウェイトおよびデータの包含を強調しました。
ElevenLabs、ブラックロック、ジェイミー・フォックス、エヴァ・ロンゴリアを新たな投資家として発表
音声AI企業であるElevenLabsは、2月に発表された5億ドルのシリーズDラウンドにおいて、追加の投資家名を明らかにした。 これには、ブラックロック、ウェリントン、D.E.ショー、シュローダーズといった機関投資家、NVIDIA、セールスフォース、サンタンデール、KPN、ドイツテレコムなどの企業、そしてジェイミー・フォックス、エヴァ・ロンゴリア、『Squid Game』のクリエイターであるファン
Meta AIがFacebookマーケットプレイスでの購入者からのメッセージに対応するようになりました
Facebookは木曜日、Facebook Marketplaceに、購入者からの問い合わせへの自動返信を含む新たなMeta AI機能を導入すると発表した。同プラットフォームでは、AIを活用して出品手続きの迅速化や出品者プロフィールの要約を行うほか、出品者が商品ページで配送オプションを提供できるようになった。出品者は購入者からの問い合わせを頻繁に受けるため、FacebookはMeta AIを活用し
Meta、AmazonのAI用CPUを数百万台分調達する契約を締結
アマゾンは、再び自社開発のカスタムチップを活用し、Metaとの重要な提携関係を確立した。アマゾンは金曜日、Metaが拡大するAI需要に対応するため、数百万個のAWS Gravitonチップを導入することに合意したと発表した。なお、AWSグラビトンはGPU(グラフィックス処理ユニット)ではなく、ARMベースのCPU(汎用計算用に設計された中央処理装置)である点に留意が必要だ。大規模モデルのトレーニン
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀





家






