

Nvidias neuer Lama-3.1-Nemotron-Ultra übertrifft Deepseek R1 mit einer Hälfte der Größe
13. April 2025
LarryMartinez
34

Während sich Meta mit der Prüfung der neuesten LLAMA 4-Modellfamilie untersucht, hat NVIDIA ein neues, vollständig Open-Source-großes Sprachmodell (LLM) auf der Grundlage des früheren LLAMA-3.1-405B-Instruction-Modells von Meta ausgelöst. Dieses Modell wurde Lama-3.1-Nemotron-Ultra-253B-V1 genannt. Dieses Modell verfügt über 253 Milliarden Parameter und ist so konstruiert, dass sie in fortgeschrittenen Argumentation, Anweisungen und Assistent-Workflows hervorragend ist. NVIDIA deutete erstmals während ihrer jährlichen GPU Technology Conference (GTC) im März auf dieses Modell hin.
Die Veröffentlichung unterstreicht das anhaltende Engagement von NVIDIA zur Verbesserung der Leistung durch architektonische Innovation und akribische Nach-Trainingsprozesse. Am 7. April 2025 sind der Code, die Gewichte und die Daten des Modells nach dem Training jetzt auf dem Umarmungsgesicht frei zugänglich. Es wurde so konzipiert, dass es an der Grundlage von Systemanforderungen nahtlos zwischen komplexen Argumentationsaufgaben und einfacheren Ausgaben wechselt und Entwicklern Flexibilität in ihren Anwendungen bietet.
Für eine effiziente Schlussfolgerung entwickelt
Aufbauend auf den früheren Bemühungen von Nvidia, LLMs für Inferenz zu optimieren, beinhaltet der Lama-3,1-Nemotron-Ultra-253b einen NAS-Prozess (Neural Architecture Search), um seine Architektur zu verfeinern. Dies umfasst innovative Funktionen wie übersprungene Aufmerksamkeitsebenen, fusionierte Feedforward -Netzwerke (FFNs) und variable FFN -Komprimierungsverhältnisse. Diese Modifikationen reduzieren die Speicherverwendung und die Rechenanforderungen des Modells und machen es so eingesetzt, dass er auf einem einzelnen 8x H100 -GPU -Knoten eingesetzt werden kann, ohne die Ausgangsqualität zu beeinträchtigen.
NVIDIA behauptet, dieses Modell liefert eine robuste Leistung und sei für die Bereitstellung von Rechenzentren kostengünstig. Es ist kompatibel mit NVIDIAs B100- und Hopper -Mikroarchitekturen und wurde sowohl im BF16- als auch in FP8 -Präzisionsmodi getestet.
Nach dem Training für Argumentation und Ausrichtung
Das Modell wurde ein umfassendes Nachtraining-Regime unterzogen. Dies beinhaltete die Überwachung der Feinabstimmung in verschiedenen Domänen wie Mathematik, Codegenerierung, Chat und Tools, gefolgt von Verstärkungslernen mit Gruppenrelationsrichtlinienoptimierung (GRPO), um die Funktionen für Anweisungen und Argumentationen zu verbessern.
Eine weitere Verfeinerung ereignete sich durch eine Wissensdestillationsphase über 65 Milliarden Token und eine kontinuierliche Vorbereitung auf weitere 88 Milliarden Token. Zu den Trainingsdatenquellen gehörten Fineweb, Buzz-V1.2 und Dolma mit Eingabeaufforderungen und Antworten nach dem Training sowohl aus Methoden der öffentlichen Korpora als auch aus synthetischen Generationen. Dieser Ansatz half dem Modell, zwischen seinen Argumentationsmodi zu unterscheiden.
Verbesserte Leistung in zahlreichen Domänen und Benchmarks
Bei aktivierter Argumentation zeigte das Modell signifikante Verbesserungen an verschiedenen Benchmarks. Zum Beispiel stieg seine Leistung beim Math500 -Benchmark von 80,40% im Standardmodus auf 97,00%, wobei die Argumentation aktiviert ist. In ähnlicher Weise stiegen die AIME25 -Werte von 16,67% auf 72,50% und LivecodeBench -Ergebnisse verdoppelten sich mehr als verdoppelt von 29,03% auf 66,31%.
Das Modell war auch in Werkzeugaufgaben und allgemeine Fragenbeantwortung (GPQA) hervorragend und erzielte im Argumentationsmodus von 76,01% im Vergleich zu 56,60% ohne. Diese Benchmarks wurden mit einer maximalen Sequenzlänge von 32.000 Token durchgeführt, und jeder Test wurde bis zu 16 Mal für die Genauigkeit wiederholt.
Im Vergleich zum hochmodernen MOE-Modell Deepseek R1, das 671 Milliarden Parameter hat, hält das Modell von NVIDIA trotz weniger Parametern selbst. Es übertrifft Deepseek R1 in Aufgaben wie GPQA (76.01 gegenüber 71,5), IFEVAL -Anweisungen (89,45 vs. 83,3) und LiveCodebench -Codierungsaufgaben (66,31 vs. 65,9). In bestimmten mathematischen Bewertungen, insbesondere Aime25 (79,8 vs. 72,50) und Math500 (97,3 gegenüber 97,00), kündigt Deepseek R1 jedoch leicht aus.
Diese Ergebnisse zeigen, dass das dichte Modell von NVIDIA MOE-Modelle in der Argumentation und allgemeinen Anweisungsausrichtung übereinstimmen oder überschreiten kann, obwohl es in mathematischen Kategorien leicht zurückbleibt.
Nutzung und Integration
Das Modell integriert nahtlos in die Bibliothek der umarmenden Gesichtstransformatoren (Version 4.48.3 empfohlen) und unterstützt Sequenzen bis zu 128.000 Token. Entwickler können das Argumentationsverhalten mithilfe von Systemaufforderungen umschalten und Decodierungsstrategien basierend auf den Aufgabenanforderungen auswählen. Für Argumentation Aufgaben schlägt NVIDIA die Verwendung von Temperaturproben (0,6) mit einem Top-P-Wert von 0,95 vor, während die gierige Decodierung für deterministische Ausgänge empfohlen wird.
Lama-3.1-Nemotron-Ultra-253b unterstützt mehrsprachige Anwendungen, einschließlich Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai. Es ist gut geeignet für verschiedene LLM-Anwendungsfälle wie Chatbot Development, AI-Agenten-Workflows, Retrieval-Augmented-Generation (LAB) und Codegenerierung.
Lizenziert für den kommerziellen Gebrauch
Das Modell wird unter der NVIDIA Open Model Lizenz veröffentlicht und der Lama 3.1 -Community -Lizenzvereinbarung regiert. Das Modell ist bereit für kommerzielle Anwendungen. Nvidia betont die Bedeutung einer verantwortungsvollen KI -Entwicklung und fordert die Teams auf, die Ausrichtung, Sicherheit und Verzerrung des Modells für ihre spezifischen Anwendungsfälle zu bewerten.
Olekisii Kuchaiev, Nvidia's Director von AI Model Post-Training, teilte die Aufregung dieser offenen Version auf X mit und hob das dichte 253B-Design mit togetable Argumentationsfunktionen und die Einbeziehung offener Gewichte und Daten hervor.
Verwandter Artikel
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN
The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI
Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
CoreWeave Founders Cash Out $488 Million Before Potential $4 Billion IPO
CoreWeave's IPO Filing Reveals Surprising Details and High Stakes
CoreWeave's S-1 document for its anticipated initial public offering (IPO) is packed with intriguing revelations. Supported by Nvidia, the company operates a specialized AI cloud service across 32 data centers, boasting over 250,000
Kommentare (50)
0/200
KeithNelson
13. April 2025 19:54:42 GMT
Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!
0
RalphMitchell
13. April 2025 19:54:42 GMT
Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!
0
GeorgeWilson
13. April 2025 19:54:42 GMT
Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!
0
GeorgeNelson
13. April 2025 19:54:42 GMT
O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!
0
GeorgeMiller
13. April 2025 19:54:42 GMT
El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!
0
BrianLewis
13. April 2025 17:40:08 GMT
Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!
0






Während sich Meta mit der Prüfung der neuesten LLAMA 4-Modellfamilie untersucht, hat NVIDIA ein neues, vollständig Open-Source-großes Sprachmodell (LLM) auf der Grundlage des früheren LLAMA-3.1-405B-Instruction-Modells von Meta ausgelöst. Dieses Modell wurde Lama-3.1-Nemotron-Ultra-253B-V1 genannt. Dieses Modell verfügt über 253 Milliarden Parameter und ist so konstruiert, dass sie in fortgeschrittenen Argumentation, Anweisungen und Assistent-Workflows hervorragend ist. NVIDIA deutete erstmals während ihrer jährlichen GPU Technology Conference (GTC) im März auf dieses Modell hin.
Die Veröffentlichung unterstreicht das anhaltende Engagement von NVIDIA zur Verbesserung der Leistung durch architektonische Innovation und akribische Nach-Trainingsprozesse. Am 7. April 2025 sind der Code, die Gewichte und die Daten des Modells nach dem Training jetzt auf dem Umarmungsgesicht frei zugänglich. Es wurde so konzipiert, dass es an der Grundlage von Systemanforderungen nahtlos zwischen komplexen Argumentationsaufgaben und einfacheren Ausgaben wechselt und Entwicklern Flexibilität in ihren Anwendungen bietet.
Für eine effiziente Schlussfolgerung entwickelt
Aufbauend auf den früheren Bemühungen von Nvidia, LLMs für Inferenz zu optimieren, beinhaltet der Lama-3,1-Nemotron-Ultra-253b einen NAS-Prozess (Neural Architecture Search), um seine Architektur zu verfeinern. Dies umfasst innovative Funktionen wie übersprungene Aufmerksamkeitsebenen, fusionierte Feedforward -Netzwerke (FFNs) und variable FFN -Komprimierungsverhältnisse. Diese Modifikationen reduzieren die Speicherverwendung und die Rechenanforderungen des Modells und machen es so eingesetzt, dass er auf einem einzelnen 8x H100 -GPU -Knoten eingesetzt werden kann, ohne die Ausgangsqualität zu beeinträchtigen.
NVIDIA behauptet, dieses Modell liefert eine robuste Leistung und sei für die Bereitstellung von Rechenzentren kostengünstig. Es ist kompatibel mit NVIDIAs B100- und Hopper -Mikroarchitekturen und wurde sowohl im BF16- als auch in FP8 -Präzisionsmodi getestet.
Nach dem Training für Argumentation und Ausrichtung
Das Modell wurde ein umfassendes Nachtraining-Regime unterzogen. Dies beinhaltete die Überwachung der Feinabstimmung in verschiedenen Domänen wie Mathematik, Codegenerierung, Chat und Tools, gefolgt von Verstärkungslernen mit Gruppenrelationsrichtlinienoptimierung (GRPO), um die Funktionen für Anweisungen und Argumentationen zu verbessern.
Eine weitere Verfeinerung ereignete sich durch eine Wissensdestillationsphase über 65 Milliarden Token und eine kontinuierliche Vorbereitung auf weitere 88 Milliarden Token. Zu den Trainingsdatenquellen gehörten Fineweb, Buzz-V1.2 und Dolma mit Eingabeaufforderungen und Antworten nach dem Training sowohl aus Methoden der öffentlichen Korpora als auch aus synthetischen Generationen. Dieser Ansatz half dem Modell, zwischen seinen Argumentationsmodi zu unterscheiden.
Verbesserte Leistung in zahlreichen Domänen und Benchmarks
Bei aktivierter Argumentation zeigte das Modell signifikante Verbesserungen an verschiedenen Benchmarks. Zum Beispiel stieg seine Leistung beim Math500 -Benchmark von 80,40% im Standardmodus auf 97,00%, wobei die Argumentation aktiviert ist. In ähnlicher Weise stiegen die AIME25 -Werte von 16,67% auf 72,50% und LivecodeBench -Ergebnisse verdoppelten sich mehr als verdoppelt von 29,03% auf 66,31%.
Das Modell war auch in Werkzeugaufgaben und allgemeine Fragenbeantwortung (GPQA) hervorragend und erzielte im Argumentationsmodus von 76,01% im Vergleich zu 56,60% ohne. Diese Benchmarks wurden mit einer maximalen Sequenzlänge von 32.000 Token durchgeführt, und jeder Test wurde bis zu 16 Mal für die Genauigkeit wiederholt.
Im Vergleich zum hochmodernen MOE-Modell Deepseek R1, das 671 Milliarden Parameter hat, hält das Modell von NVIDIA trotz weniger Parametern selbst. Es übertrifft Deepseek R1 in Aufgaben wie GPQA (76.01 gegenüber 71,5), IFEVAL -Anweisungen (89,45 vs. 83,3) und LiveCodebench -Codierungsaufgaben (66,31 vs. 65,9). In bestimmten mathematischen Bewertungen, insbesondere Aime25 (79,8 vs. 72,50) und Math500 (97,3 gegenüber 97,00), kündigt Deepseek R1 jedoch leicht aus.
Diese Ergebnisse zeigen, dass das dichte Modell von NVIDIA MOE-Modelle in der Argumentation und allgemeinen Anweisungsausrichtung übereinstimmen oder überschreiten kann, obwohl es in mathematischen Kategorien leicht zurückbleibt.
Nutzung und Integration
Das Modell integriert nahtlos in die Bibliothek der umarmenden Gesichtstransformatoren (Version 4.48.3 empfohlen) und unterstützt Sequenzen bis zu 128.000 Token. Entwickler können das Argumentationsverhalten mithilfe von Systemaufforderungen umschalten und Decodierungsstrategien basierend auf den Aufgabenanforderungen auswählen. Für Argumentation Aufgaben schlägt NVIDIA die Verwendung von Temperaturproben (0,6) mit einem Top-P-Wert von 0,95 vor, während die gierige Decodierung für deterministische Ausgänge empfohlen wird.
Lama-3.1-Nemotron-Ultra-253b unterstützt mehrsprachige Anwendungen, einschließlich Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai. Es ist gut geeignet für verschiedene LLM-Anwendungsfälle wie Chatbot Development, AI-Agenten-Workflows, Retrieval-Augmented-Generation (LAB) und Codegenerierung.
Lizenziert für den kommerziellen Gebrauch
Das Modell wird unter der NVIDIA Open Model Lizenz veröffentlicht und der Lama 3.1 -Community -Lizenzvereinbarung regiert. Das Modell ist bereit für kommerzielle Anwendungen. Nvidia betont die Bedeutung einer verantwortungsvollen KI -Entwicklung und fordert die Teams auf, die Ausrichtung, Sicherheit und Verzerrung des Modells für ihre spezifischen Anwendungsfälle zu bewerten.
Olekisii Kuchaiev, Nvidia's Director von AI Model Post-Training, teilte die Aufregung dieser offenen Version auf X mit und hob das dichte 253B-Design mit togetable Argumentationsfunktionen und die Einbeziehung offener Gewichte und Daten hervor.




Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!




Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!




Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!




O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!




El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!




Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!












