Nvidias neuer Lama-3.1-Nemotron-Ultra übertrifft Deepseek R1 mit einer Hälfte der Größe

Während Meta mit der Prüfung seiner neuesten Llama-4-Modellfamilie zu kämpfen hat, hat Nvidia leise ein neues, vollständig quelloffenes großes Sprachmodell (LLM) eingeführt, das auf Metas früherem Llama-3.1-405B-Instruct-Modell basiert. Das Modell mit dem Namen Llama-3.1-Nemotron-Ultra-253B-v1 verfügt über 253 Milliarden Parameter und ist darauf ausgelegt, in fortgeschrittenem Denken, Befolgen von Anweisungen und KI-Assistenten-Workflows zu glänzen. Nvidia deutete dieses Modell erstmals während seiner jährlichen GPU Technology Conference (GTC) im März an.
Die Veröffentlichung unterstreicht Nvidias fortlaufendes Engagement, die Leistung durch architektonische Innovationen und sorgfältige Nachbearbeitungsprozesse zu verbessern. Am 7. April 2025 angekündigt, sind der Code, die Gewichte und die Nachbearbeitungsdaten des Modells nun frei auf Hugging Face zugänglich. Es ist darauf ausgelegt, nahtlos zwischen komplexen Denkaufgaben und einfacheren Ausgaben basierend auf Systemprompts zu wechseln und bietet Entwicklern Flexibilität in ihren Anwendungen.
Für effiziente Inferenz entwickelt
Aufbauend auf Nvidias früheren Bemühungen, LLMs für Inferenz zu optimieren, integriert das Llama-3.1-Nemotron-Ultra-253B einen Neural Architecture Search (NAS)-Prozess, um seine Architektur zu verfeinern. Dies umfasst innovative Funktionen wie übersprungene Aufmerksamkeitsschichten, fusierte Feedforward-Netzwerke (FFNs) und variable FFN-Kompressionsraten. Diese Änderungen reduzieren den Speicherbedarf und die Rechenanforderungen des Modells, sodass es auf einem einzigen 8x H100 GPU-Knoten ohne Qualitätsverlust bei der Ausgabe eingesetzt werden kann.
Nvidia gibt an, dass dieses Modell eine robuste Leistung bietet und gleichzeitig kosteneffektiv für Rechenzentrumsbereitstellungen ist. Es ist kompatibel mit Nvidias B100- und Hopper-Mikroarchitekturen und wurde sowohl im BF16- als auch im FP8-Präzisionsmodus getestet.
Nachbearbeitung für Denken und Ausrichtung
Das Modell durchlief ein umfassendes Nachbearbeitungsprogramm. Dies umfasste überwachte Feinabstimmung in verschiedenen Domänen wie Mathematik, Codegenerierung, Chat und Werkzeugnutzung, gefolgt von Verstärkendem Lernen mit Group Relative Policy Optimization (GRPO), um seine Fähigkeiten im Befolgen von Anweisungen und im Denken zu verbessern.
Weitere Verfeinerung erfolgte durch eine Wissensdestillation über 65 Milliarden Token sowie fortlaufendes Pretraining mit zusätzlichen 88 Milliarden Token. Die Trainingsdatenquellen umfassten FineWeb, Buzz-V1.2 und Dolma, wobei Nachbearbeitungsprompts und -antworten sowohl aus öffentlichen Korpora als auch aus synthetischen Generierungsmethoden stammten. Dieser Ansatz half dem Modell, zwischen seinen Denkmodi zu unterscheiden.
Verbesserte Leistung in zahlreichen Domänen und Benchmarks
Wenn das Denken aktiviert war, zeigte das Modell erhebliche Verbesserungen bei verschiedenen Benchmarks. Zum Beispiel stieg die Leistung beim MATH500-Benchmark von 80,40 % im Standardmodus auf 97,00 % mit aktiviertem Denken. Ähnlich sprangen die AIME25-Werte von 16,67 % auf 72,50 %, und die LiveCodeBench-Ergebnisse verdoppelten sich mehr als, von 29,03 % auf 66,31 %.
Das Modell glänzte auch bei werkzeugbasierten Aufgaben und allgemeinen Frage-Antwort-Benchmarks (GPQA) mit einer Punktzahl von 76,01 % im Denkmodus im Vergleich zu 56,60 % ohne. Diese Benchmarks wurden mit einer maximalen Sequenzlänge von 32.000 Token durchgeführt, und jeder Test wurde bis zu 16 Mal wiederholt, um Genauigkeit zu gewährleisten.
Im Vergleich zum hochmodernen MoE-Modell DeepSeek R1, das 671 Milliarden Parameter hat, hält Nvidias Modell trotz weniger Parameter stand. Es übertrifft DeepSeek R1 in Aufgaben wie GPQA (76,01 vs. 71,5), IFEval-Anweisungsbefolgung (89,45 vs. 83,3) und LiveCodeBench-Codierungsaufgaben (66,31 vs. 65,9). Allerdings hat DeepSeek R1 in bestimmten Mathematikbewertungen, insbesondere AIME25 (79,8 vs. 72,50) und MATH500 (97,3 vs. 97,00), einen leichten Vorteil.
Diese Ergebnisse zeigen, dass Nvidias dichtes Modell in Denken und allgemeiner Anweisungsausrichtung mit MoE-Modellen mithalten oder sie übertreffen kann, obwohl es in mathematikintensiven Kategorien leicht zurückliegt.
Verwendung und Integration
Das Modell lässt sich nahtlos in die Hugging Face Transformers-Bibliothek (Version 4.48.3 empfohlen) integrieren und unterstützt Sequenzen von bis zu 128.000 Token. Entwickler können das Denkverhalten über Systemprompts umschalten und Dekodierungsstrategien je nach Aufgabenbedarf wählen. Für Denkaufgaben schlägt Nvidia eine Temperaturabtastung (0,6) mit einem Top-p-Wert von 0,95 vor, während deterministische Ausgaben eine gierige Dekodierung empfohlen wird.
Llama-3.1-Nemotron-Ultra-253B unterstützt mehrsprachige Anwendungen, einschließlich Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai. Es ist gut geeignet für verschiedene LLM-Anwendungsfälle wie Chatbot-Entwicklung, KI-Agenten-Workflows, Retrieval-Augmented Generation (RAG) und Codegenerierung.
Für kommerzielle Nutzung lizenziert
Unter der Nvidia Open Model License und der Llama 3.1 Community License Agreement veröffentlicht, ist das Modell für kommerzielle Anwendungen bereit. Nvidia betont die Bedeutung einer verantwortungsvollen KI-Entwicklung und fordert Teams auf, die Ausrichtung, Sicherheit und Voreingenommenheit des Modells für ihre spezifischen Anwendungsfälle zu bewerten.
Oleksii Kuchaiev, Nvidias Direktor für KI-Modell-Nachbearbeitung, teilte die Begeisterung über diese offene Veröffentlichung auf X und hob das dichte 253B-Design mit umschaltbaren Denkfähigkeiten sowie die Einbeziehung offener Gewichte und Daten hervor.
Verwandter Artikel
Salesforce stellt KI-Digitale Teamkollegen in Slack vor, um mit Microsoft Copilot zu konkurrieren
Salesforce hat eine neue KI-Strategie für den Arbeitsplatz gestartet und spezialisierte „digitale Teamkollegen“ in Slack-Konversationen integriert, wie das Unternehmen am Montag bekannt gab.Das neue T
Oracles 40-Mrd.-Nvidia-Chip-Investition stärkt Texas AI-Rechenzentrum
Oracle plant, etwa 40 Milliarden Dollar in Nvidia-Chips zu investieren, um ein großes neues Rechenzentrum in Texas zu betreiben, das von OpenAI entwickelt wird, wie die Financial Times berichtet. Dies
Meta AI App führt Premium-Stufe und Werbung ein
Die AI-App von Meta könnte bald ein kostenpflichtiges Abonnement einführen, ähnlich den Angeboten von Konkurrenten wie OpenAI, Google und Microsoft. Während eines Q1 2025 Earnings Calls skizzierte Met
Kommentare (52)
0/200
DouglasMartínez
18. August 2025 17:01:00 MESZ
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
0
StephenRoberts
1. August 2025 04:48:18 MESZ
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
0
AnthonyRoberts
24. April 2025 10:35:07 MESZ
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
0
JohnRoberts
23. April 2025 02:03:45 MESZ
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀
0
BillyAdams
23. April 2025 01:54:38 MESZ
O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀
0
ChristopherTaylor
22. April 2025 23:27:44 MESZ
¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀
0
Während Meta mit der Prüfung seiner neuesten Llama-4-Modellfamilie zu kämpfen hat, hat Nvidia leise ein neues, vollständig quelloffenes großes Sprachmodell (LLM) eingeführt, das auf Metas früherem Llama-3.1-405B-Instruct-Modell basiert. Das Modell mit dem Namen Llama-3.1-Nemotron-Ultra-253B-v1 verfügt über 253 Milliarden Parameter und ist darauf ausgelegt, in fortgeschrittenem Denken, Befolgen von Anweisungen und KI-Assistenten-Workflows zu glänzen. Nvidia deutete dieses Modell erstmals während seiner jährlichen GPU Technology Conference (GTC) im März an.
Die Veröffentlichung unterstreicht Nvidias fortlaufendes Engagement, die Leistung durch architektonische Innovationen und sorgfältige Nachbearbeitungsprozesse zu verbessern. Am 7. April 2025 angekündigt, sind der Code, die Gewichte und die Nachbearbeitungsdaten des Modells nun frei auf Hugging Face zugänglich. Es ist darauf ausgelegt, nahtlos zwischen komplexen Denkaufgaben und einfacheren Ausgaben basierend auf Systemprompts zu wechseln und bietet Entwicklern Flexibilität in ihren Anwendungen.
Für effiziente Inferenz entwickelt
Aufbauend auf Nvidias früheren Bemühungen, LLMs für Inferenz zu optimieren, integriert das Llama-3.1-Nemotron-Ultra-253B einen Neural Architecture Search (NAS)-Prozess, um seine Architektur zu verfeinern. Dies umfasst innovative Funktionen wie übersprungene Aufmerksamkeitsschichten, fusierte Feedforward-Netzwerke (FFNs) und variable FFN-Kompressionsraten. Diese Änderungen reduzieren den Speicherbedarf und die Rechenanforderungen des Modells, sodass es auf einem einzigen 8x H100 GPU-Knoten ohne Qualitätsverlust bei der Ausgabe eingesetzt werden kann.
Nvidia gibt an, dass dieses Modell eine robuste Leistung bietet und gleichzeitig kosteneffektiv für Rechenzentrumsbereitstellungen ist. Es ist kompatibel mit Nvidias B100- und Hopper-Mikroarchitekturen und wurde sowohl im BF16- als auch im FP8-Präzisionsmodus getestet.
Nachbearbeitung für Denken und Ausrichtung
Das Modell durchlief ein umfassendes Nachbearbeitungsprogramm. Dies umfasste überwachte Feinabstimmung in verschiedenen Domänen wie Mathematik, Codegenerierung, Chat und Werkzeugnutzung, gefolgt von Verstärkendem Lernen mit Group Relative Policy Optimization (GRPO), um seine Fähigkeiten im Befolgen von Anweisungen und im Denken zu verbessern.
Weitere Verfeinerung erfolgte durch eine Wissensdestillation über 65 Milliarden Token sowie fortlaufendes Pretraining mit zusätzlichen 88 Milliarden Token. Die Trainingsdatenquellen umfassten FineWeb, Buzz-V1.2 und Dolma, wobei Nachbearbeitungsprompts und -antworten sowohl aus öffentlichen Korpora als auch aus synthetischen Generierungsmethoden stammten. Dieser Ansatz half dem Modell, zwischen seinen Denkmodi zu unterscheiden.
Verbesserte Leistung in zahlreichen Domänen und Benchmarks
Wenn das Denken aktiviert war, zeigte das Modell erhebliche Verbesserungen bei verschiedenen Benchmarks. Zum Beispiel stieg die Leistung beim MATH500-Benchmark von 80,40 % im Standardmodus auf 97,00 % mit aktiviertem Denken. Ähnlich sprangen die AIME25-Werte von 16,67 % auf 72,50 %, und die LiveCodeBench-Ergebnisse verdoppelten sich mehr als, von 29,03 % auf 66,31 %.
Das Modell glänzte auch bei werkzeugbasierten Aufgaben und allgemeinen Frage-Antwort-Benchmarks (GPQA) mit einer Punktzahl von 76,01 % im Denkmodus im Vergleich zu 56,60 % ohne. Diese Benchmarks wurden mit einer maximalen Sequenzlänge von 32.000 Token durchgeführt, und jeder Test wurde bis zu 16 Mal wiederholt, um Genauigkeit zu gewährleisten.
Im Vergleich zum hochmodernen MoE-Modell DeepSeek R1, das 671 Milliarden Parameter hat, hält Nvidias Modell trotz weniger Parameter stand. Es übertrifft DeepSeek R1 in Aufgaben wie GPQA (76,01 vs. 71,5), IFEval-Anweisungsbefolgung (89,45 vs. 83,3) und LiveCodeBench-Codierungsaufgaben (66,31 vs. 65,9). Allerdings hat DeepSeek R1 in bestimmten Mathematikbewertungen, insbesondere AIME25 (79,8 vs. 72,50) und MATH500 (97,3 vs. 97,00), einen leichten Vorteil.
Diese Ergebnisse zeigen, dass Nvidias dichtes Modell in Denken und allgemeiner Anweisungsausrichtung mit MoE-Modellen mithalten oder sie übertreffen kann, obwohl es in mathematikintensiven Kategorien leicht zurückliegt.
Verwendung und Integration
Das Modell lässt sich nahtlos in die Hugging Face Transformers-Bibliothek (Version 4.48.3 empfohlen) integrieren und unterstützt Sequenzen von bis zu 128.000 Token. Entwickler können das Denkverhalten über Systemprompts umschalten und Dekodierungsstrategien je nach Aufgabenbedarf wählen. Für Denkaufgaben schlägt Nvidia eine Temperaturabtastung (0,6) mit einem Top-p-Wert von 0,95 vor, während deterministische Ausgaben eine gierige Dekodierung empfohlen wird.
Llama-3.1-Nemotron-Ultra-253B unterstützt mehrsprachige Anwendungen, einschließlich Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai. Es ist gut geeignet für verschiedene LLM-Anwendungsfälle wie Chatbot-Entwicklung, KI-Agenten-Workflows, Retrieval-Augmented Generation (RAG) und Codegenerierung.
Für kommerzielle Nutzung lizenziert
Unter der Nvidia Open Model License und der Llama 3.1 Community License Agreement veröffentlicht, ist das Modell für kommerzielle Anwendungen bereit. Nvidia betont die Bedeutung einer verantwortungsvollen KI-Entwicklung und fordert Teams auf, die Ausrichtung, Sicherheit und Voreingenommenheit des Modells für ihre spezifischen Anwendungsfälle zu bewerten.
Oleksii Kuchaiev, Nvidias Direktor für KI-Modell-Nachbearbeitung, teilte die Begeisterung über diese offene Veröffentlichung auf X und hob das dichte 253B-Design mit umschaltbaren Denkfähigkeiten sowie die Einbeziehung offener Gewichte und Daten hervor.



Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀




Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎




Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀




¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀




O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀




¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀












