Nvidias neuer Lama-3.1-Nemotron-Ultra übertrifft Deepseek R1 mit einer Hälfte der Größe

Während sich Meta mit der Prüfung der neuesten LLAMA 4-Modellfamilie untersucht, hat NVIDIA ein neues, vollständig Open-Source-großes Sprachmodell (LLM) auf der Grundlage des früheren LLAMA-3.1-405B-Instruction-Modells von Meta ausgelöst. Dieses Modell wurde Lama-3.1-Nemotron-Ultra-253B-V1 genannt. Dieses Modell verfügt über 253 Milliarden Parameter und ist so konstruiert, dass sie in fortgeschrittenen Argumentation, Anweisungen und Assistent-Workflows hervorragend ist. NVIDIA deutete erstmals während ihrer jährlichen GPU Technology Conference (GTC) im März auf dieses Modell hin.
Die Veröffentlichung unterstreicht das anhaltende Engagement von NVIDIA zur Verbesserung der Leistung durch architektonische Innovation und akribische Nach-Trainingsprozesse. Am 7. April 2025 sind der Code, die Gewichte und die Daten des Modells nach dem Training jetzt auf dem Umarmungsgesicht frei zugänglich. Es wurde so konzipiert, dass es an der Grundlage von Systemanforderungen nahtlos zwischen komplexen Argumentationsaufgaben und einfacheren Ausgaben wechselt und Entwicklern Flexibilität in ihren Anwendungen bietet.
Für eine effiziente Schlussfolgerung entwickelt
Aufbauend auf den früheren Bemühungen von Nvidia, LLMs für Inferenz zu optimieren, beinhaltet der Lama-3,1-Nemotron-Ultra-253b einen NAS-Prozess (Neural Architecture Search), um seine Architektur zu verfeinern. Dies umfasst innovative Funktionen wie übersprungene Aufmerksamkeitsebenen, fusionierte Feedforward -Netzwerke (FFNs) und variable FFN -Komprimierungsverhältnisse. Diese Modifikationen reduzieren die Speicherverwendung und die Rechenanforderungen des Modells und machen es so eingesetzt, dass er auf einem einzelnen 8x H100 -GPU -Knoten eingesetzt werden kann, ohne die Ausgangsqualität zu beeinträchtigen.
NVIDIA behauptet, dieses Modell liefert eine robuste Leistung und sei für die Bereitstellung von Rechenzentren kostengünstig. Es ist kompatibel mit NVIDIAs B100- und Hopper -Mikroarchitekturen und wurde sowohl im BF16- als auch in FP8 -Präzisionsmodi getestet.
Nach dem Training für Argumentation und Ausrichtung
Das Modell wurde ein umfassendes Nachtraining-Regime unterzogen. Dies beinhaltete die Überwachung der Feinabstimmung in verschiedenen Domänen wie Mathematik, Codegenerierung, Chat und Tools, gefolgt von Verstärkungslernen mit Gruppenrelationsrichtlinienoptimierung (GRPO), um die Funktionen für Anweisungen und Argumentationen zu verbessern.
Eine weitere Verfeinerung ereignete sich durch eine Wissensdestillationsphase über 65 Milliarden Token und eine kontinuierliche Vorbereitung auf weitere 88 Milliarden Token. Zu den Trainingsdatenquellen gehörten Fineweb, Buzz-V1.2 und Dolma mit Eingabeaufforderungen und Antworten nach dem Training sowohl aus Methoden der öffentlichen Korpora als auch aus synthetischen Generationen. Dieser Ansatz half dem Modell, zwischen seinen Argumentationsmodi zu unterscheiden.
Verbesserte Leistung in zahlreichen Domänen und Benchmarks
Bei aktivierter Argumentation zeigte das Modell signifikante Verbesserungen an verschiedenen Benchmarks. Zum Beispiel stieg seine Leistung beim Math500 -Benchmark von 80,40% im Standardmodus auf 97,00%, wobei die Argumentation aktiviert ist. In ähnlicher Weise stiegen die AIME25 -Werte von 16,67% auf 72,50% und LivecodeBench -Ergebnisse verdoppelten sich mehr als verdoppelt von 29,03% auf 66,31%.
Das Modell war auch in Werkzeugaufgaben und allgemeine Fragenbeantwortung (GPQA) hervorragend und erzielte im Argumentationsmodus von 76,01% im Vergleich zu 56,60% ohne. Diese Benchmarks wurden mit einer maximalen Sequenzlänge von 32.000 Token durchgeführt, und jeder Test wurde bis zu 16 Mal für die Genauigkeit wiederholt.
Im Vergleich zum hochmodernen MOE-Modell Deepseek R1, das 671 Milliarden Parameter hat, hält das Modell von NVIDIA trotz weniger Parametern selbst. Es übertrifft Deepseek R1 in Aufgaben wie GPQA (76.01 gegenüber 71,5), IFEVAL -Anweisungen (89,45 vs. 83,3) und LiveCodebench -Codierungsaufgaben (66,31 vs. 65,9). In bestimmten mathematischen Bewertungen, insbesondere Aime25 (79,8 vs. 72,50) und Math500 (97,3 gegenüber 97,00), kündigt Deepseek R1 jedoch leicht aus.
Diese Ergebnisse zeigen, dass das dichte Modell von NVIDIA MOE-Modelle in der Argumentation und allgemeinen Anweisungsausrichtung übereinstimmen oder überschreiten kann, obwohl es in mathematischen Kategorien leicht zurückbleibt.
Nutzung und Integration
Das Modell integriert nahtlos in die Bibliothek der umarmenden Gesichtstransformatoren (Version 4.48.3 empfohlen) und unterstützt Sequenzen bis zu 128.000 Token. Entwickler können das Argumentationsverhalten mithilfe von Systemaufforderungen umschalten und Decodierungsstrategien basierend auf den Aufgabenanforderungen auswählen. Für Argumentation Aufgaben schlägt NVIDIA die Verwendung von Temperaturproben (0,6) mit einem Top-P-Wert von 0,95 vor, während die gierige Decodierung für deterministische Ausgänge empfohlen wird.
Lama-3.1-Nemotron-Ultra-253b unterstützt mehrsprachige Anwendungen, einschließlich Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai. Es ist gut geeignet für verschiedene LLM-Anwendungsfälle wie Chatbot Development, AI-Agenten-Workflows, Retrieval-Augmented-Generation (LAB) und Codegenerierung.
Lizenziert für den kommerziellen Gebrauch
Das Modell wird unter der NVIDIA Open Model Lizenz veröffentlicht und der Lama 3.1 -Community -Lizenzvereinbarung regiert. Das Modell ist bereit für kommerzielle Anwendungen. Nvidia betont die Bedeutung einer verantwortungsvollen KI -Entwicklung und fordert die Teams auf, die Ausrichtung, Sicherheit und Verzerrung des Modells für ihre spezifischen Anwendungsfälle zu bewerten.
Olekisii Kuchaiev, Nvidia's Director von AI Model Post-Training, teilte die Aufregung dieser offenen Version auf X mit und hob das dichte 253B-Design mit togetable Argumentationsfunktionen und die Einbeziehung offener Gewichte und Daten hervor.
Verwandter Artikel
從 MIPS 到艾弗洛普僅僅數十年:計算能力正在爆炸,將改變 AI
在最近的 Nvidia GTC 大會上,這家科技巨頭揭露了一項突破性成就:首個單機架伺服器系統能達到一艾弗洛普。這是一個令人震驚的每秒十億億次浮點運算(FLOPS)。這項壯舉由 Nvidia 最新的 GB200 NVL72 系統驅動,搭載尖端的 Blackwell 圖形處理單元(GPU)。為了讓大家更直觀理解,這個系統安裝在一個標準電腦機架中,大約 6 英尺高,略超過 3 英尺深,寬度不到 2 英
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
Kommentare (50)
0/200
KeithNelson
14. April 2025 00:00:00 GMT
Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!
0
RalphMitchell
14. April 2025 00:00:00 GMT
Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!
0
GeorgeWilson
14. April 2025 00:00:00 GMT
Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!
0
GeorgeNelson
14. April 2025 00:00:00 GMT
O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!
0
GeorgeMiller
14. April 2025 00:00:00 GMT
El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!
0
BrianLewis
14. April 2025 00:00:00 GMT
Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!
0
Während sich Meta mit der Prüfung der neuesten LLAMA 4-Modellfamilie untersucht, hat NVIDIA ein neues, vollständig Open-Source-großes Sprachmodell (LLM) auf der Grundlage des früheren LLAMA-3.1-405B-Instruction-Modells von Meta ausgelöst. Dieses Modell wurde Lama-3.1-Nemotron-Ultra-253B-V1 genannt. Dieses Modell verfügt über 253 Milliarden Parameter und ist so konstruiert, dass sie in fortgeschrittenen Argumentation, Anweisungen und Assistent-Workflows hervorragend ist. NVIDIA deutete erstmals während ihrer jährlichen GPU Technology Conference (GTC) im März auf dieses Modell hin.
Die Veröffentlichung unterstreicht das anhaltende Engagement von NVIDIA zur Verbesserung der Leistung durch architektonische Innovation und akribische Nach-Trainingsprozesse. Am 7. April 2025 sind der Code, die Gewichte und die Daten des Modells nach dem Training jetzt auf dem Umarmungsgesicht frei zugänglich. Es wurde so konzipiert, dass es an der Grundlage von Systemanforderungen nahtlos zwischen komplexen Argumentationsaufgaben und einfacheren Ausgaben wechselt und Entwicklern Flexibilität in ihren Anwendungen bietet.
Für eine effiziente Schlussfolgerung entwickelt
Aufbauend auf den früheren Bemühungen von Nvidia, LLMs für Inferenz zu optimieren, beinhaltet der Lama-3,1-Nemotron-Ultra-253b einen NAS-Prozess (Neural Architecture Search), um seine Architektur zu verfeinern. Dies umfasst innovative Funktionen wie übersprungene Aufmerksamkeitsebenen, fusionierte Feedforward -Netzwerke (FFNs) und variable FFN -Komprimierungsverhältnisse. Diese Modifikationen reduzieren die Speicherverwendung und die Rechenanforderungen des Modells und machen es so eingesetzt, dass er auf einem einzelnen 8x H100 -GPU -Knoten eingesetzt werden kann, ohne die Ausgangsqualität zu beeinträchtigen.
NVIDIA behauptet, dieses Modell liefert eine robuste Leistung und sei für die Bereitstellung von Rechenzentren kostengünstig. Es ist kompatibel mit NVIDIAs B100- und Hopper -Mikroarchitekturen und wurde sowohl im BF16- als auch in FP8 -Präzisionsmodi getestet.
Nach dem Training für Argumentation und Ausrichtung
Das Modell wurde ein umfassendes Nachtraining-Regime unterzogen. Dies beinhaltete die Überwachung der Feinabstimmung in verschiedenen Domänen wie Mathematik, Codegenerierung, Chat und Tools, gefolgt von Verstärkungslernen mit Gruppenrelationsrichtlinienoptimierung (GRPO), um die Funktionen für Anweisungen und Argumentationen zu verbessern.
Eine weitere Verfeinerung ereignete sich durch eine Wissensdestillationsphase über 65 Milliarden Token und eine kontinuierliche Vorbereitung auf weitere 88 Milliarden Token. Zu den Trainingsdatenquellen gehörten Fineweb, Buzz-V1.2 und Dolma mit Eingabeaufforderungen und Antworten nach dem Training sowohl aus Methoden der öffentlichen Korpora als auch aus synthetischen Generationen. Dieser Ansatz half dem Modell, zwischen seinen Argumentationsmodi zu unterscheiden.
Verbesserte Leistung in zahlreichen Domänen und Benchmarks
Bei aktivierter Argumentation zeigte das Modell signifikante Verbesserungen an verschiedenen Benchmarks. Zum Beispiel stieg seine Leistung beim Math500 -Benchmark von 80,40% im Standardmodus auf 97,00%, wobei die Argumentation aktiviert ist. In ähnlicher Weise stiegen die AIME25 -Werte von 16,67% auf 72,50% und LivecodeBench -Ergebnisse verdoppelten sich mehr als verdoppelt von 29,03% auf 66,31%.
Das Modell war auch in Werkzeugaufgaben und allgemeine Fragenbeantwortung (GPQA) hervorragend und erzielte im Argumentationsmodus von 76,01% im Vergleich zu 56,60% ohne. Diese Benchmarks wurden mit einer maximalen Sequenzlänge von 32.000 Token durchgeführt, und jeder Test wurde bis zu 16 Mal für die Genauigkeit wiederholt.
Im Vergleich zum hochmodernen MOE-Modell Deepseek R1, das 671 Milliarden Parameter hat, hält das Modell von NVIDIA trotz weniger Parametern selbst. Es übertrifft Deepseek R1 in Aufgaben wie GPQA (76.01 gegenüber 71,5), IFEVAL -Anweisungen (89,45 vs. 83,3) und LiveCodebench -Codierungsaufgaben (66,31 vs. 65,9). In bestimmten mathematischen Bewertungen, insbesondere Aime25 (79,8 vs. 72,50) und Math500 (97,3 gegenüber 97,00), kündigt Deepseek R1 jedoch leicht aus.
Diese Ergebnisse zeigen, dass das dichte Modell von NVIDIA MOE-Modelle in der Argumentation und allgemeinen Anweisungsausrichtung übereinstimmen oder überschreiten kann, obwohl es in mathematischen Kategorien leicht zurückbleibt.
Nutzung und Integration
Das Modell integriert nahtlos in die Bibliothek der umarmenden Gesichtstransformatoren (Version 4.48.3 empfohlen) und unterstützt Sequenzen bis zu 128.000 Token. Entwickler können das Argumentationsverhalten mithilfe von Systemaufforderungen umschalten und Decodierungsstrategien basierend auf den Aufgabenanforderungen auswählen. Für Argumentation Aufgaben schlägt NVIDIA die Verwendung von Temperaturproben (0,6) mit einem Top-P-Wert von 0,95 vor, während die gierige Decodierung für deterministische Ausgänge empfohlen wird.
Lama-3.1-Nemotron-Ultra-253b unterstützt mehrsprachige Anwendungen, einschließlich Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai. Es ist gut geeignet für verschiedene LLM-Anwendungsfälle wie Chatbot Development, AI-Agenten-Workflows, Retrieval-Augmented-Generation (LAB) und Codegenerierung.
Lizenziert für den kommerziellen Gebrauch
Das Modell wird unter der NVIDIA Open Model Lizenz veröffentlicht und der Lama 3.1 -Community -Lizenzvereinbarung regiert. Das Modell ist bereit für kommerzielle Anwendungen. Nvidia betont die Bedeutung einer verantwortungsvollen KI -Entwicklung und fordert die Teams auf, die Ausrichtung, Sicherheit und Verzerrung des Modells für ihre spezifischen Anwendungsfälle zu bewerten.
Olekisii Kuchaiev, Nvidia's Director von AI Model Post-Training, teilte die Aufregung dieser offenen Version auf X mit und hob das dichte 253B-Design mit togetable Argumentationsfunktionen und die Einbeziehung offener Gewichte und Daten hervor.




Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!




Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!




Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!




O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!




El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!




Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!












