NVIDIA的新Llama-3.1 Nemotron Ultra Ultra的表現為DeepSeek R1,尺寸為一半

儘管Meta對其最新的Llama 4模型系列進行了審查,但Nvidia悄悄地推出了一種基於Meta的早期Llama-3.1-405B教學模型的新的,完全開源的大語言模型(LLM)。該型號命名為llama-3.1-Nemotron-ultra-253b-v1,具有2530億個參數,並經過精心設計,可在高級推理,指導下和AI助理工作流程中脫穎而出。 NVIDIA在3月的年度GPU技術會議(GTC)中首次暗示了該模型。
該版本強調了NVIDIA通過建築創新和細緻的培訓後過程提高績效的持續承諾。該模型的代碼,權重和訓練後數據現在可以在擁抱面前自由訪問,於2025年4月7日宣布。它旨在根據系統提示在復雜的推理任務和更簡單的輸出之間無縫切換,從而為開發人員的應用程序提供了靈活性。
為有效的推斷而設計
Llama-3.1-Nemotron-ultra-253b以Nvidia先前為推理優化LLM的努力為基礎,結合了神經體系結構搜索(NAS)過程,以完善其體系結構。這包括創新功能,例如跳過注意力層,融合饋電網絡(FFN)和可變的FFN壓縮比。這些修改降低了模型的內存使用和計算要求,使其可以在單個8x H100 GPU節點上部署,而不會損害輸出質量。
NVIDIA聲稱該模型可提供強大的性能,同時對數據中心部署具有成本效益。它與NVIDIA的B100和Hopper微體系結構兼容,並且已在BF16和FP8精度模式中進行了測試。
推理和對齊的訓練後培訓
該模型接受了全面的訓練後方案。這包括跨各個領域的監督微調,例如數學,代碼生成,聊天和工具使用,然後使用小組相對策略優化(GRPO)進行加強學習,以增強其跟踪和推理能力。
進一步的完善是通過超過650億個代幣的知識蒸餾階段,並在另外880億個令牌上進行了預修。培訓數據來源包括FineWeb,Buzz-V1.2和Dolma,並帶有培訓後提示和來自公共語料庫和合成生成方法的響應。這種方法有助於該模型區分其推理模式。
改善了眾多領域和基準的性能
當啟用推理時,該模型在各種基準測試中顯示出顯著改進。例如,在Math500基準測試中,其性能從標準模式下的80.40%飆升至啟用推理的97.00%。同樣,AIME25分數從16.67%躍升至72.50%,LiveCodeBench的結果增加了一倍以上,從29.03%到66.31%。
該模型還擅長基於工具的任務和一般問答(GPQA),在推理模式下得分為76.01%,而沒有56.60%。這些基準測試的最大序列長度為32,000個令牌,並重複每次測試以達到16次以提高準確性。
與具有6710億個參數的最先進的MOE DeepSeek R1相比,儘管參數較少,但NVIDIA的模型仍擁有自己的模型。它的表現優於諸如GPQA(76.01 vs. 71.5),IFEVAL指令(89.45 vs. 83.3)和LiveCodeBench編碼任務(66.31 vs. 65.9)等任務中的DeepSeek R1。但是,DeepSeek R1在某些數學評估中略有偏差,特別是AIME25(79.8 vs. 72.50)和MATH500(97.3 vs. 97.00)。
這些結果表明,NVIDIA的密集模型可以匹配或超過推理和一般指導對準的MOE模型,儘管它略微落在了數學密集型類別中。
用法和集成
該模型無縫集成與擁抱的面孔庫(建議版本4.48.3),並支持高達128,000個令牌的序列。開發人員可以使用系統提示來切換推理行為,並根據任務需求選擇解碼策略。對於推理任務,NVIDIA建議使用溫度採樣(0.6),頂部P值為0.95,而建議確定性輸出進行貪婪的解碼。
Llama-3.1-紐馬 - 烏爾特拉-253B支持多語言應用,包括英語,德語,法語,意大利語,葡萄牙語,印地語,西班牙語和泰語。它非常適合各種LLM用例,例如聊天機器人開發,AI代理工作流程,檢索演出生成(RAG)和代碼生成。
獲得商業用途的許可
該型號已準備根據Llama 3.1社區許可協議,該模型已準備好用於商業申請。 NVIDIA強調了負責AI開發的重要性,敦促團隊評估模型的特定用例的一致性,安全性和偏見。
NVIDIA的AI模型訓練後總監Oleksii Kuchaiev分享了有關X上此開放版本的興奮,並以可切換的推理能力強調了其密集的253B設計,並包括開放的重量和數據。
相關文章
從 MIPS 到艾弗洛普僅僅數十年:計算能力正在爆炸,將改變 AI
在最近的 Nvidia GTC 大會上,這家科技巨頭揭露了一項突破性成就:首個單機架伺服器系統能達到一艾弗洛普。這是一個令人震驚的每秒十億億次浮點運算(FLOPS)。這項壯舉由 Nvidia 最新的 GB200 NVL72 系統驅動,搭載尖端的 Blackwell 圖形處理單元(GPU)。為了讓大家更直觀理解,這個系統安裝在一個標準電腦機架中,大約 6 英尺高,略超過 3 英尺深,寬度不到 2 英
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
評論 (50)
0/200
KeithNelson
2025-04-14 08:00:00
Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!
0
RalphMitchell
2025-04-14 08:00:00
Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!
0
GeorgeWilson
2025-04-14 08:00:00
Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!
0
GeorgeNelson
2025-04-14 08:00:00
O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!
0
GeorgeMiller
2025-04-14 08:00:00
El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!
0
BrianLewis
2025-04-14 08:00:00
Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!
0
儘管Meta對其最新的Llama 4模型系列進行了審查,但Nvidia悄悄地推出了一種基於Meta的早期Llama-3.1-405B教學模型的新的,完全開源的大語言模型(LLM)。該型號命名為llama-3.1-Nemotron-ultra-253b-v1,具有2530億個參數,並經過精心設計,可在高級推理,指導下和AI助理工作流程中脫穎而出。 NVIDIA在3月的年度GPU技術會議(GTC)中首次暗示了該模型。
該版本強調了NVIDIA通過建築創新和細緻的培訓後過程提高績效的持續承諾。該模型的代碼,權重和訓練後數據現在可以在擁抱面前自由訪問,於2025年4月7日宣布。它旨在根據系統提示在復雜的推理任務和更簡單的輸出之間無縫切換,從而為開發人員的應用程序提供了靈活性。
為有效的推斷而設計
Llama-3.1-Nemotron-ultra-253b以Nvidia先前為推理優化LLM的努力為基礎,結合了神經體系結構搜索(NAS)過程,以完善其體系結構。這包括創新功能,例如跳過注意力層,融合饋電網絡(FFN)和可變的FFN壓縮比。這些修改降低了模型的內存使用和計算要求,使其可以在單個8x H100 GPU節點上部署,而不會損害輸出質量。
NVIDIA聲稱該模型可提供強大的性能,同時對數據中心部署具有成本效益。它與NVIDIA的B100和Hopper微體系結構兼容,並且已在BF16和FP8精度模式中進行了測試。
推理和對齊的訓練後培訓
該模型接受了全面的訓練後方案。這包括跨各個領域的監督微調,例如數學,代碼生成,聊天和工具使用,然後使用小組相對策略優化(GRPO)進行加強學習,以增強其跟踪和推理能力。
進一步的完善是通過超過650億個代幣的知識蒸餾階段,並在另外880億個令牌上進行了預修。培訓數據來源包括FineWeb,Buzz-V1.2和Dolma,並帶有培訓後提示和來自公共語料庫和合成生成方法的響應。這種方法有助於該模型區分其推理模式。
改善了眾多領域和基準的性能
當啟用推理時,該模型在各種基準測試中顯示出顯著改進。例如,在Math500基準測試中,其性能從標準模式下的80.40%飆升至啟用推理的97.00%。同樣,AIME25分數從16.67%躍升至72.50%,LiveCodeBench的結果增加了一倍以上,從29.03%到66.31%。
該模型還擅長基於工具的任務和一般問答(GPQA),在推理模式下得分為76.01%,而沒有56.60%。這些基準測試的最大序列長度為32,000個令牌,並重複每次測試以達到16次以提高準確性。
與具有6710億個參數的最先進的MOE DeepSeek R1相比,儘管參數較少,但NVIDIA的模型仍擁有自己的模型。它的表現優於諸如GPQA(76.01 vs. 71.5),IFEVAL指令(89.45 vs. 83.3)和LiveCodeBench編碼任務(66.31 vs. 65.9)等任務中的DeepSeek R1。但是,DeepSeek R1在某些數學評估中略有偏差,特別是AIME25(79.8 vs. 72.50)和MATH500(97.3 vs. 97.00)。
這些結果表明,NVIDIA的密集模型可以匹配或超過推理和一般指導對準的MOE模型,儘管它略微落在了數學密集型類別中。
用法和集成
該模型無縫集成與擁抱的面孔庫(建議版本4.48.3),並支持高達128,000個令牌的序列。開發人員可以使用系統提示來切換推理行為,並根據任務需求選擇解碼策略。對於推理任務,NVIDIA建議使用溫度採樣(0.6),頂部P值為0.95,而建議確定性輸出進行貪婪的解碼。
Llama-3.1-紐馬 - 烏爾特拉-253B支持多語言應用,包括英語,德語,法語,意大利語,葡萄牙語,印地語,西班牙語和泰語。它非常適合各種LLM用例,例如聊天機器人開發,AI代理工作流程,檢索演出生成(RAG)和代碼生成。
獲得商業用途的許可
該型號已準備根據Llama 3.1社區許可協議,該模型已準備好用於商業申請。 NVIDIA強調了負責AI開發的重要性,敦促團隊評估模型的特定用例的一致性,安全性和偏見。
NVIDIA的AI模型訓練後總監Oleksii Kuchaiev分享了有關X上此開放版本的興奮,並以可切換的推理能力強調了其密集的253B設計,並包括開放的重量和數據。




Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!




Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!




Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!




O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!




El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!




Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!












