NVIDIA的新Llama-3.1 Nemotron Ultra Ultra的表現為DeepSeek R1,尺寸為一半

當Meta正因其最新的Llama 4模型家族受到審查時,Nvidia已悄然推出基於Meta早期Llama-3.1-405B-Instruct模型的新款完全開源大型語言模型(LLM)。此模型名為Llama-3.1-Nemotron-Ultra-253B-v1,擁有2530億個參數,專為高級推理、指令遵循和AI助手工作流程而設計。Nvidia在三月舉行的年度GPU技術會議(GTC)上首次暗示了此模型。
此次發布凸顯了Nvidia通過架構創新和細緻的後訓練過程持續提升性能的承諾。該模型於2025年4月7日宣布,其程式碼、權重和後訓練數據現已在Hugging Face上免費提供。該模型設計為可根據系統提示在複雜推理任務和簡單輸出之間無縫切換,為開發者提供應用上的靈活性。
專為高效推理設計
基於Nvidia在優化LLM推理方面的先前努力,Llama-3.1-Nemotron-Ultra-253B採用了神經架構搜尋(NAS)過程來優化其架構。這包括創新的功能,如跳躍注意力層、融合前饋神經網絡(FFNs)和可變FFN壓縮比率。這些修改降低了模型的記憶體使用量和計算需求,使其可在單個8x H100 GPU節點上部署,而不影響輸出品質。
Nvidia聲稱此模型在資料中心部署中提供強大性能且成本效益高。它與Nvidia的B100和Hopper微架構相容,並已在BF16和FP8精度模式下進行測試。
後訓練以增強推理和對齊
該模型經歷了全面的後訓練過程,包括在數學、程式碼生成、聊天和工具使用等多個領域進行監督微調,隨後使用群組相對策略優化(GRPO)進行強化學習,以增強其指令遵循和推理能力。
進一步的精煉來自於對650億個標記的知識蒸餾階段,以及在額外880億個標記上的持續預訓練。訓練數據來源包括FineWeb、Buzz-V1.2和Dolma,後訓練提示和回應則來自公開語料庫和合成生成方法。這種方法幫助模型區分其推理模式。
在多個領域和基準測試中提升性能
啟用推理功能後,該模型在多個基準測試中顯示出顯著改進。例如,在MATH500基準測試中,其性能從標準模式的80.40%飆升至推理啟用後的97.00%。同樣,AIME25分數從16.67%躍升至72.50%,LiveCodeBench結果則從29.03%增加到66.31%,翻倍有餘。
該模型在基於工具的任務和一般問答(GPQA)中也表現出色,在推理模式下得分為76.01%,相較於未啟用推理的56.60%。這些基準測試使用最大序列長度為32,000個標記,每項測試重複最多16次以確保準確性。
與最先進的MoE模型DeepSeek R1(擁有6710億個參數)相比,Nvidia的模型雖然參數較少,但表現依然出色。它在GPQA(76.01對71.5)、IFEval指令遵循(89.45對83.3)和LiveCodeBench程式碼任務(66.31對65.9)等任務中超越DeepSeek R1。然而,DeepSeek R1在某些數學評估中略勝一籌,特別是在AIME25(79.8對72.50)和MATH500(97.3對97.00)。
這些結果表明,Nvidia的密集模型在推理和一般指令對齊方面可與MoE模型匹敵或超越,儘管在數學密集型任務中略微落後。
使用與整合
該模型與Hugging Face Transformers庫(建議使用4.48.3版本)無縫整合,並支援最長128,000個標記的序列。開發者可通過系統提示切換推理行為,並根據任務需求選擇解碼策略。對於推理任務,Nvidia建議使用溫度採樣(0.6)並搭配0.95的top-p值,而對於確定性輸出則推薦使用貪婪解碼。
Llama-3.1-Nemotron-Ultra-253B支援多語言應用,包括英語、德語、法語、義大利語、葡萄牙語、印地語、西班牙語和泰語。它適用於各種LLM使用場景,如聊天機器人開發、AI代理工作流程、檢索增強生成(RAG)和程式碼生成。
授權用於商業用途
該模型根據Nvidia開放模型許可證和Llama 3.1社群許可協議發布,適用於商業應用。Nvidia強調負責任AI發展的重要性,敦促團隊評估模型在其特定使用場景中的對齊性、安全性和偏見。
Nvidia的AI模型後訓練總監Oleksii Kuchaiev在X上分享了此次開放發布的興奮心情,強調其2530億密集設計與可切換的推理能力,以及開放權重和數據的包含。
相關文章
Salesforce 揭曉 Slack 中 AI 數位隊友以對抗 Microsoft Copilot
Salesforce 推出全新工作場所 AI 策略,於週一宣布在 Slack 對話中引入專屬的「數位隊友」。全新工具 Agentforce in Slack 讓企業能夠創建並部署針對特定任務的 AI 代理,這些代理可搜尋工作場所聊天記錄、存取公司資料,並在員工日常工作的訊息平台內執行操作。「正如專業員工協作解決問題,我們的客戶需要 AI 代理共同合作,為客戶和員工解決問題,」Salesforce
甲骨文40億美元Nvidia晶片投資推動德州AI數據中心
據《金融時報》報導,甲骨文計劃投資約40億美元於Nvidia晶片,為OpenAI在德州開發的大型新數據中心提供動力。這筆交易是迄今為止最大的晶片收購之一,凸顯了對AI運算資源的激增需求。該設施位於德州阿比林,是美國首個「星門」數據中心。由OpenAI和軟銀支持,屬於建設大規模AI基礎設施的更廣泛計劃的一部分。該德州中心預計明年完工,將提供1.2吉瓦的運算能力,位列全球最大之列。甲骨文計劃採購約40
Meta AI應用程式將推出高級訂閱與廣告
Meta的AI應用程式即將推出付費訂閱服務,類似於OpenAI、Google和Microsoft等競爭對手的產品。在2025年第一季財報電話會議中,Meta首席執行官馬克·祖克柏格概述了高級服務的計劃,讓用戶能夠使用更強大的運算能力或Meta AI的額外功能。為了與ChatGPT競爭,Meta本週推出了一款獨立的AI應用程式,允許用戶直接與聊天機器人互動並進行圖像生成。該聊天機器人目前擁有近10億
評論 (52)
0/200
DouglasMartínez
2025-08-18 23:01:00
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
0
StephenRoberts
2025-08-01 10:48:18
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
0
AnthonyRoberts
2025-04-24 16:35:07
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
0
JohnRoberts
2025-04-23 08:03:45
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀
0
BillyAdams
2025-04-23 07:54:38
O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀
0
ChristopherTaylor
2025-04-23 05:27:44
¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀
0
當Meta正因其最新的Llama 4模型家族受到審查時,Nvidia已悄然推出基於Meta早期Llama-3.1-405B-Instruct模型的新款完全開源大型語言模型(LLM)。此模型名為Llama-3.1-Nemotron-Ultra-253B-v1,擁有2530億個參數,專為高級推理、指令遵循和AI助手工作流程而設計。Nvidia在三月舉行的年度GPU技術會議(GTC)上首次暗示了此模型。
此次發布凸顯了Nvidia通過架構創新和細緻的後訓練過程持續提升性能的承諾。該模型於2025年4月7日宣布,其程式碼、權重和後訓練數據現已在Hugging Face上免費提供。該模型設計為可根據系統提示在複雜推理任務和簡單輸出之間無縫切換,為開發者提供應用上的靈活性。
專為高效推理設計
基於Nvidia在優化LLM推理方面的先前努力,Llama-3.1-Nemotron-Ultra-253B採用了神經架構搜尋(NAS)過程來優化其架構。這包括創新的功能,如跳躍注意力層、融合前饋神經網絡(FFNs)和可變FFN壓縮比率。這些修改降低了模型的記憶體使用量和計算需求,使其可在單個8x H100 GPU節點上部署,而不影響輸出品質。
Nvidia聲稱此模型在資料中心部署中提供強大性能且成本效益高。它與Nvidia的B100和Hopper微架構相容,並已在BF16和FP8精度模式下進行測試。
後訓練以增強推理和對齊
該模型經歷了全面的後訓練過程,包括在數學、程式碼生成、聊天和工具使用等多個領域進行監督微調,隨後使用群組相對策略優化(GRPO)進行強化學習,以增強其指令遵循和推理能力。
進一步的精煉來自於對650億個標記的知識蒸餾階段,以及在額外880億個標記上的持續預訓練。訓練數據來源包括FineWeb、Buzz-V1.2和Dolma,後訓練提示和回應則來自公開語料庫和合成生成方法。這種方法幫助模型區分其推理模式。
在多個領域和基準測試中提升性能
啟用推理功能後,該模型在多個基準測試中顯示出顯著改進。例如,在MATH500基準測試中,其性能從標準模式的80.40%飆升至推理啟用後的97.00%。同樣,AIME25分數從16.67%躍升至72.50%,LiveCodeBench結果則從29.03%增加到66.31%,翻倍有餘。
該模型在基於工具的任務和一般問答(GPQA)中也表現出色,在推理模式下得分為76.01%,相較於未啟用推理的56.60%。這些基準測試使用最大序列長度為32,000個標記,每項測試重複最多16次以確保準確性。
與最先進的MoE模型DeepSeek R1(擁有6710億個參數)相比,Nvidia的模型雖然參數較少,但表現依然出色。它在GPQA(76.01對71.5)、IFEval指令遵循(89.45對83.3)和LiveCodeBench程式碼任務(66.31對65.9)等任務中超越DeepSeek R1。然而,DeepSeek R1在某些數學評估中略勝一籌,特別是在AIME25(79.8對72.50)和MATH500(97.3對97.00)。
這些結果表明,Nvidia的密集模型在推理和一般指令對齊方面可與MoE模型匹敵或超越,儘管在數學密集型任務中略微落後。
使用與整合
該模型與Hugging Face Transformers庫(建議使用4.48.3版本)無縫整合,並支援最長128,000個標記的序列。開發者可通過系統提示切換推理行為,並根據任務需求選擇解碼策略。對於推理任務,Nvidia建議使用溫度採樣(0.6)並搭配0.95的top-p值,而對於確定性輸出則推薦使用貪婪解碼。
Llama-3.1-Nemotron-Ultra-253B支援多語言應用,包括英語、德語、法語、義大利語、葡萄牙語、印地語、西班牙語和泰語。它適用於各種LLM使用場景,如聊天機器人開發、AI代理工作流程、檢索增強生成(RAG)和程式碼生成。
授權用於商業用途
該模型根據Nvidia開放模型許可證和Llama 3.1社群許可協議發布,適用於商業應用。Nvidia強調負責任AI發展的重要性,敦促團隊評估模型在其特定使用場景中的對齊性、安全性和偏見。
Nvidia的AI模型後訓練總監Oleksii Kuchaiev在X上分享了此次開放發布的興奮心情,強調其2530億密集設計與可切換的推理能力,以及開放權重和數據的包含。



Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀




Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎




Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀




¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀




O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀




¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀












