NVIDIA的新Llama-3.1 Nemotron Ultra Ultra的表現為DeepSeek R1,尺寸為一半

當Meta正因其最新的Llama 4模型家族受到審查時,Nvidia已悄然推出基於Meta早期Llama-3.1-405B-Instruct模型的新款完全開源大型語言模型(LLM)。此模型名為Llama-3.1-Nemotron-Ultra-253B-v1,擁有2530億個參數,專為高級推理、指令遵循和AI助手工作流程而設計。Nvidia在三月舉行的年度GPU技術會議(GTC)上首次暗示了此模型。
此次發布凸顯了Nvidia通過架構創新和細緻的後訓練過程持續提升性能的承諾。該模型於2025年4月7日宣布,其程式碼、權重和後訓練數據現已在Hugging Face上免費提供。該模型設計為可根據系統提示在複雜推理任務和簡單輸出之間無縫切換,為開發者提供應用上的靈活性。
專為高效推理設計
基於Nvidia在優化LLM推理方面的先前努力,Llama-3.1-Nemotron-Ultra-253B採用了神經架構搜尋(NAS)過程來優化其架構。這包括創新的功能,如跳躍注意力層、融合前饋神經網絡(FFNs)和可變FFN壓縮比率。這些修改降低了模型的記憶體使用量和計算需求,使其可在單個8x H100 GPU節點上部署,而不影響輸出品質。
Nvidia聲稱此模型在資料中心部署中提供強大性能且成本效益高。它與Nvidia的B100和Hopper微架構相容,並已在BF16和FP8精度模式下進行測試。
後訓練以增強推理和對齊
該模型經歷了全面的後訓練過程,包括在數學、程式碼生成、聊天和工具使用等多個領域進行監督微調,隨後使用群組相對策略優化(GRPO)進行強化學習,以增強其指令遵循和推理能力。
進一步的精煉來自於對650億個標記的知識蒸餾階段,以及在額外880億個標記上的持續預訓練。訓練數據來源包括FineWeb、Buzz-V1.2和Dolma,後訓練提示和回應則來自公開語料庫和合成生成方法。這種方法幫助模型區分其推理模式。
在多個領域和基準測試中提升性能
啟用推理功能後,該模型在多個基準測試中顯示出顯著改進。例如,在MATH500基準測試中,其性能從標準模式的80.40%飆升至推理啟用後的97.00%。同樣,AIME25分數從16.67%躍升至72.50%,LiveCodeBench結果則從29.03%增加到66.31%,翻倍有餘。
該模型在基於工具的任務和一般問答(GPQA)中也表現出色,在推理模式下得分為76.01%,相較於未啟用推理的56.60%。這些基準測試使用最大序列長度為32,000個標記,每項測試重複最多16次以確保準確性。
與最先進的MoE模型DeepSeek R1(擁有6710億個參數)相比,Nvidia的模型雖然參數較少,但表現依然出色。它在GPQA(76.01對71.5)、IFEval指令遵循(89.45對83.3)和LiveCodeBench程式碼任務(66.31對65.9)等任務中超越DeepSeek R1。然而,DeepSeek R1在某些數學評估中略勝一籌,特別是在AIME25(79.8對72.50)和MATH500(97.3對97.00)。
這些結果表明,Nvidia的密集模型在推理和一般指令對齊方面可與MoE模型匹敵或超越,儘管在數學密集型任務中略微落後。
使用與整合
該模型與Hugging Face Transformers庫(建議使用4.48.3版本)無縫整合,並支援最長128,000個標記的序列。開發者可通過系統提示切換推理行為,並根據任務需求選擇解碼策略。對於推理任務,Nvidia建議使用溫度採樣(0.6)並搭配0.95的top-p值,而對於確定性輸出則推薦使用貪婪解碼。
Llama-3.1-Nemotron-Ultra-253B支援多語言應用,包括英語、德語、法語、義大利語、葡萄牙語、印地語、西班牙語和泰語。它適用於各種LLM使用場景,如聊天機器人開發、AI代理工作流程、檢索增強生成(RAG)和程式碼生成。
授權用於商業用途
該模型根據Nvidia開放模型許可證和Llama 3.1社群許可協議發布,適用於商業應用。Nvidia強調負責任AI發展的重要性,敦促團隊評估模型在其特定使用場景中的對齊性、安全性和偏見。
Nvidia的AI模型後訓練總監Oleksii Kuchaiev在X上分享了此次開放發布的興奮心情,強調其2530億密集設計與可切換的推理能力,以及開放權重和數據的包含。
相關文章
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器
亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
相關專題推薦
評論 (54)
0/500
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀

當Meta正因其最新的Llama 4模型家族受到審查時,Nvidia已悄然推出基於Meta早期Llama-3.1-405B-Instruct模型的新款完全開源大型語言模型(LLM)。此模型名為Llama-3.1-Nemotron-Ultra-253B-v1,擁有2530億個參數,專為高級推理、指令遵循和AI助手工作流程而設計。Nvidia在三月舉行的年度GPU技術會議(GTC)上首次暗示了此模型。
此次發布凸顯了Nvidia通過架構創新和細緻的後訓練過程持續提升性能的承諾。該模型於2025年4月7日宣布,其程式碼、權重和後訓練數據現已在Hugging Face上免費提供。該模型設計為可根據系統提示在複雜推理任務和簡單輸出之間無縫切換,為開發者提供應用上的靈活性。
專為高效推理設計
基於Nvidia在優化LLM推理方面的先前努力,Llama-3.1-Nemotron-Ultra-253B採用了神經架構搜尋(NAS)過程來優化其架構。這包括創新的功能,如跳躍注意力層、融合前饋神經網絡(FFNs)和可變FFN壓縮比率。這些修改降低了模型的記憶體使用量和計算需求,使其可在單個8x H100 GPU節點上部署,而不影響輸出品質。
Nvidia聲稱此模型在資料中心部署中提供強大性能且成本效益高。它與Nvidia的B100和Hopper微架構相容,並已在BF16和FP8精度模式下進行測試。
後訓練以增強推理和對齊
該模型經歷了全面的後訓練過程,包括在數學、程式碼生成、聊天和工具使用等多個領域進行監督微調,隨後使用群組相對策略優化(GRPO)進行強化學習,以增強其指令遵循和推理能力。
進一步的精煉來自於對650億個標記的知識蒸餾階段,以及在額外880億個標記上的持續預訓練。訓練數據來源包括FineWeb、Buzz-V1.2和Dolma,後訓練提示和回應則來自公開語料庫和合成生成方法。這種方法幫助模型區分其推理模式。
在多個領域和基準測試中提升性能
啟用推理功能後,該模型在多個基準測試中顯示出顯著改進。例如,在MATH500基準測試中,其性能從標準模式的80.40%飆升至推理啟用後的97.00%。同樣,AIME25分數從16.67%躍升至72.50%,LiveCodeBench結果則從29.03%增加到66.31%,翻倍有餘。
該模型在基於工具的任務和一般問答(GPQA)中也表現出色,在推理模式下得分為76.01%,相較於未啟用推理的56.60%。這些基準測試使用最大序列長度為32,000個標記,每項測試重複最多16次以確保準確性。
與最先進的MoE模型DeepSeek R1(擁有6710億個參數)相比,Nvidia的模型雖然參數較少,但表現依然出色。它在GPQA(76.01對71.5)、IFEval指令遵循(89.45對83.3)和LiveCodeBench程式碼任務(66.31對65.9)等任務中超越DeepSeek R1。然而,DeepSeek R1在某些數學評估中略勝一籌,特別是在AIME25(79.8對72.50)和MATH500(97.3對97.00)。
這些結果表明,Nvidia的密集模型在推理和一般指令對齊方面可與MoE模型匹敵或超越,儘管在數學密集型任務中略微落後。
使用與整合
該模型與Hugging Face Transformers庫(建議使用4.48.3版本)無縫整合,並支援最長128,000個標記的序列。開發者可通過系統提示切換推理行為,並根據任務需求選擇解碼策略。對於推理任務,Nvidia建議使用溫度採樣(0.6)並搭配0.95的top-p值,而對於確定性輸出則推薦使用貪婪解碼。
Llama-3.1-Nemotron-Ultra-253B支援多語言應用,包括英語、德語、法語、義大利語、葡萄牙語、印地語、西班牙語和泰語。它適用於各種LLM使用場景,如聊天機器人開發、AI代理工作流程、檢索增強生成(RAG)和程式碼生成。
授權用於商業用途
該模型根據Nvidia開放模型許可證和Llama 3.1社群許可協議發布,適用於商業應用。Nvidia強調負責任AI發展的重要性,敦促團隊評估模型在其特定使用場景中的對齊性、安全性和偏見。
Nvidia的AI模型後訓練總監Oleksii Kuchaiev在X上分享了此次開放發布的興奮心情,強調其2530億密集設計與可切換的推理能力,以及開放權重和數據的包含。
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器
亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀





首頁






