NVIDIA的新Llama-3.1 Nemotron Ultra Ultra的表現為DeepSeek R1，尺寸為一半

首頁

新聞

2025-04-13

LarryMartinez

104

# Nvidia # meta # nemotron # nlp

NVIDIA的新Llama-3.1 Nemotron Ultra Ultra的表現為DeepSeek R1，尺寸為一半

當Meta正因其最新的Llama 4模型家族受到審查時，Nvidia已悄然推出基於Meta早期Llama-3.1-405B-Instruct模型的新款完全開源大型語言模型（LLM）。此模型名為Llama-3.1-Nemotron-Ultra-253B-v1，擁有2530億個參數，專為高級推理、指令遵循和AI助手工作流程而設計。Nvidia在三月舉行的年度GPU技術會議（GTC）上首次暗示了此模型。

此次發布凸顯了Nvidia通過架構創新和細緻的後訓練過程持續提升性能的承諾。該模型於2025年4月7日宣布，其程式碼、權重和後訓練數據現已在Hugging Face上免費提供。該模型設計為可根據系統提示在複雜推理任務和簡單輸出之間無縫切換，為開發者提供應用上的靈活性。

專為高效推理設計

基於Nvidia在優化LLM推理方面的先前努力，Llama-3.1-Nemotron-Ultra-253B採用了神經架構搜尋（NAS）過程來優化其架構。這包括創新的功能，如跳躍注意力層、融合前饋神經網絡（FFNs）和可變FFN壓縮比率。這些修改降低了模型的記憶體使用量和計算需求，使其可在單個8x H100 GPU節點上部署，而不影響輸出品質。

Nvidia聲稱此模型在資料中心部署中提供強大性能且成本效益高。它與Nvidia的B100和Hopper微架構相容，並已在BF16和FP8精度模式下進行測試。

後訓練以增強推理和對齊

該模型經歷了全面的後訓練過程，包括在數學、程式碼生成、聊天和工具使用等多個領域進行監督微調，隨後使用群組相對策略優化（GRPO）進行強化學習，以增強其指令遵循和推理能力。

進一步的精煉來自於對650億個標記的知識蒸餾階段，以及在額外880億個標記上的持續預訓練。訓練數據來源包括FineWeb、Buzz-V1.2和Dolma，後訓練提示和回應則來自公開語料庫和合成生成方法。這種方法幫助模型區分其推理模式。

在多個領域和基準測試中提升性能

啟用推理功能後，該模型在多個基準測試中顯示出顯著改進。例如，在MATH500基準測試中，其性能從標準模式的80.40%飆升至推理啟用後的97.00%。同樣，AIME25分數從16.67%躍升至72.50%，LiveCodeBench結果則從29.03%增加到66.31%，翻倍有餘。

該模型在基於工具的任務和一般問答（GPQA）中也表現出色，在推理模式下得分為76.01%，相較於未啟用推理的56.60%。這些基準測試使用最大序列長度為32,000個標記，每項測試重複最多16次以確保準確性。

與最先進的MoE模型DeepSeek R1（擁有6710億個參數）相比，Nvidia的模型雖然參數較少，但表現依然出色。它在GPQA（76.01對71.5）、IFEval指令遵循（89.45對83.3）和LiveCodeBench程式碼任務（66.31對65.9）等任務中超越DeepSeek R1。然而，DeepSeek R1在某些數學評估中略勝一籌，特別是在AIME25（79.8對72.50）和MATH500（97.3對97.00）。

這些結果表明，Nvidia的密集模型在推理和一般指令對齊方面可與MoE模型匹敵或超越，儘管在數學密集型任務中略微落後。

使用與整合

該模型與Hugging Face Transformers庫（建議使用4.48.3版本）無縫整合，並支援最長128,000個標記的序列。開發者可通過系統提示切換推理行為，並根據任務需求選擇解碼策略。對於推理任務，Nvidia建議使用溫度採樣（0.6）並搭配0.95的top-p值，而對於確定性輸出則推薦使用貪婪解碼。

Llama-3.1-Nemotron-Ultra-253B支援多語言應用，包括英語、德語、法語、義大利語、葡萄牙語、印地語、西班牙語和泰語。它適用於各種LLM使用場景，如聊天機器人開發、AI代理工作流程、檢索增強生成（RAG）和程式碼生成。

授權用於商業用途

該模型根據Nvidia開放模型許可證和Llama 3.1社群許可協議發布，適用於商業應用。Nvidia強調負責任AI發展的重要性，敦促團隊評估模型在其特定使用場景中的對齊性、安全性和偏見。

Nvidia的AI模型後訓練總監Oleksii Kuchaiev在X上分享了此次開放發布的興奮心情，強調其2530億密集設計與可切換的推理能力，以及開放權重和數據的包含。

TensorZero 獲得 730 萬美元種子基金以簡化企業 LLM 開發 TensorZero 是一家新興的人工智能應用程式開放原始碼基礎設施供應商，已獲得 730 萬美元的種子資金，由 FirstMark Capital 領投，Bessemer Venture Partners、Bedrock、DRW、Coalition 及眾多業界天使投資人參與。TensorZero 的 GitHub 資源庫在近幾個月內獲得全球「第一熱門」的地位，同時星級數從 3,000 個增加

文件顯示，Meta 與 Llama AI 模型的主機分享收入雖然 Meta 執行長 Mark Zuckerberg 在 2023 年 7 月強調「銷售存取權」並非他們 Llama AI 模型的商業模式，但最新揭露的法庭文件顯示，Meta 與託管這些開放原始碼模型的雲端供應商進行收入分享合作。透過託管夥伴關係獲利未經刪除的 Kadrey v. Meta 訴訟文件顯示，Meta 從提供 Llama 模型給使用者的公司獲得營收分成，但具體合作夥伴並未具名。

Replit 執行長預測軟體未來：「代理商一路下滑協同式 AI 開發平台能否讓企業擺脫昂貴的 SaaS 訂閱？Replit 有遠見的首席執行官 Amjad Masad 認為這種轉變已經在進行中，他描述了一個「代理以遞歸方式處理一切」的生態系統。在 VB Transform 的主題演講中，Masad 示範了 Replit 的 AI 代理如何讓非技術使用者在短短 15 分鐘內，開發出功能完整的投票應用程式 - 從簡單的文字提示，自動產生資料庫、驗證系

評論 (52)

0/200

提交

DouglasMartínez

2025-08-18 23:01:00

Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀

StephenRoberts

2025-08-01 10:48:18

Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎

AnthonyRoberts

2025-04-24 16:35:07

Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀

JohnRoberts

2025-04-23 08:03:45

¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀

BillyAdams

2025-04-23 07:54:38

O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀

ChristopherTaylor

2025-04-23 05:27:44

¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀

頭號新聞

2025頂級AI影片生成器：Pika Labs與其他對比 Gemini 2.5 Pro現在比Claude，GPT-4O更便宜，更便宜 AI配音：真實聲音創作終極指南 Cambium的AI將垃圾木頭變成木材 AI Builder和Power Automate革新文件摘要 Openai增強了AI語音助手以進行更好的聊天如何確保您的數據值得信賴AI集成 NotebookLM在全球範圍內擴展，添加幻燈片並增強了事實檢查對美國數據中心的調整可以解鎖76 GW的新電源容量 Google利用AI暫停了超過3900萬的廣告帳戶，以涉嫌欺詐

精選