選項
首頁 消息 NVIDIA的新Llama-3.1 Nemotron Ultra Ultra的表現為DeepSeek R1,尺寸為一半

NVIDIA的新Llama-3.1 Nemotron Ultra Ultra的表現為DeepSeek R1,尺寸為一半

發布日期 發布日期 2025年04月13日
作者 作者 LarryMartinez
視圖 視圖 34

NVIDIA的新Llama-3.1 Nemotron Ultra Ultra的表現為DeepSeek R1,尺寸為一半

儘管Meta對其最新的Llama 4模型系列進行了審查,但Nvidia悄悄地推出了一種基於Meta的早期Llama-3.1-405B教學模型的新的,完全開源的大語言模型(LLM)。該型號命名為llama-3.1-Nemotron-ultra-253b-v1,具有2530億個參數,並經過精心設計,可在高級推理,指導下和AI助理工作流程中脫穎而出。 NVIDIA在3月的年度GPU技術會議(GTC)中首次暗示了該模型。

該版本強調了NVIDIA通過建築創新和細緻的培訓後過程提高績效的持續承諾。該模型的代碼,權重和訓練後數據現在可以在擁抱面前自由訪問,於2025年4月7日宣布。它旨在根據系統提示在復雜的推理任務和更簡單的輸出之間無縫切換,從而為開發人員的應用程序提供了靈活性。

為有效的推斷而設計

Llama-3.1-Nemotron-ultra-253b以Nvidia先前為推理優化LLM的努力為基礎,結合了神經體系結構搜索(NAS)過程,以完善其體系結構。這包括創新功能,例如跳過注意力層,融合饋電網絡(FFN)和可變的FFN壓縮比。這些修改降低了模型的內存使用和計算要求,使其可以在單個8x H100 GPU節點上部署,而不會損害輸出質量。

NVIDIA聲稱該模型可提供強大的性能,同時對數據中心部署具有成本效益。它與NVIDIA的B100和Hopper微體系結構兼容,並且已在BF16和FP8精度模式中進行了測試。

推理和對齊的訓練後培訓

該模型接受了全面的訓練後方案。這包括跨各個領域的監督微調,例如數學,代碼生成,聊天和工具使用,然後使用小組相對策略優化(GRPO)進行加強學習,以增強其跟踪和推理能力。

進一步的完善是通過超過650億個代幣的知識蒸餾階段,並在另外880億個令牌上進行了預修。培訓數據來源包括FineWeb,Buzz-V1.2和Dolma,並帶有培訓後提示和來自公共語料庫和合成生成方法的響應。這種方法有助於該模型區分其推理模式。

改善了眾多領域和基準的性能

當啟用推理時,該模型在各種基準測試中顯示出顯著改進。例如,在Math500基準測試中,其性能從標準模式下的80.40%飆升至啟用推理的97.00%。同樣,AIME25分數從16.67%躍升至72.50%,LiveCodeBench的結果增加了一倍以上,從29.03%到66.31%。

該模型還擅長基於工具的任務和一般問答(GPQA),在推理模式下得分為76.01%,而沒有56.60%。這些基準測試的最大序列長度為32,000個令牌,並重複每次測試以達到16次以提高準確性。

與具有6710億個參數的最先進的MOE DeepSeek R1相比,儘管參數較少,但NVIDIA的模型仍擁有自己的模型。它的表現優於諸如GPQA(76.01 vs. 71.5),IFEVAL指令(89.45 vs. 83.3)和LiveCodeBench編碼任務(66.31 vs. 65.9)等任務中的DeepSeek R1。但是,DeepSeek R1在某些數學評估中略有偏差,特別是AIME25(79.8 vs. 72.50)和MATH500(97.3 vs. 97.00)。

這些結果表明,NVIDIA的密集模型可以匹配或超過推理和一般指導對準的MOE模型,儘管它略微落在了數學密集型類別中。

用法和集成

該模型無縫集成與擁抱的面孔庫(建議版本4.48.3),並支持高達128,000個令牌的序列。開發人員可以使用系統提示來切換推理行為,並根據任務需求選擇解碼策略。對於推理任務,NVIDIA建議使用溫度採樣(0.6),頂部P值為0.95,而建議確定性輸出進行貪婪的解碼。

Llama-3.1-紐馬 - 烏爾特拉-253B支持多語言應用,包括英語,德語,法語,意大利語,葡萄牙語,印地語,西班牙語和泰語。它非常適合各種LLM用例,例如聊天機器人開發,AI代理工作流程,檢索演出生成(RAG)和代碼生成。

獲得商業用途的許可

該型號已準備根據Llama 3.1社區許可協議,該模型已準備好用於商業申請。 NVIDIA強調了負責AI開發的重要性,敦促團隊評估模型的特定用例的一致性,安全性和偏見。

NVIDIA的AI模型訓練後總監Oleksii Kuchaiev分享了有關X上此開放版本的興奮,並以可切換的推理能力強調了其密集的253B設計,並包括開放的重量和數據。

相關文章
前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen 前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen 人工智能代理年度:仔細研究2025年的期望和現實2025年被許多專家預示為當年的AI代理商(由高級大型語言和多式聯運公司提供支持的AI代理商),來自OpenAI,Anthropic,Google和Google和Deepseek等公司,最終將帶上中心中心中心中心。
蓋亞(Gaia 蓋亞(Gaia 智力無處不在,但是準確地測量它就像試圖用裸手抓住雲。我們使用考試和基準(例如大學入學考試)來獲得一個大概的想法。每年,學生都會為這些測試做好準備,有時甚至得分完美的100%。但是那是完美的分數
Coreweave創始人兌現了4.88億美元,潛在的40億美元IPO Coreweave創始人兌現了4.88億美元,潛在的40億美元IPO CoreWeave的IPO備案顯示出令人驚訝的細節,而High Stakes Coreweave的S-1文檔預計了其預期的首次公開募股(IPO),充滿了有趣的啟示。在NVIDIA的支持下,該公司在32個數據中心運營專門的AI雲服務,擁有超過250,000
評論 (50)
0/200
KeithNelson
KeithNelson 2025年04月13日 19:54:42

Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!

RalphMitchell
RalphMitchell 2025年04月13日 19:54:42

Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!

GeorgeWilson
GeorgeWilson 2025年04月13日 19:54:42

Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!

GeorgeNelson
GeorgeNelson 2025年04月13日 19:54:42

O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!

GeorgeMiller
GeorgeMiller 2025年04月13日 19:54:42

El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!

BrianLewis
BrianLewis 2025年04月13日 17:40:08

Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!

回到頂部
OR