NVIDIA的新Llama-3.1 Nemotron Ultra Ultra的表现为DeepSeek R1,尺寸为一半

尽管Meta对其最新的Llama 4模型系列进行了审查,但Nvidia悄悄地推出了一种基于Meta的早期Llama-3.1-405B教学模型的新的,完全开源的大语言模型(LLM)。该型号命名为llama-3.1-Nemotron-ultra-253b-v1,具有2530亿个参数,并经过精心设计,可在高级推理,指导下和AI助理工作流程中脱颖而出。 NVIDIA在3月的年度GPU技术会议(GTC)中首次暗示了该模型。
该版本强调了NVIDIA通过建筑创新和细致的培训后过程提高绩效的持续承诺。该模型的代码,权重和训练后数据现在可以在拥抱面前自由访问,于2025年4月7日宣布。它旨在根据系统提示在复杂的推理任务和更简单的输出之间无缝切换,从而为开发人员的应用程序提供了灵活性。
为有效的推断而设计
Llama-3.1-Nemotron-ultra-253b以Nvidia先前为推理优化LLM的努力为基础,结合了神经体系结构搜索(NAS)过程,以完善其体系结构。这包括创新功能,例如跳过注意力层,融合馈电网络(FFN)和可变的FFN压缩比。这些修改降低了模型的内存使用和计算要求,使其可以在单个8x H100 GPU节点上部署,而不会损害输出质量。
NVIDIA声称该模型可提供强大的性能,同时对数据中心部署具有成本效益。它与NVIDIA的B100和Hopper微体系结构兼容,并且已在BF16和FP8精度模式中进行了测试。
推理和对齐的训练后培训
该模型接受了全面的训练后方案。这包括跨各个领域的监督微调,例如数学,代码生成,聊天和工具使用,然后使用小组相对策略优化(GRPO)进行加强学习,以增强其跟踪和推理能力。
进一步的完善是通过超过650亿个代币的知识蒸馏阶段,并在另外880亿个令牌上进行了预修。培训数据来源包括FineWeb,Buzz-V1.2和Dolma,并带有培训后提示和来自公共语料库和合成生成方法的响应。这种方法有助于该模型区分其推理模式。
改善了众多领域和基准的性能
当启用推理时,该模型在各种基准测试中显示出显着改进。例如,在Math500基准测试中,其性能从标准模式下的80.40%飙升至启用推理的97.00%。同样,AIME25分数从16.67%跃升至72.50%,LiveCodeBench的结果增加了一倍以上,从29.03%到66.31%。
该模型还擅长基于工具的任务和一般问答(GPQA),在推理模式下得分为76.01%,而没有56.60%。这些基准测试的最大序列长度为32,000个令牌,并重复每次测试以达到16次以提高准确性。
与具有6710亿个参数的最先进的MOE DeepSeek R1相比,尽管参数较少,但NVIDIA的模型仍拥有自己的模型。它的表现优于诸如GPQA(76.01 vs. 71.5),IFEVAL指令(89.45 vs. 83.3)和LiveCodeBench编码任务(66.31 vs. 65.9)等任务中的DeepSeek R1。但是,DeepSeek R1在某些数学评估中略有偏差,特别是AIME25(79.8 vs. 72.50)和MATH500(97.3 vs. 97.00)。
这些结果表明,NVIDIA的密集模型可以匹配或超过推理和一般指导对准的MOE模型,尽管它略微落在了数学密集型类别中。
用法和集成
该模型无缝集成与拥抱的面孔库(建议版本4.48.3),并支持高达128,000个令牌的序列。开发人员可以使用系统提示来切换推理行为,并根据任务需求选择解码策略。对于推理任务,NVIDIA建议使用温度采样(0.6),顶部P值为0.95,而建议确定性输出进行贪婪的解码。
Llama-3.1-纽马 - 乌尔特拉-253B支持多语言应用,包括英语,德语,法语,意大利语,葡萄牙语,印地语,西班牙语和泰语。它非常适合各种LLM用例,例如聊天机器人开发,AI代理工作流程,检索演出生成(RAG)和代码生成。
获得商业用途的许可
该型号已准备根据Llama 3.1社区许可协议,该模型已准备好用于商业申请。 NVIDIA强调了负责AI开发的重要性,敦促团队评估模型的特定用例的一致性,安全性和偏见。
NVIDIA的AI模型训练后总监Oleksii Kuchaiev分享了有关X上此开放版本的兴奋,并以可切换的推理能力强调了其密集的253B设计,并包括开放的重量和数据。
相关文章
从 MIPS 到 exaflops,短短几十年:计算能力正在爆炸,将改变 AI
在最近的 Nvidia GTC 会议上,这家科技巨头公布了一项突破性成就:首个人单机架服务器系统能够达到一 exaflop。这是一个令人难以置信的每秒十亿亿次浮点运算(FLOPS)。这一壮举由 Nvidia 的最新 GB200 NVL72 系统驱动,配备了尖端的 Blackwell 图形处理单元(GPU)。为了便于理解,这个系统装在一个标准的计算机机架中,大约 6 英尺高,3 英尺多深,不到 2
谷歌AI跃升内幕:Gemini 2.5思维更深、表达更智能且编码更快
谷歌迈向通用人工智能助手愿景的步伐越来越近在今年的谷歌I/O大会上,谷歌透露了对其Gemini 2.5系列的重大升级,尤其侧重于提升其在各个维度上的能力。最新版本——Gemini 2.5 Flash和Gemini 2.5 Pro——现在比以往任何时候都更加聪明和高效。这些进步使谷歌离实现其创造一个能够无缝理解上下文、规划和执行任务的通用人工智能助手的目标更近
深度认知发布开源AI模型,已名列前茅
深度思睿推出革命性AI模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito),在其发展历程中迈出了开创性的一步,正式推出了其首条开源大型语言模型(LLMs)系列,命名为Cogito v1。这些模型经过Meta的Llama 3.2微调,具备混合推理能力,既能快速响应,也能进行内省思考——这一特性让人联想到OpenAI的“o”系列和DeepS
评论 (50)
0/200
KeithNelson
2025-04-14 08:00:00
Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!
0
RalphMitchell
2025-04-14 08:00:00
Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!
0
GeorgeWilson
2025-04-14 08:00:00
Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!
0
GeorgeNelson
2025-04-14 08:00:00
O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!
0
GeorgeMiller
2025-04-14 08:00:00
El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!
0
BrianLewis
2025-04-14 08:00:00
Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!
0
尽管Meta对其最新的Llama 4模型系列进行了审查,但Nvidia悄悄地推出了一种基于Meta的早期Llama-3.1-405B教学模型的新的,完全开源的大语言模型(LLM)。该型号命名为llama-3.1-Nemotron-ultra-253b-v1,具有2530亿个参数,并经过精心设计,可在高级推理,指导下和AI助理工作流程中脱颖而出。 NVIDIA在3月的年度GPU技术会议(GTC)中首次暗示了该模型。
该版本强调了NVIDIA通过建筑创新和细致的培训后过程提高绩效的持续承诺。该模型的代码,权重和训练后数据现在可以在拥抱面前自由访问,于2025年4月7日宣布。它旨在根据系统提示在复杂的推理任务和更简单的输出之间无缝切换,从而为开发人员的应用程序提供了灵活性。
为有效的推断而设计
Llama-3.1-Nemotron-ultra-253b以Nvidia先前为推理优化LLM的努力为基础,结合了神经体系结构搜索(NAS)过程,以完善其体系结构。这包括创新功能,例如跳过注意力层,融合馈电网络(FFN)和可变的FFN压缩比。这些修改降低了模型的内存使用和计算要求,使其可以在单个8x H100 GPU节点上部署,而不会损害输出质量。
NVIDIA声称该模型可提供强大的性能,同时对数据中心部署具有成本效益。它与NVIDIA的B100和Hopper微体系结构兼容,并且已在BF16和FP8精度模式中进行了测试。
推理和对齐的训练后培训
该模型接受了全面的训练后方案。这包括跨各个领域的监督微调,例如数学,代码生成,聊天和工具使用,然后使用小组相对策略优化(GRPO)进行加强学习,以增强其跟踪和推理能力。
进一步的完善是通过超过650亿个代币的知识蒸馏阶段,并在另外880亿个令牌上进行了预修。培训数据来源包括FineWeb,Buzz-V1.2和Dolma,并带有培训后提示和来自公共语料库和合成生成方法的响应。这种方法有助于该模型区分其推理模式。
改善了众多领域和基准的性能
当启用推理时,该模型在各种基准测试中显示出显着改进。例如,在Math500基准测试中,其性能从标准模式下的80.40%飙升至启用推理的97.00%。同样,AIME25分数从16.67%跃升至72.50%,LiveCodeBench的结果增加了一倍以上,从29.03%到66.31%。
该模型还擅长基于工具的任务和一般问答(GPQA),在推理模式下得分为76.01%,而没有56.60%。这些基准测试的最大序列长度为32,000个令牌,并重复每次测试以达到16次以提高准确性。
与具有6710亿个参数的最先进的MOE DeepSeek R1相比,尽管参数较少,但NVIDIA的模型仍拥有自己的模型。它的表现优于诸如GPQA(76.01 vs. 71.5),IFEVAL指令(89.45 vs. 83.3)和LiveCodeBench编码任务(66.31 vs. 65.9)等任务中的DeepSeek R1。但是,DeepSeek R1在某些数学评估中略有偏差,特别是AIME25(79.8 vs. 72.50)和MATH500(97.3 vs. 97.00)。
这些结果表明,NVIDIA的密集模型可以匹配或超过推理和一般指导对准的MOE模型,尽管它略微落在了数学密集型类别中。
用法和集成
该模型无缝集成与拥抱的面孔库(建议版本4.48.3),并支持高达128,000个令牌的序列。开发人员可以使用系统提示来切换推理行为,并根据任务需求选择解码策略。对于推理任务,NVIDIA建议使用温度采样(0.6),顶部P值为0.95,而建议确定性输出进行贪婪的解码。
Llama-3.1-纽马 - 乌尔特拉-253B支持多语言应用,包括英语,德语,法语,意大利语,葡萄牙语,印地语,西班牙语和泰语。它非常适合各种LLM用例,例如聊天机器人开发,AI代理工作流程,检索演出生成(RAG)和代码生成。
获得商业用途的许可
该型号已准备根据Llama 3.1社区许可协议,该模型已准备好用于商业申请。 NVIDIA强调了负责AI开发的重要性,敦促团队评估模型的特定用例的一致性,安全性和偏见。
NVIDIA的AI模型训练后总监Oleksii Kuchaiev分享了有关X上此开放版本的兴奋,并以可切换的推理能力强调了其密集的253B设计,并包括开放的重量和数据。




Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!




Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!




Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!




O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!




El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!




Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!












