NVIDIA的新Llama-3.1 Nemotron Ultra Ultra的表现为DeepSeek R1,尺寸为一半

在Meta为其最新Llama 4模型家族面临严格审查之际,Nvidia悄然推出了一款基于Meta早期Llama-3.1-405B-Instruct模型的全新开源大型语言模型(LLM)。这款名为Llama-3.1-Nemotron-Ultra-253B-v1的模型拥有2530亿个参数,专为高级推理、指令遵循和AI助手工作流程而设计。Nvidia最早在3月的年度GPU技术大会(GTC)上暗示了这一模型。
此次发布凸显了Nvidia通过架构创新和精细的后训练流程持续提升性能的承诺。该模型于2025年4月7日宣布,其代码、权重和后训练数据现已在Hugging Face上免费提供。它设计为可根据系统提示在复杂推理任务和简单输出之间无缝切换,为开发者提供灵活的应用选择。
专为高效推理设计
基于Nvidia之前在优化LLM推理方面的努力,Llama-3.1-Nemotron-Ultra-253B采用了神经架构搜索(NAS)流程来优化其架构。这包括跳跃注意力层、融合前馈网络(FFNs)和可变FFN压缩比等创新功能。这些修改降低了模型的内存使用量和计算需求,使其可在单个8x H100 GPU节点上部署,而不影响输出质量。
Nvidia声称该模型在数据中心部署中性能强劲且成本效益高。它兼容Nvidia的B100和Hopper微架构,并在BF16和FP8精度模式下进行了测试。
后训练以增强推理和对齐
该模型经历了全面的后训练过程,包括在数学、代码生成、聊天和工具使用等多个领域进行监督微调,随后通过群体相对策略优化(GRPO)强化学习,以提升其指令遵循和推理能力。
进一步的优化包括在650亿个令牌上进行知识蒸馏,以及在额外880亿个令牌上进行持续预训练。训练数据来源包括FineWeb、Buzz-V1.2和Dolma,后训练提示和响应则来自公共语料库和合成生成方法。这种方法帮助模型区分其推理模式。
在众多领域和基准测试中的性能提升
在启用推理模式后,该模型在多个基准测试中显示出显著改进。例如,在MATH500基准测试中,其性能从标准模式的80.40%飙升至推理模式下的97.00%。同样,AIME25得分从16.67%跃升至72.50%,LiveCodeBench结果从29.03%翻倍至66.31%。
该模型在基于工具的任务和通用问答(GPQA)中也表现出色,在推理模式下得分76.01%,相比之下非推理模式为56.60%。这些基准测试的最大序列长度为32,000个令牌,每项测试重复最多16次以确保准确性。
与拥有6710亿参数的最先进的MoE模型DeepSeek R1相比,Nvidia的模型尽管参数较少,但表现依然出色。它在GPQA(76.01 vs. 71.5)、IFEval指令遵循(89.45 vs. 83.3)和LiveCodeBench编码任务(66.31 vs. 65.9)等任务中优于DeepSeek R1。然而,DeepSeek R1在某些数学评估中略占优势,特别是在AIME25(79.8 vs. 72.50)和MATH500(97.3 vs. 97.00)。
这些结果表明,Nvidia的密集模型在推理和通用指令对齐方面可匹敌或超越MoE模型,尽管在数学密集型类别中略显不足。
使用与集成
该模型与Hugging Face Transformers库(推荐版本4.48.3)无缝集成,支持最长128,000个令牌的序列。开发者可通过系统提示切换推理行为,并根据任务需求选择解码策略。对于推理任务,Nvidia建议使用温度采样(0.6)结合top-p值为0.95,而对于确定性输出则推荐使用贪婪解码。
Llama-3.1-Nemotron-Ultra-253B支持多语言应用,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。它非常适合多种LLM用例,如聊天机器人开发、AI代理工作流程、检索增强生成(RAG)和代码生成。
商业用途许可
该模型在Nvidia开放模型许可证和Llama 3.1社区许可协议下发布,适用于商业应用。Nvidia强调负责任的AI开发的重要性,敦促团队评估模型在其特定用例中的对齐性、安全性和偏见。
Nvidia的AI模型后训练总监Oleksii Kuchaiev在X上分享了此次开放发布的激动心情,强调其密集的2530亿参数设计具有可切换的推理能力,并包括开放的权重和数据。
相关文章
Salesforce发布Slack AI数字队友对抗Microsoft Copilot
Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心
据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
Meta AI应用将引入高级订阅和广告
Meta的AI应用可能很快推出付费订阅服务,效仿OpenAI、Google和Microsoft等竞争对手的做法。在2025年第一季度财报电话会议上,Meta首席执行官马克·扎克伯格概述了高级服务的计划,使用户能够访问增强的计算能力或Meta AI的额外功能。为了与ChatGPT竞争,Meta本周推出了一款独立AI应用,允许用户直接与聊天机器人互动并进行图像生成。该聊天机器人目前拥有近10亿用户,此
评论 (52)
0/200
DouglasMartínez
2025-08-18 23:01:00
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
0
StephenRoberts
2025-08-01 10:48:18
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
0
AnthonyRoberts
2025-04-24 16:35:07
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
0
JohnRoberts
2025-04-23 08:03:45
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀
0
BillyAdams
2025-04-23 07:54:38
O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀
0
ChristopherTaylor
2025-04-23 05:27:44
¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀
0
在Meta为其最新Llama 4模型家族面临严格审查之际,Nvidia悄然推出了一款基于Meta早期Llama-3.1-405B-Instruct模型的全新开源大型语言模型(LLM)。这款名为Llama-3.1-Nemotron-Ultra-253B-v1的模型拥有2530亿个参数,专为高级推理、指令遵循和AI助手工作流程而设计。Nvidia最早在3月的年度GPU技术大会(GTC)上暗示了这一模型。
此次发布凸显了Nvidia通过架构创新和精细的后训练流程持续提升性能的承诺。该模型于2025年4月7日宣布,其代码、权重和后训练数据现已在Hugging Face上免费提供。它设计为可根据系统提示在复杂推理任务和简单输出之间无缝切换,为开发者提供灵活的应用选择。
专为高效推理设计
基于Nvidia之前在优化LLM推理方面的努力,Llama-3.1-Nemotron-Ultra-253B采用了神经架构搜索(NAS)流程来优化其架构。这包括跳跃注意力层、融合前馈网络(FFNs)和可变FFN压缩比等创新功能。这些修改降低了模型的内存使用量和计算需求,使其可在单个8x H100 GPU节点上部署,而不影响输出质量。
Nvidia声称该模型在数据中心部署中性能强劲且成本效益高。它兼容Nvidia的B100和Hopper微架构,并在BF16和FP8精度模式下进行了测试。
后训练以增强推理和对齐
该模型经历了全面的后训练过程,包括在数学、代码生成、聊天和工具使用等多个领域进行监督微调,随后通过群体相对策略优化(GRPO)强化学习,以提升其指令遵循和推理能力。
进一步的优化包括在650亿个令牌上进行知识蒸馏,以及在额外880亿个令牌上进行持续预训练。训练数据来源包括FineWeb、Buzz-V1.2和Dolma,后训练提示和响应则来自公共语料库和合成生成方法。这种方法帮助模型区分其推理模式。
在众多领域和基准测试中的性能提升
在启用推理模式后,该模型在多个基准测试中显示出显著改进。例如,在MATH500基准测试中,其性能从标准模式的80.40%飙升至推理模式下的97.00%。同样,AIME25得分从16.67%跃升至72.50%,LiveCodeBench结果从29.03%翻倍至66.31%。
该模型在基于工具的任务和通用问答(GPQA)中也表现出色,在推理模式下得分76.01%,相比之下非推理模式为56.60%。这些基准测试的最大序列长度为32,000个令牌,每项测试重复最多16次以确保准确性。
与拥有6710亿参数的最先进的MoE模型DeepSeek R1相比,Nvidia的模型尽管参数较少,但表现依然出色。它在GPQA(76.01 vs. 71.5)、IFEval指令遵循(89.45 vs. 83.3)和LiveCodeBench编码任务(66.31 vs. 65.9)等任务中优于DeepSeek R1。然而,DeepSeek R1在某些数学评估中略占优势,特别是在AIME25(79.8 vs. 72.50)和MATH500(97.3 vs. 97.00)。
这些结果表明,Nvidia的密集模型在推理和通用指令对齐方面可匹敌或超越MoE模型,尽管在数学密集型类别中略显不足。
使用与集成
该模型与Hugging Face Transformers库(推荐版本4.48.3)无缝集成,支持最长128,000个令牌的序列。开发者可通过系统提示切换推理行为,并根据任务需求选择解码策略。对于推理任务,Nvidia建议使用温度采样(0.6)结合top-p值为0.95,而对于确定性输出则推荐使用贪婪解码。
Llama-3.1-Nemotron-Ultra-253B支持多语言应用,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。它非常适合多种LLM用例,如聊天机器人开发、AI代理工作流程、检索增强生成(RAG)和代码生成。
商业用途许可
该模型在Nvidia开放模型许可证和Llama 3.1社区许可协议下发布,适用于商业应用。Nvidia强调负责任的AI开发的重要性,敦促团队评估模型在其特定用例中的对齐性、安全性和偏见。
Nvidia的AI模型后训练总监Oleksii Kuchaiev在X上分享了此次开放发布的激动心情,强调其密集的2530亿参数设计具有可切换的推理能力,并包括开放的权重和数据。



Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀




Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎




Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀




¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀




O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀




¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀












