NUEVO LLAMA-3.1 NEMOTRON ultra supera a Deepseek R1 a la mitad del tamaño

Mientras Meta lidia con el escrutinio que rodea a su última familia de modelos LLAMA 4, NVIDIA ha lanzado silenciosamente un nuevo modelo de lenguaje de gran código abierto (LLM) basado en el modelo LLAMA-3.1-405B-INSTRUCT de Meta anterior. Llamado Llama-3.1-Nemotron-Ultra-253B-V1, este modelo cuenta con 253 mil millones de parámetros y está diseñado para sobresalir en razonamiento avanzado, instrucción siguiente y flujos de trabajo de asistente de IA. Nvidia primero insinuó este modelo durante su Conferencia Anual de Tecnología de GPU (GTC) en marzo.
El lanzamiento subraya el compromiso continuo de NVIDIA de mejorar el rendimiento a través de la innovación arquitectónica y los meticulosos procesos posteriores a la capacitación. Anunciado el 7 de abril de 2025, el código del modelo, los pesos y los datos posteriores al entrenamiento ahora se pueden acceder libremente en la cara abrazada. Está diseñado para cambiar sin problemas entre tareas de razonamiento complejas y salidas más simples basadas en las indicaciones del sistema, ofreciendo a los desarrolladores flexibilidad en sus aplicaciones.
Diseñado para una inferencia eficiente
Sobre la base de los esfuerzos anteriores de NVIDIA en la optimización de LLM para la inferencia, el LLAMA-3.1-Nemotron-Ultra-253B incorpora un proceso de búsqueda de arquitectura neural (NAS) para refinar su arquitectura. Esto incluye características innovadoras como capas de atención omitidas, redes de alimentación fusionadas (FFN) y relaciones variables de compresión FFN. Estas modificaciones reducen el uso de la memoria y los requisitos computacionales del modelo, lo que lo hace implementable en un solo nodo GPU de 8x H100 sin comprometer la calidad de salida.
NVIDIA afirma que este modelo ofrece un rendimiento robusto al tiempo que es rentable para las implementaciones de centros de datos. Es compatible con las microarquitecturas B100 de NVIDIA y la tolva, y se ha probado en los modos de precisión BF16 y FP8.
Post-entrenamiento para razonamiento y alineación
El modelo se sometió a un régimen integral posterior a la capacitación. Esto incluyó ajustes finos supervisados en varios dominios, como matemáticas, generación de códigos, chat y uso de herramientas, seguido de aprendizaje de refuerzo con optimización de políticas relativas del grupo (GRPO) para mejorar sus capacidades de seguimiento de instrucciones y razonamiento.
El refinamiento adicional llegó a través de una fase de destilación de conocimiento durante más de 65 mil millones de tokens, y el prostrado continuo en 88 mil millones de tokens adicionales. Las fuentes de datos de capacitación incluyeron FineWeb, Buzz-V1.2 y Dolma, con indicaciones y respuestas posteriores al entrenamiento extraídas tanto de los métodos de generación de corporaciones públicas y sintéticas. Este enfoque ayudó al modelo a diferenciar entre sus modos de razonamiento.
Rendimiento mejorado en numerosos dominios y puntos de referencia
Cuando está habilitado para razonamiento, el modelo mostró mejoras significativas en varios puntos de referencia. Por ejemplo, en el punto de referencia Math500, su rendimiento aumentó de 80.40% en modo estándar a 97.00% con razonamiento habilitado. Del mismo modo, los puntajes AIME25 aumentaron de 16.67% a 72.50%, y los resultados de LivecodeBench se duplicaron, de 29.03% a 66.31%.
El modelo también se destacó en las tareas basadas en herramientas y la respuesta de preguntas generales (GPQA), obteniendo un 76.01% en modo de razonamiento en comparación con 56.60% sin. Estos puntos de referencia se realizaron con una longitud de secuencia máxima de 32,000 tokens, y cada prueba se repitió hasta 16 veces por precisión.
En comparación con el modelo de vanguardia MOE Deepseek R1, que tiene 671 mil millones de parámetros, el modelo de Nvidia se mantiene suyo a pesar de tener menos parámetros. Superenta a Deepseek R1 en tareas como GPQA (76.01 vs. 71.5), Ifeval Instrucción siguiente (89.45 vs. 83.3) y tareas de codificación LivecodeBench (66.31 vs. 65.9). Sin embargo, Deepseek R1 se extiende ligeramente en ciertas evaluaciones de matemáticas, particularmente AIME25 (79.8 vs. 72.50) y Math500 (97.3 vs. 97.00).
Estos resultados indican que el modelo denso de NVIDIA puede coincidir o exceder los modelos MOE en razonamiento y alineación de instrucciones generales, aunque se retrasa ligeramente en categorías intensivas en matemáticas.
Uso e integración
El modelo se integra a la perfección con la biblioteca de transformadores faciales de abrazos (versión 4.48.3 recomendada) y admite secuencias de hasta 128,000 tokens. Los desarrolladores pueden alternar el comportamiento de razonamiento utilizando las indicaciones del sistema y elegir estrategias de decodificación basadas en las necesidades de la tarea. Para las tareas de razonamiento, NVIDIA sugiere el uso de muestreo de temperatura (0.6) con un valor de POP superior de 0.95, mientras que se recomienda una decodificación codiciosa para salidas deterministas.
Llama-3.1-Nemotron-Ultra-253b admite aplicaciones multilingües, incluidas inglesas, alemanas, francesas, italianas, portuguesas, hindi, español y tailandesas. Es adecuado para varios casos de uso de LLM, como el desarrollo de chatbot, los flujos de trabajo del agente de inteligencia artificial, la generación de recuperación (RAG) y la generación de códigos.
Con licencia para uso comercial
Publicado bajo la Licencia de Modelo Abierto de NVIDIA y gobernado por el Acuerdo de Licencia Comunitaria Llama 3.1, el modelo está listo para aplicaciones comerciales. Nvidia enfatiza la importancia del desarrollo responsable de la IA, instando a los equipos a evaluar la alineación, la seguridad y el sesgo del modelo para sus casos de uso específicos.
Oleksii Kuchaiev, director de modelo AI de AI después del entrenamiento, compartió la emoción sobre este lanzamiento abierto en X, destacando su denso diseño 253B con capacidades de razonamiento alternables y la inclusión de pesos y datos abiertos.
Artículo relacionado
從 MIPS 到艾弗洛普僅僅數十年:計算能力正在爆炸,將改變 AI
在最近的 Nvidia GTC 大會上,這家科技巨頭揭露了一項突破性成就:首個單機架伺服器系統能達到一艾弗洛普。這是一個令人震驚的每秒十億億次浮點運算(FLOPS)。這項壯舉由 Nvidia 最新的 GB200 NVL72 系統驅動,搭載尖端的 Blackwell 圖形處理單元(GPU)。為了讓大家更直觀理解,這個系統安裝在一個標準電腦機架中,大約 6 英尺高,略超過 3 英尺深,寬度不到 2 英
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
comentario (50)
0/200
KeithNelson
14 de abril de 2025 00:00:00 GMT
Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!
0
RalphMitchell
14 de abril de 2025 00:00:00 GMT
Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!
0
GeorgeWilson
14 de abril de 2025 00:00:00 GMT
Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!
0
GeorgeNelson
14 de abril de 2025 00:00:00 GMT
O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!
0
GeorgeMiller
14 de abril de 2025 00:00:00 GMT
El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!
0
BrianLewis
14 de abril de 2025 00:00:00 GMT
Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!
0
Mientras Meta lidia con el escrutinio que rodea a su última familia de modelos LLAMA 4, NVIDIA ha lanzado silenciosamente un nuevo modelo de lenguaje de gran código abierto (LLM) basado en el modelo LLAMA-3.1-405B-INSTRUCT de Meta anterior. Llamado Llama-3.1-Nemotron-Ultra-253B-V1, este modelo cuenta con 253 mil millones de parámetros y está diseñado para sobresalir en razonamiento avanzado, instrucción siguiente y flujos de trabajo de asistente de IA. Nvidia primero insinuó este modelo durante su Conferencia Anual de Tecnología de GPU (GTC) en marzo.
El lanzamiento subraya el compromiso continuo de NVIDIA de mejorar el rendimiento a través de la innovación arquitectónica y los meticulosos procesos posteriores a la capacitación. Anunciado el 7 de abril de 2025, el código del modelo, los pesos y los datos posteriores al entrenamiento ahora se pueden acceder libremente en la cara abrazada. Está diseñado para cambiar sin problemas entre tareas de razonamiento complejas y salidas más simples basadas en las indicaciones del sistema, ofreciendo a los desarrolladores flexibilidad en sus aplicaciones.
Diseñado para una inferencia eficiente
Sobre la base de los esfuerzos anteriores de NVIDIA en la optimización de LLM para la inferencia, el LLAMA-3.1-Nemotron-Ultra-253B incorpora un proceso de búsqueda de arquitectura neural (NAS) para refinar su arquitectura. Esto incluye características innovadoras como capas de atención omitidas, redes de alimentación fusionadas (FFN) y relaciones variables de compresión FFN. Estas modificaciones reducen el uso de la memoria y los requisitos computacionales del modelo, lo que lo hace implementable en un solo nodo GPU de 8x H100 sin comprometer la calidad de salida.
NVIDIA afirma que este modelo ofrece un rendimiento robusto al tiempo que es rentable para las implementaciones de centros de datos. Es compatible con las microarquitecturas B100 de NVIDIA y la tolva, y se ha probado en los modos de precisión BF16 y FP8.
Post-entrenamiento para razonamiento y alineación
El modelo se sometió a un régimen integral posterior a la capacitación. Esto incluyó ajustes finos supervisados en varios dominios, como matemáticas, generación de códigos, chat y uso de herramientas, seguido de aprendizaje de refuerzo con optimización de políticas relativas del grupo (GRPO) para mejorar sus capacidades de seguimiento de instrucciones y razonamiento.
El refinamiento adicional llegó a través de una fase de destilación de conocimiento durante más de 65 mil millones de tokens, y el prostrado continuo en 88 mil millones de tokens adicionales. Las fuentes de datos de capacitación incluyeron FineWeb, Buzz-V1.2 y Dolma, con indicaciones y respuestas posteriores al entrenamiento extraídas tanto de los métodos de generación de corporaciones públicas y sintéticas. Este enfoque ayudó al modelo a diferenciar entre sus modos de razonamiento.
Rendimiento mejorado en numerosos dominios y puntos de referencia
Cuando está habilitado para razonamiento, el modelo mostró mejoras significativas en varios puntos de referencia. Por ejemplo, en el punto de referencia Math500, su rendimiento aumentó de 80.40% en modo estándar a 97.00% con razonamiento habilitado. Del mismo modo, los puntajes AIME25 aumentaron de 16.67% a 72.50%, y los resultados de LivecodeBench se duplicaron, de 29.03% a 66.31%.
El modelo también se destacó en las tareas basadas en herramientas y la respuesta de preguntas generales (GPQA), obteniendo un 76.01% en modo de razonamiento en comparación con 56.60% sin. Estos puntos de referencia se realizaron con una longitud de secuencia máxima de 32,000 tokens, y cada prueba se repitió hasta 16 veces por precisión.
En comparación con el modelo de vanguardia MOE Deepseek R1, que tiene 671 mil millones de parámetros, el modelo de Nvidia se mantiene suyo a pesar de tener menos parámetros. Superenta a Deepseek R1 en tareas como GPQA (76.01 vs. 71.5), Ifeval Instrucción siguiente (89.45 vs. 83.3) y tareas de codificación LivecodeBench (66.31 vs. 65.9). Sin embargo, Deepseek R1 se extiende ligeramente en ciertas evaluaciones de matemáticas, particularmente AIME25 (79.8 vs. 72.50) y Math500 (97.3 vs. 97.00).
Estos resultados indican que el modelo denso de NVIDIA puede coincidir o exceder los modelos MOE en razonamiento y alineación de instrucciones generales, aunque se retrasa ligeramente en categorías intensivas en matemáticas.
Uso e integración
El modelo se integra a la perfección con la biblioteca de transformadores faciales de abrazos (versión 4.48.3 recomendada) y admite secuencias de hasta 128,000 tokens. Los desarrolladores pueden alternar el comportamiento de razonamiento utilizando las indicaciones del sistema y elegir estrategias de decodificación basadas en las necesidades de la tarea. Para las tareas de razonamiento, NVIDIA sugiere el uso de muestreo de temperatura (0.6) con un valor de POP superior de 0.95, mientras que se recomienda una decodificación codiciosa para salidas deterministas.
Llama-3.1-Nemotron-Ultra-253b admite aplicaciones multilingües, incluidas inglesas, alemanas, francesas, italianas, portuguesas, hindi, español y tailandesas. Es adecuado para varios casos de uso de LLM, como el desarrollo de chatbot, los flujos de trabajo del agente de inteligencia artificial, la generación de recuperación (RAG) y la generación de códigos.
Con licencia para uso comercial
Publicado bajo la Licencia de Modelo Abierto de NVIDIA y gobernado por el Acuerdo de Licencia Comunitaria Llama 3.1, el modelo está listo para aplicaciones comerciales. Nvidia enfatiza la importancia del desarrollo responsable de la IA, instando a los equipos a evaluar la alineación, la seguridad y el sesgo del modelo para sus casos de uso específicos.
Oleksii Kuchaiev, director de modelo AI de AI después del entrenamiento, compartió la emoción sobre este lanzamiento abierto en X, destacando su denso diseño 253B con capacidades de razonamiento alternables y la inclusión de pesos y datos abiertos.




Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!




Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!




Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!




O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!




El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!




Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!












