NUEVO LLAMA-3.1 NEMOTRON ultra supera a Deepseek R1 a la mitad del tamaño

Mientras Meta enfrenta el escrutinio sobre su última familia de modelos Llama 4, Nvidia ha lanzado silenciosamente un nuevo modelo de lenguaje grande (LLM) completamente de código abierto basado en el modelo anterior de Meta, Llama-3.1-405B-Instruct. Nombrado Llama-3.1-Nemotron-Ultra-253B-v1, este modelo cuenta con 253 mil millones de parámetros y está diseñado para destacar en razonamiento avanzado, seguimiento de instrucciones y flujos de trabajo de asistentes de IA. Nvidia insinuó este modelo por primera vez durante su Conferencia Anual de Tecnología GPU (GTC) en marzo.
El lanzamiento subraya el compromiso continuo de Nvidia para mejorar el rendimiento a través de la innovación arquitectónica y procesos meticulosos de posentrenamiento. Anunciado el 7 de abril de 2025, el código, los pesos y los datos de posentrenamiento del modelo ahora están disponibles gratuitamente en Hugging Face. Está diseñado para alternar sin problemas entre tareas de razonamiento complejo y salidas más simples según los prompts del sistema, ofreciendo flexibilidad a los desarrolladores en sus aplicaciones.
Diseñado para una Inferencia Eficiente
Basándose en los esfuerzos previos de Nvidia para optimizar LLMs para la inferencia, el Llama-3.1-Nemotron-Ultra-253B incorpora un proceso de Búsqueda de Arquitectura Neuronal (NAS) para refinar su arquitectura. Esto incluye características innovadoras como capas de atención omitidas, redes feedforward fusionadas (FFNs) y ratios de compresión de FFN variables. Estas modificaciones reducen el uso de memoria y los requisitos computacionales del modelo, permitiendo su despliegue en un solo nodo de GPU 8x H100 sin comprometer la calidad de la salida.
Nvidia afirma que este modelo ofrece un rendimiento robusto mientras es rentable para despliegues en centros de datos. Es compatible con las microarquitecturas B100 y Hopper de Nvidia, y ha sido probado en modos de precisión BF16 y FP8.
Posentrenamiento para Razonamiento y Alineación
El modelo fue sometido a un régimen integral de posentrenamiento. Esto incluyó ajuste fino supervisado en diversos dominios como matemáticas, generación de código, chat y uso de herramientas, seguido de aprendizaje por refuerzo con Optimización de Política Relativa de Grupo (GRPO) para mejorar sus capacidades de seguimiento de instrucciones y razonamiento.
El refinamiento adicional se logró a través de una fase de destilación de conocimiento sobre 65 mil millones de tokens, y un preentrenamiento continuo en 88 mil millones de tokens adicionales. Las fuentes de datos de entrenamiento incluyeron FineWeb, Buzz-V1.2 y Dolma, con prompts y respuestas de posentrenamiento extraídos de corpora públicos y métodos de generación sintética. Este enfoque ayudó al modelo a diferenciar entre sus modos de razonamiento.
Mejor Rendimiento en Múltiples Dominios y Benchmarks
Cuando se habilita para el razonamiento, el modelo mostró mejoras significativas en varios benchmarks. Por ejemplo, en el benchmark MATH500, su rendimiento aumentó del 80.40% en modo estándar al 97.00% con el razonamiento habilitado. De manera similar, los puntajes de AIME25 pasaron del 16.67% al 72.50%, y los resultados de LiveCodeBench se duplicaron con creces, del 29.03% al 66.31%.
El modelo también destacó en tareas basadas en herramientas y en respuestas a preguntas generales (GPQA), obteniendo un 76.01% en modo de razonamiento comparado con el 56.60% sin este. Estos benchmarks se realizaron con una longitud máxima de secuencia de 32,000 tokens, y cada prueba se repitió hasta 16 veces para mayor precisión.
En comparación con el modelo MoE de vanguardia DeepSeek R1, que tiene 671 mil millones de parámetros, el modelo de Nvidia se mantiene firme a pesar de tener menos parámetros. Supera a DeepSeek R1 en tareas como GPQA (76.01 vs. 71.5), seguimiento de instrucciones IFEval (89.45 vs. 83.3) y tareas de codificación LiveCodeBench (66.31 vs. 65.9). Sin embargo, DeepSeek R1 tiene una ligera ventaja en ciertas evaluaciones matemáticas, particularmente AIME25 (79.8 vs. 72.50) y MATH500 (97.3 vs. 97.00).
Estos resultados indican que el modelo denso de Nvidia puede igualar o superar a los modelos MoE en razonamiento y alineación de instrucciones generales, aunque queda ligeramente rezagado en categorías intensivas en matemáticas.
Uso e Integración
El modelo se integra sin problemas con la biblioteca Transformers de Hugging Face (se recomienda la versión 4.48.3) y soporta secuencias de hasta 128,000 tokens. Los desarrolladores pueden alternar el comportamiento de razonamiento usando prompts del sistema y elegir estrategias de decodificación según las necesidades de la tarea. Para tareas de razonamiento, Nvidia sugiere usar muestreo de temperatura (0.6) con un valor top-p de 0.95, mientras que la decodificación codiciosa se recomienda para salidas deterministas.
Llama-3.1-Nemotron-Ultra-253B soporta aplicaciones multilingües, incluyendo inglés, alemán, francés, italiano, portugués, hindi, español y tailandés. Es ideal para diversos casos de uso de LLM como desarrollo de chatbots, flujos de trabajo de agentes de IA, generación aumentada por recuperación (RAG) y generación de código.
Licenciado para Uso Comercial
Lanzado bajo la Licencia de Modelo Abierto de Nvidia y regido por el Acuerdo de Licencia Comunitaria de Llama 3.1, el modelo está listo para aplicaciones comerciales. Nvidia enfatiza la importancia del desarrollo responsable de IA, instando a los equipos a evaluar la alineación, seguridad y sesgos del modelo para sus casos de uso específicos.
Oleksii Kuchaiev, Director de Posentrenamiento de Modelos de IA de Nvidia, compartió la emoción por este lanzamiento abierto en X, destacando su diseño denso de 253B con capacidades de razonamiento conmutables y la inclusión de pesos y datos abiertos.
Artículo relacionado
ElevenLabs anuncia que BlackRock, Jamie Foxx y Eva Longoria se han convertido en nuevos inversores
ElevenLabs, la empresa de inteligencia artificial aplicada a la voz, ha dado a conocer nuevos inversores en su ronda de financiación de serie D, por valor de 500 millones de dólares, anunciada inicial
Meta AI ya responde a los mensajes de los compradores en Facebook Marketplace
Facebook Marketplace presenta nuevas funciones de Meta AI, entre las que se incluyen respuestas automáticas a las consultas de los compradores, según anunció la empresa el jueves. La plataforma tambié
Meta firma un acuerdo para adquirir millones de CPU de IA de Amazon
Amazon ha cerrado una importante alianza con Meta, apostando una vez más por sus propios chips de diseño propio. Meta ha acordado implementar millones de chips AWS Graviton para satisfacer sus crecien
Recomendaciones de temas especiales relacionados
comentario (54)
0/500
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀

Mientras Meta enfrenta el escrutinio sobre su última familia de modelos Llama 4, Nvidia ha lanzado silenciosamente un nuevo modelo de lenguaje grande (LLM) completamente de código abierto basado en el modelo anterior de Meta, Llama-3.1-405B-Instruct. Nombrado Llama-3.1-Nemotron-Ultra-253B-v1, este modelo cuenta con 253 mil millones de parámetros y está diseñado para destacar en razonamiento avanzado, seguimiento de instrucciones y flujos de trabajo de asistentes de IA. Nvidia insinuó este modelo por primera vez durante su Conferencia Anual de Tecnología GPU (GTC) en marzo.
El lanzamiento subraya el compromiso continuo de Nvidia para mejorar el rendimiento a través de la innovación arquitectónica y procesos meticulosos de posentrenamiento. Anunciado el 7 de abril de 2025, el código, los pesos y los datos de posentrenamiento del modelo ahora están disponibles gratuitamente en Hugging Face. Está diseñado para alternar sin problemas entre tareas de razonamiento complejo y salidas más simples según los prompts del sistema, ofreciendo flexibilidad a los desarrolladores en sus aplicaciones.
Diseñado para una Inferencia Eficiente
Basándose en los esfuerzos previos de Nvidia para optimizar LLMs para la inferencia, el Llama-3.1-Nemotron-Ultra-253B incorpora un proceso de Búsqueda de Arquitectura Neuronal (NAS) para refinar su arquitectura. Esto incluye características innovadoras como capas de atención omitidas, redes feedforward fusionadas (FFNs) y ratios de compresión de FFN variables. Estas modificaciones reducen el uso de memoria y los requisitos computacionales del modelo, permitiendo su despliegue en un solo nodo de GPU 8x H100 sin comprometer la calidad de la salida.
Nvidia afirma que este modelo ofrece un rendimiento robusto mientras es rentable para despliegues en centros de datos. Es compatible con las microarquitecturas B100 y Hopper de Nvidia, y ha sido probado en modos de precisión BF16 y FP8.
Posentrenamiento para Razonamiento y Alineación
El modelo fue sometido a un régimen integral de posentrenamiento. Esto incluyó ajuste fino supervisado en diversos dominios como matemáticas, generación de código, chat y uso de herramientas, seguido de aprendizaje por refuerzo con Optimización de Política Relativa de Grupo (GRPO) para mejorar sus capacidades de seguimiento de instrucciones y razonamiento.
El refinamiento adicional se logró a través de una fase de destilación de conocimiento sobre 65 mil millones de tokens, y un preentrenamiento continuo en 88 mil millones de tokens adicionales. Las fuentes de datos de entrenamiento incluyeron FineWeb, Buzz-V1.2 y Dolma, con prompts y respuestas de posentrenamiento extraídos de corpora públicos y métodos de generación sintética. Este enfoque ayudó al modelo a diferenciar entre sus modos de razonamiento.
Mejor Rendimiento en Múltiples Dominios y Benchmarks
Cuando se habilita para el razonamiento, el modelo mostró mejoras significativas en varios benchmarks. Por ejemplo, en el benchmark MATH500, su rendimiento aumentó del 80.40% en modo estándar al 97.00% con el razonamiento habilitado. De manera similar, los puntajes de AIME25 pasaron del 16.67% al 72.50%, y los resultados de LiveCodeBench se duplicaron con creces, del 29.03% al 66.31%.
El modelo también destacó en tareas basadas en herramientas y en respuestas a preguntas generales (GPQA), obteniendo un 76.01% en modo de razonamiento comparado con el 56.60% sin este. Estos benchmarks se realizaron con una longitud máxima de secuencia de 32,000 tokens, y cada prueba se repitió hasta 16 veces para mayor precisión.
En comparación con el modelo MoE de vanguardia DeepSeek R1, que tiene 671 mil millones de parámetros, el modelo de Nvidia se mantiene firme a pesar de tener menos parámetros. Supera a DeepSeek R1 en tareas como GPQA (76.01 vs. 71.5), seguimiento de instrucciones IFEval (89.45 vs. 83.3) y tareas de codificación LiveCodeBench (66.31 vs. 65.9). Sin embargo, DeepSeek R1 tiene una ligera ventaja en ciertas evaluaciones matemáticas, particularmente AIME25 (79.8 vs. 72.50) y MATH500 (97.3 vs. 97.00).
Estos resultados indican que el modelo denso de Nvidia puede igualar o superar a los modelos MoE en razonamiento y alineación de instrucciones generales, aunque queda ligeramente rezagado en categorías intensivas en matemáticas.
Uso e Integración
El modelo se integra sin problemas con la biblioteca Transformers de Hugging Face (se recomienda la versión 4.48.3) y soporta secuencias de hasta 128,000 tokens. Los desarrolladores pueden alternar el comportamiento de razonamiento usando prompts del sistema y elegir estrategias de decodificación según las necesidades de la tarea. Para tareas de razonamiento, Nvidia sugiere usar muestreo de temperatura (0.6) con un valor top-p de 0.95, mientras que la decodificación codiciosa se recomienda para salidas deterministas.
Llama-3.1-Nemotron-Ultra-253B soporta aplicaciones multilingües, incluyendo inglés, alemán, francés, italiano, portugués, hindi, español y tailandés. Es ideal para diversos casos de uso de LLM como desarrollo de chatbots, flujos de trabajo de agentes de IA, generación aumentada por recuperación (RAG) y generación de código.
Licenciado para Uso Comercial
Lanzado bajo la Licencia de Modelo Abierto de Nvidia y regido por el Acuerdo de Licencia Comunitaria de Llama 3.1, el modelo está listo para aplicaciones comerciales. Nvidia enfatiza la importancia del desarrollo responsable de IA, instando a los equipos a evaluar la alineación, seguridad y sesgos del modelo para sus casos de uso específicos.
Oleksii Kuchaiev, Director de Posentrenamiento de Modelos de IA de Nvidia, compartió la emoción por este lanzamiento abierto en X, destacando su diseño denso de 253B con capacidades de razonamiento conmutables y la inclusión de pesos y datos abiertos.
ElevenLabs anuncia que BlackRock, Jamie Foxx y Eva Longoria se han convertido en nuevos inversores
ElevenLabs, la empresa de inteligencia artificial aplicada a la voz, ha dado a conocer nuevos inversores en su ronda de financiación de serie D, por valor de 500 millones de dólares, anunciada inicial
Meta AI ya responde a los mensajes de los compradores en Facebook Marketplace
Facebook Marketplace presenta nuevas funciones de Meta AI, entre las que se incluyen respuestas automáticas a las consultas de los compradores, según anunció la empresa el jueves. La plataforma tambié
Meta firma un acuerdo para adquirir millones de CPU de IA de Amazon
Amazon ha cerrado una importante alianza con Meta, apostando una vez más por sus propios chips de diseño propio. Meta ha acordado implementar millones de chips AWS Graviton para satisfacer sus crecien
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀





Hogar






