NUEVO LLAMA-3.1 NEMOTRON ultra supera a Deepseek R1 a la mitad del tamaño

Mientras Meta enfrenta el escrutinio sobre su última familia de modelos Llama 4, Nvidia ha lanzado silenciosamente un nuevo modelo de lenguaje grande (LLM) completamente de código abierto basado en el modelo anterior de Meta, Llama-3.1-405B-Instruct. Nombrado Llama-3.1-Nemotron-Ultra-253B-v1, este modelo cuenta con 253 mil millones de parámetros y está diseñado para destacar en razonamiento avanzado, seguimiento de instrucciones y flujos de trabajo de asistentes de IA. Nvidia insinuó este modelo por primera vez durante su Conferencia Anual de Tecnología GPU (GTC) en marzo.
El lanzamiento subraya el compromiso continuo de Nvidia para mejorar el rendimiento a través de la innovación arquitectónica y procesos meticulosos de posentrenamiento. Anunciado el 7 de abril de 2025, el código, los pesos y los datos de posentrenamiento del modelo ahora están disponibles gratuitamente en Hugging Face. Está diseñado para alternar sin problemas entre tareas de razonamiento complejo y salidas más simples según los prompts del sistema, ofreciendo flexibilidad a los desarrolladores en sus aplicaciones.
Diseñado para una Inferencia Eficiente
Basándose en los esfuerzos previos de Nvidia para optimizar LLMs para la inferencia, el Llama-3.1-Nemotron-Ultra-253B incorpora un proceso de Búsqueda de Arquitectura Neuronal (NAS) para refinar su arquitectura. Esto incluye características innovadoras como capas de atención omitidas, redes feedforward fusionadas (FFNs) y ratios de compresión de FFN variables. Estas modificaciones reducen el uso de memoria y los requisitos computacionales del modelo, permitiendo su despliegue en un solo nodo de GPU 8x H100 sin comprometer la calidad de la salida.
Nvidia afirma que este modelo ofrece un rendimiento robusto mientras es rentable para despliegues en centros de datos. Es compatible con las microarquitecturas B100 y Hopper de Nvidia, y ha sido probado en modos de precisión BF16 y FP8.
Posentrenamiento para Razonamiento y Alineación
El modelo fue sometido a un régimen integral de posentrenamiento. Esto incluyó ajuste fino supervisado en diversos dominios como matemáticas, generación de código, chat y uso de herramientas, seguido de aprendizaje por refuerzo con Optimización de Política Relativa de Grupo (GRPO) para mejorar sus capacidades de seguimiento de instrucciones y razonamiento.
El refinamiento adicional se logró a través de una fase de destilación de conocimiento sobre 65 mil millones de tokens, y un preentrenamiento continuo en 88 mil millones de tokens adicionales. Las fuentes de datos de entrenamiento incluyeron FineWeb, Buzz-V1.2 y Dolma, con prompts y respuestas de posentrenamiento extraídos de corpora públicos y métodos de generación sintética. Este enfoque ayudó al modelo a diferenciar entre sus modos de razonamiento.
Mejor Rendimiento en Múltiples Dominios y Benchmarks
Cuando se habilita para el razonamiento, el modelo mostró mejoras significativas en varios benchmarks. Por ejemplo, en el benchmark MATH500, su rendimiento aumentó del 80.40% en modo estándar al 97.00% con el razonamiento habilitado. De manera similar, los puntajes de AIME25 pasaron del 16.67% al 72.50%, y los resultados de LiveCodeBench se duplicaron con creces, del 29.03% al 66.31%.
El modelo también destacó en tareas basadas en herramientas y en respuestas a preguntas generales (GPQA), obteniendo un 76.01% en modo de razonamiento comparado con el 56.60% sin este. Estos benchmarks se realizaron con una longitud máxima de secuencia de 32,000 tokens, y cada prueba se repitió hasta 16 veces para mayor precisión.
En comparación con el modelo MoE de vanguardia DeepSeek R1, que tiene 671 mil millones de parámetros, el modelo de Nvidia se mantiene firme a pesar de tener menos parámetros. Supera a DeepSeek R1 en tareas como GPQA (76.01 vs. 71.5), seguimiento de instrucciones IFEval (89.45 vs. 83.3) y tareas de codificación LiveCodeBench (66.31 vs. 65.9). Sin embargo, DeepSeek R1 tiene una ligera ventaja en ciertas evaluaciones matemáticas, particularmente AIME25 (79.8 vs. 72.50) y MATH500 (97.3 vs. 97.00).
Estos resultados indican que el modelo denso de Nvidia puede igualar o superar a los modelos MoE en razonamiento y alineación de instrucciones generales, aunque queda ligeramente rezagado en categorías intensivas en matemáticas.
Uso e Integración
El modelo se integra sin problemas con la biblioteca Transformers de Hugging Face (se recomienda la versión 4.48.3) y soporta secuencias de hasta 128,000 tokens. Los desarrolladores pueden alternar el comportamiento de razonamiento usando prompts del sistema y elegir estrategias de decodificación según las necesidades de la tarea. Para tareas de razonamiento, Nvidia sugiere usar muestreo de temperatura (0.6) con un valor top-p de 0.95, mientras que la decodificación codiciosa se recomienda para salidas deterministas.
Llama-3.1-Nemotron-Ultra-253B soporta aplicaciones multilingües, incluyendo inglés, alemán, francés, italiano, portugués, hindi, español y tailandés. Es ideal para diversos casos de uso de LLM como desarrollo de chatbots, flujos de trabajo de agentes de IA, generación aumentada por recuperación (RAG) y generación de código.
Licenciado para Uso Comercial
Lanzado bajo la Licencia de Modelo Abierto de Nvidia y regido por el Acuerdo de Licencia Comunitaria de Llama 3.1, el modelo está listo para aplicaciones comerciales. Nvidia enfatiza la importancia del desarrollo responsable de IA, instando a los equipos a evaluar la alineación, seguridad y sesgos del modelo para sus casos de uso específicos.
Oleksii Kuchaiev, Director de Posentrenamiento de Modelos de IA de Nvidia, compartió la emoción por este lanzamiento abierto en X, destacando su diseño denso de 253B con capacidades de razonamiento conmutables y la inclusión de pesos y datos abiertos.
Artículo relacionado
Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot
Salesforce lanzó una nueva estrategia de IA para el lugar de trabajo, presentando “compañeros digitales” especializados integrados en las conversaciones de Slack, según reveló la compañía el lunes.La
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas
Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
Aplicación de Meta AI para Introducir un Nivel Premium y Anuncios
La aplicación de IA de Meta pronto podría incluir una suscripción de pago, siguiendo el modelo de competidores como OpenAI, Google y Microsoft. Durante una llamada de resultados del primer trimestre d
comentario (52)
0/200
DouglasMartínez
18 de agosto de 2025 17:01:00 GMT+02:00
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
0
StephenRoberts
1 de agosto de 2025 04:48:18 GMT+02:00
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
0
AnthonyRoberts
24 de abril de 2025 10:35:07 GMT+02:00
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
0
JohnRoberts
23 de abril de 2025 02:03:45 GMT+02:00
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀
0
BillyAdams
23 de abril de 2025 01:54:38 GMT+02:00
O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀
0
ChristopherTaylor
22 de abril de 2025 23:27:44 GMT+02:00
¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀
0
Mientras Meta enfrenta el escrutinio sobre su última familia de modelos Llama 4, Nvidia ha lanzado silenciosamente un nuevo modelo de lenguaje grande (LLM) completamente de código abierto basado en el modelo anterior de Meta, Llama-3.1-405B-Instruct. Nombrado Llama-3.1-Nemotron-Ultra-253B-v1, este modelo cuenta con 253 mil millones de parámetros y está diseñado para destacar en razonamiento avanzado, seguimiento de instrucciones y flujos de trabajo de asistentes de IA. Nvidia insinuó este modelo por primera vez durante su Conferencia Anual de Tecnología GPU (GTC) en marzo.
El lanzamiento subraya el compromiso continuo de Nvidia para mejorar el rendimiento a través de la innovación arquitectónica y procesos meticulosos de posentrenamiento. Anunciado el 7 de abril de 2025, el código, los pesos y los datos de posentrenamiento del modelo ahora están disponibles gratuitamente en Hugging Face. Está diseñado para alternar sin problemas entre tareas de razonamiento complejo y salidas más simples según los prompts del sistema, ofreciendo flexibilidad a los desarrolladores en sus aplicaciones.
Diseñado para una Inferencia Eficiente
Basándose en los esfuerzos previos de Nvidia para optimizar LLMs para la inferencia, el Llama-3.1-Nemotron-Ultra-253B incorpora un proceso de Búsqueda de Arquitectura Neuronal (NAS) para refinar su arquitectura. Esto incluye características innovadoras como capas de atención omitidas, redes feedforward fusionadas (FFNs) y ratios de compresión de FFN variables. Estas modificaciones reducen el uso de memoria y los requisitos computacionales del modelo, permitiendo su despliegue en un solo nodo de GPU 8x H100 sin comprometer la calidad de la salida.
Nvidia afirma que este modelo ofrece un rendimiento robusto mientras es rentable para despliegues en centros de datos. Es compatible con las microarquitecturas B100 y Hopper de Nvidia, y ha sido probado en modos de precisión BF16 y FP8.
Posentrenamiento para Razonamiento y Alineación
El modelo fue sometido a un régimen integral de posentrenamiento. Esto incluyó ajuste fino supervisado en diversos dominios como matemáticas, generación de código, chat y uso de herramientas, seguido de aprendizaje por refuerzo con Optimización de Política Relativa de Grupo (GRPO) para mejorar sus capacidades de seguimiento de instrucciones y razonamiento.
El refinamiento adicional se logró a través de una fase de destilación de conocimiento sobre 65 mil millones de tokens, y un preentrenamiento continuo en 88 mil millones de tokens adicionales. Las fuentes de datos de entrenamiento incluyeron FineWeb, Buzz-V1.2 y Dolma, con prompts y respuestas de posentrenamiento extraídos de corpora públicos y métodos de generación sintética. Este enfoque ayudó al modelo a diferenciar entre sus modos de razonamiento.
Mejor Rendimiento en Múltiples Dominios y Benchmarks
Cuando se habilita para el razonamiento, el modelo mostró mejoras significativas en varios benchmarks. Por ejemplo, en el benchmark MATH500, su rendimiento aumentó del 80.40% en modo estándar al 97.00% con el razonamiento habilitado. De manera similar, los puntajes de AIME25 pasaron del 16.67% al 72.50%, y los resultados de LiveCodeBench se duplicaron con creces, del 29.03% al 66.31%.
El modelo también destacó en tareas basadas en herramientas y en respuestas a preguntas generales (GPQA), obteniendo un 76.01% en modo de razonamiento comparado con el 56.60% sin este. Estos benchmarks se realizaron con una longitud máxima de secuencia de 32,000 tokens, y cada prueba se repitió hasta 16 veces para mayor precisión.
En comparación con el modelo MoE de vanguardia DeepSeek R1, que tiene 671 mil millones de parámetros, el modelo de Nvidia se mantiene firme a pesar de tener menos parámetros. Supera a DeepSeek R1 en tareas como GPQA (76.01 vs. 71.5), seguimiento de instrucciones IFEval (89.45 vs. 83.3) y tareas de codificación LiveCodeBench (66.31 vs. 65.9). Sin embargo, DeepSeek R1 tiene una ligera ventaja en ciertas evaluaciones matemáticas, particularmente AIME25 (79.8 vs. 72.50) y MATH500 (97.3 vs. 97.00).
Estos resultados indican que el modelo denso de Nvidia puede igualar o superar a los modelos MoE en razonamiento y alineación de instrucciones generales, aunque queda ligeramente rezagado en categorías intensivas en matemáticas.
Uso e Integración
El modelo se integra sin problemas con la biblioteca Transformers de Hugging Face (se recomienda la versión 4.48.3) y soporta secuencias de hasta 128,000 tokens. Los desarrolladores pueden alternar el comportamiento de razonamiento usando prompts del sistema y elegir estrategias de decodificación según las necesidades de la tarea. Para tareas de razonamiento, Nvidia sugiere usar muestreo de temperatura (0.6) con un valor top-p de 0.95, mientras que la decodificación codiciosa se recomienda para salidas deterministas.
Llama-3.1-Nemotron-Ultra-253B soporta aplicaciones multilingües, incluyendo inglés, alemán, francés, italiano, portugués, hindi, español y tailandés. Es ideal para diversos casos de uso de LLM como desarrollo de chatbots, flujos de trabajo de agentes de IA, generación aumentada por recuperación (RAG) y generación de código.
Licenciado para Uso Comercial
Lanzado bajo la Licencia de Modelo Abierto de Nvidia y regido por el Acuerdo de Licencia Comunitaria de Llama 3.1, el modelo está listo para aplicaciones comerciales. Nvidia enfatiza la importancia del desarrollo responsable de IA, instando a los equipos a evaluar la alineación, seguridad y sesgos del modelo para sus casos de uso específicos.
Oleksii Kuchaiev, Director de Posentrenamiento de Modelos de IA de Nvidia, compartió la emoción por este lanzamiento abierto en X, destacando su diseño denso de 253B con capacidades de razonamiento conmutables y la inclusión de pesos y datos abiertos.



Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀




Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎




Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀




¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀




O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀




¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀












