Maison
Le nouveau LLAMA-3.1 Nemotron Ultra de Nvidia surpasse Deepseek R1 à la moitié de la taille

Tandis que Meta fait face à l'examen minutieux entourant sa dernière famille de modèles Llama 4, Nvidia a discrètement lancé un nouveau modèle de langage de grande échelle (LLM) entièrement open-source, basé sur le modèle précédent de Meta, Llama-3.1-405B-Instruct. Nommé Llama-3.1-Nemotron-Ultra-253B-v1, ce modèle compte 253 milliards de paramètres et est conçu pour exceller dans le raisonnement avancé, le suivi d'instructions et les flux de travail d'assistant AI. Nvidia a d'abord évoqué ce modèle lors de sa conférence annuelle sur les technologies GPU (GTC) en mars.
Ce lancement souligne l'engagement continu de Nvidia à améliorer les performances grâce à l'innovation architecturale et à des processus de post-entraînement méticuleux. Annoncé le 7 avril 2025, le code, les poids et les données de post-entraînement du modèle sont désormais librement accessibles sur Hugging Face. Il est conçu pour passer facilement des tâches de raisonnement complexes à des sorties plus simples en fonction des instructions du système, offrant ainsi aux développeurs une flexibilité dans leurs applications.
Conçu pour une inférence efficace
S'appuyant sur les efforts précédents de Nvidia pour optimiser les LLM pour l'inférence, le Llama-3.1-Nemotron-Ultra-253B intègre un processus de recherche d'architecture neuronale (NAS) pour affiner son architecture. Cela inclut des fonctionnalités innovantes telles que des couches d'attention sautées, des réseaux feedforward fusionnés (FFNs) et des ratios de compression FFN variables. Ces modifications réduisent l'utilisation de la mémoire et les besoins en calcul du modèle, le rendant déployable sur un seul nœud GPU 8x H100 sans compromettre la qualité de la sortie.
Nvidia affirme que ce modèle offre des performances robustes tout en étant économique pour les déploiements en centre de données. Il est compatible avec les microarchitectures B100 et Hopper de Nvidia, et a été testé dans les modes de précision BF16 et FP8.
Post-entraînement pour le raisonnement et l'alignement
Le modèle a suivi un régime complet de post-entraînement. Cela inclut un réglage fin supervisé dans divers domaines tels que les mathématiques, la génération de code, le chat et l'utilisation d'outils, suivi d'un apprentissage par renforcement avec l'optimisation de la politique relative de groupe (GRPO) pour améliorer ses capacités de suivi des instructions et de raisonnement.
Un raffinement supplémentaire a été effectué grâce à une phase de distillation de connaissances sur 65 milliards de tokens, et un pré-entraînement continu sur 88 milliards de tokens supplémentaires. Les sources de données d'entraînement incluaient FineWeb, Buzz-V1.2 et Dolma, avec des prompts et réponses de post-entraînement tirés à la fois de corpus publics et de méthodes de génération synthétique. Cette approche a aidé le modèle à différencier ses modes de raisonnement.
Performances améliorées dans de nombreux domaines et benchmarks
Lorsque le raisonnement est activé, le modèle a montré des améliorations significatives sur divers benchmarks. Par exemple, sur le benchmark MATH500, ses performances sont passées de 80,40 % en mode standard à 97,00 % avec le raisonnement activé. De même, les scores AIME25 ont bondi de 16,67 % à 72,50 %, et les résultats LiveCodeBench ont plus que doublé, passant de 29,03 % à 66,31 %.
Le modèle a également excellé dans les tâches basées sur des outils et les réponses aux questions générales (GPQA), obtenant un score de 76,01 % en mode raisonnement contre 56,60 % sans. Ces benchmarks ont été réalisés avec une longueur de séquence maximale de 32 000 tokens, et chaque test a été répété jusqu'à 16 fois pour plus de précision.
Comparé au modèle MoE de pointe DeepSeek R1, qui compte 671 milliards de paramètres, le modèle de Nvidia tient bon malgré un nombre moindre de paramètres. Il surpasse DeepSeek R1 dans des tâches comme GPQA (76,01 contre 71,5), IFEval suivi d'instructions (89,45 contre 83,3) et les tâches de codage LiveCodeBench (66,31 contre 65,9). Cependant, DeepSeek R1 devance légèrement dans certaines évaluations mathématiques, notamment AIME25 (79,8 contre 72,50) et MATH500 (97,3 contre 97,00).
Ces résultats indiquent que le modèle dense de Nvidia peut égaler ou dépasser les modèles MoE en termes de raisonnement et d'alignement général des instructions, bien qu'il soit légèrement en retard dans les catégories intensives en mathématiques.
Utilisation et intégration
Le modèle s'intègre parfaitement à la bibliothèque Transformers de Hugging Face (version 4.48.3 recommandée) et prend en charge des séquences allant jusqu'à 128 000 tokens. Les développeurs peuvent activer ou désactiver le comportement de raisonnement à l'aide de prompts système et choisir des stratégies de décodage en fonction des besoins de la tâche. Pour les tâches de raisonnement, Nvidia suggère d'utiliser un échantillonnage de température (0,6) avec une valeur top-p de 0,95, tandis que le décodage glouton est recommandé pour des sorties déterministes.
Llama-3.1-Nemotron-Ultra-253B prend en charge les applications multilingues, y compris l'anglais, l'allemand, le français, l'italien, le portugais, l'hindi, l'espagnol et le thaï. Il est bien adapté à divers cas d'utilisation de LLM tels que le développement de chatbots, les flux de travail d'agents AI, la génération augmentée par récupération (RAG) et la génération de code.
Autorisé pour un usage commercial
Publié sous la licence Nvidia Open Model et régi par l'accord de licence communautaire Llama 3.1, le modèle est prêt pour des applications commerciales. Nvidia souligne l'importance d'un développement responsable de l'IA, exhortant les équipes à évaluer l'alignement, la sécurité et les biais du modèle pour leurs cas d'utilisation spécifiques.
Oleksii Kuchaiev, directeur du post-entraînement des modèles AI chez Nvidia, a partagé son enthousiasme pour cette sortie ouverte sur X, mettant en avant sa conception dense de 253B avec des capacités de raisonnement activables et l'inclusion de poids et de données ouverts.
Article connexe
ElevenLabs annonce que BlackRock, Jamie Foxx et Eva Longoria ont rejoint le cercle de ses investisseurs
ElevenLabs, la société spécialisée dans l'IA vocale, a révélé le nom d'investisseurs supplémentaires ayant participé à son tour de table de série D de 500 millions de dollars, initialement annoncé en
Meta AI répond désormais aux messages des acheteurs sur Facebook Marketplace
Facebook Marketplace lance de nouvelles fonctionnalités basées sur l'IA de Meta, notamment des réponses automatiques aux demandes des acheteurs, a annoncé jeudi l'entreprise. La plateforme u
Meta signe un contrat portant sur plusieurs millions de processeurs IA d'Amazon
Amazon a conclu un partenariat majeur avec Meta, en s'appuyant une nouvelle fois sur ses propres puces conçues sur mesure. Meta a accepté de déployer des millions de puces AWS Graviton pour répondre à
Recommandations de sujets spéciaux liés
commentaires (54)
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀

Tandis que Meta fait face à l'examen minutieux entourant sa dernière famille de modèles Llama 4, Nvidia a discrètement lancé un nouveau modèle de langage de grande échelle (LLM) entièrement open-source, basé sur le modèle précédent de Meta, Llama-3.1-405B-Instruct. Nommé Llama-3.1-Nemotron-Ultra-253B-v1, ce modèle compte 253 milliards de paramètres et est conçu pour exceller dans le raisonnement avancé, le suivi d'instructions et les flux de travail d'assistant AI. Nvidia a d'abord évoqué ce modèle lors de sa conférence annuelle sur les technologies GPU (GTC) en mars.
Ce lancement souligne l'engagement continu de Nvidia à améliorer les performances grâce à l'innovation architecturale et à des processus de post-entraînement méticuleux. Annoncé le 7 avril 2025, le code, les poids et les données de post-entraînement du modèle sont désormais librement accessibles sur Hugging Face. Il est conçu pour passer facilement des tâches de raisonnement complexes à des sorties plus simples en fonction des instructions du système, offrant ainsi aux développeurs une flexibilité dans leurs applications.
Conçu pour une inférence efficace
S'appuyant sur les efforts précédents de Nvidia pour optimiser les LLM pour l'inférence, le Llama-3.1-Nemotron-Ultra-253B intègre un processus de recherche d'architecture neuronale (NAS) pour affiner son architecture. Cela inclut des fonctionnalités innovantes telles que des couches d'attention sautées, des réseaux feedforward fusionnés (FFNs) et des ratios de compression FFN variables. Ces modifications réduisent l'utilisation de la mémoire et les besoins en calcul du modèle, le rendant déployable sur un seul nœud GPU 8x H100 sans compromettre la qualité de la sortie.
Nvidia affirme que ce modèle offre des performances robustes tout en étant économique pour les déploiements en centre de données. Il est compatible avec les microarchitectures B100 et Hopper de Nvidia, et a été testé dans les modes de précision BF16 et FP8.
Post-entraînement pour le raisonnement et l'alignement
Le modèle a suivi un régime complet de post-entraînement. Cela inclut un réglage fin supervisé dans divers domaines tels que les mathématiques, la génération de code, le chat et l'utilisation d'outils, suivi d'un apprentissage par renforcement avec l'optimisation de la politique relative de groupe (GRPO) pour améliorer ses capacités de suivi des instructions et de raisonnement.
Un raffinement supplémentaire a été effectué grâce à une phase de distillation de connaissances sur 65 milliards de tokens, et un pré-entraînement continu sur 88 milliards de tokens supplémentaires. Les sources de données d'entraînement incluaient FineWeb, Buzz-V1.2 et Dolma, avec des prompts et réponses de post-entraînement tirés à la fois de corpus publics et de méthodes de génération synthétique. Cette approche a aidé le modèle à différencier ses modes de raisonnement.
Performances améliorées dans de nombreux domaines et benchmarks
Lorsque le raisonnement est activé, le modèle a montré des améliorations significatives sur divers benchmarks. Par exemple, sur le benchmark MATH500, ses performances sont passées de 80,40 % en mode standard à 97,00 % avec le raisonnement activé. De même, les scores AIME25 ont bondi de 16,67 % à 72,50 %, et les résultats LiveCodeBench ont plus que doublé, passant de 29,03 % à 66,31 %.
Le modèle a également excellé dans les tâches basées sur des outils et les réponses aux questions générales (GPQA), obtenant un score de 76,01 % en mode raisonnement contre 56,60 % sans. Ces benchmarks ont été réalisés avec une longueur de séquence maximale de 32 000 tokens, et chaque test a été répété jusqu'à 16 fois pour plus de précision.
Comparé au modèle MoE de pointe DeepSeek R1, qui compte 671 milliards de paramètres, le modèle de Nvidia tient bon malgré un nombre moindre de paramètres. Il surpasse DeepSeek R1 dans des tâches comme GPQA (76,01 contre 71,5), IFEval suivi d'instructions (89,45 contre 83,3) et les tâches de codage LiveCodeBench (66,31 contre 65,9). Cependant, DeepSeek R1 devance légèrement dans certaines évaluations mathématiques, notamment AIME25 (79,8 contre 72,50) et MATH500 (97,3 contre 97,00).
Ces résultats indiquent que le modèle dense de Nvidia peut égaler ou dépasser les modèles MoE en termes de raisonnement et d'alignement général des instructions, bien qu'il soit légèrement en retard dans les catégories intensives en mathématiques.
Utilisation et intégration
Le modèle s'intègre parfaitement à la bibliothèque Transformers de Hugging Face (version 4.48.3 recommandée) et prend en charge des séquences allant jusqu'à 128 000 tokens. Les développeurs peuvent activer ou désactiver le comportement de raisonnement à l'aide de prompts système et choisir des stratégies de décodage en fonction des besoins de la tâche. Pour les tâches de raisonnement, Nvidia suggère d'utiliser un échantillonnage de température (0,6) avec une valeur top-p de 0,95, tandis que le décodage glouton est recommandé pour des sorties déterministes.
Llama-3.1-Nemotron-Ultra-253B prend en charge les applications multilingues, y compris l'anglais, l'allemand, le français, l'italien, le portugais, l'hindi, l'espagnol et le thaï. Il est bien adapté à divers cas d'utilisation de LLM tels que le développement de chatbots, les flux de travail d'agents AI, la génération augmentée par récupération (RAG) et la génération de code.
Autorisé pour un usage commercial
Publié sous la licence Nvidia Open Model et régi par l'accord de licence communautaire Llama 3.1, le modèle est prêt pour des applications commerciales. Nvidia souligne l'importance d'un développement responsable de l'IA, exhortant les équipes à évaluer l'alignement, la sécurité et les biais du modèle pour leurs cas d'utilisation spécifiques.
Oleksii Kuchaiev, directeur du post-entraînement des modèles AI chez Nvidia, a partagé son enthousiasme pour cette sortie ouverte sur X, mettant en avant sa conception dense de 253B avec des capacités de raisonnement activables et l'inclusion de poids et de données ouverts.
ElevenLabs annonce que BlackRock, Jamie Foxx et Eva Longoria ont rejoint le cercle de ses investisseurs
ElevenLabs, la société spécialisée dans l'IA vocale, a révélé le nom d'investisseurs supplémentaires ayant participé à son tour de table de série D de 500 millions de dollars, initialement annoncé en
Meta AI répond désormais aux messages des acheteurs sur Facebook Marketplace
Facebook Marketplace lance de nouvelles fonctionnalités basées sur l'IA de Meta, notamment des réponses automatiques aux demandes des acheteurs, a annoncé jeudi l'entreprise. La plateforme u
Meta signe un contrat portant sur plusieurs millions de processeurs IA d'Amazon
Amazon a conclu un partenariat majeur avec Meta, en s'appuyant une nouvelle fois sur ses propres puces conçues sur mesure. Meta a accepté de déployer des millions de puces AWS Graviton pour répondre à
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀











