option
Maison
Nouvelles
Le nouveau LLAMA-3.1 Nemotron Ultra de Nvidia surpasse Deepseek R1 à la moitié de la taille

Le nouveau LLAMA-3.1 Nemotron Ultra de Nvidia surpasse Deepseek R1 à la moitié de la taille

13 avril 2025
74

Le nouveau LLAMA-3.1 Nemotron Ultra de Nvidia surpasse Deepseek R1 à la moitié de la taille

Alors que Meta se grappe avec l'examen minutieux entourant sa dernière famille de modèles LLAMA 4, NVIDIA a discrètement déployé un nouveau modèle de langue grande entièrement open source (LLM) basé sur le modèle de Meta LLAMA-3.1-405B-Istruct. Nommé LLAMA-3.1-Nemotron-Ultra-253b-V1, ce modèle possède 253 milliards de paramètres et est conçu pour exceller dans le raisonnement avancé, l'instruction suivante et les flux de travail assistant AI. NVIDIA a d'abord fait allusion à ce modèle lors de sa conférence annuelle sur la technologie GPU (GTC) en mars.

Le communiqué souligne l'engagement continu de NVIDIA à améliorer les performances grâce à l'innovation architecturale et à des processus de post-formation méticuleux. Annoncées le 7 avril 2025, le code, les poids et les données post-entraînement du modèle sont désormais librement accessibles sur la face des étreintes. Il est conçu pour basculer de manière transparente entre les tâches de raisonnement complexes et les sorties plus simples en fonction des invites du système, offrant aux développeurs la flexibilité dans leurs applications.

Conçu pour une inférence efficace

S'appuyant sur les efforts antérieurs de NVIDIA dans l'optimisation des LLM pour l'inférence, le LLAMA-3.1-Nemotron-Ultra-253B intègre un processus de recherche d'architecture neurale (NAS) pour affiner son architecture. Cela comprend des fonctionnalités innovantes telles que les couches d'attention sautées, les réseaux à fond fusionnés (FFN) et les ratios de compression FFN variables. Ces modifications réduisent l'utilisation de la mémoire et les exigences de calcul du modèle, ce qui le rend déployable sur un seul nœud GPU 8x H100 sans compromettre la qualité de sortie.

NVIDIA affirme que ce modèle offre des performances robustes tout en étant rentables pour les déploiements de centres de données. Il est compatible avec les microarchitectures B100 et Hopper de NVIDIA, et a été testé dans les modes de précision BF16 et FP8.

Post-formation pour le raisonnement et l'alignement

Le modèle a subi un régime complet après la formation. Cela comprenait un réglage fin supervisé dans divers domaines tels que les mathématiques, la génération de code, le chat et l'utilisation des outils, suivi de l'apprentissage du renforcement avec l'optimisation des politiques relatives du groupe (GRPO) pour améliorer ses capacités de suivi des instructions et de raisonnement.

Un raffinement supplémentaire est passé par une phase de distillation de connaissances de plus de 65 milliards de jetons et de pré-formation continue sur 88 milliards de jetons supplémentaires. Les sources de données de formation comprenaient Fineweb, Buzz-V1.2 et Dolma, avec des invites et des réponses post-entraînement tirées à la fois des corpus publics et des méthodes de génération synthétique. Cette approche a aidé le modèle à différencier ses modes de raisonnement.

Amélioration des performances dans de nombreux domaines et références

Lorsqu'il est activé pour le raisonnement, le modèle a montré des améliorations significatives sur diverses repères. Par exemple, sur la référence MATH500, ses performances sont passées de 80,40% en mode standard à 97,00% avec le raisonnement activé. De même, les scores AIME25 sont passés de 16,67% à 72,50%, et les résultats livecodebench ont plus que doublé, de 29,03% à 66,31%.

Le modèle a également excellé dans les tâches basées sur des outils et la réponse générale aux questions (GPQA), marquant 76,01% en mode de raisonnement contre 56,60% sans. Ces repères ont été effectués avec une longueur de séquence maximale de 32 000 jetons, et chaque test a été répété jusqu'à 16 fois pour précision.

Par rapport au modèle MOE de pointe Deepseek R1, qui a 671 milliards de paramètres, le modèle de Nvidia est propre malgré moins de paramètres. Il surpasse Deepseek R1 dans des tâches comme GPQA (76.01 vs 71,5), l'instruction ifeval suivant (89,45 contre 83.3) et les tâches codantes LivecodeBench (66.31 vs 65,9). Cependant, Deepseek R1 se termine légèrement dans certaines évaluations mathématiques, en particulier AIME25 (79,8 contre 72,50) et Math500 (97,3 vs 97,00).

Ces résultats indiquent que le modèle dense de Nvidia peut correspondre ou dépasser les modèles MOE dans le raisonnement et l'alignement général des instructions, bien qu'il soit légèrement en retard dans les catégories à forte intensité de mathématiques.

Utilisation et intégration

Le modèle s'intègre de manière transparente à la bibliothèque de transformateurs Face Hugging Face (version 4.48.3 recommandée) et prend en charge des séquences jusqu'à 128 000 jetons. Les développeurs peuvent basculer le comportement du raisonnement à l'aide d'invites système et choisir des stratégies de décodage en fonction des besoins de tâche. Pour les tâches de raisonnement, NVIDIA suggère d'utiliser l'échantillonnage de la température (0,6) avec une valeur TOP-P de 0,95, tandis que le décodage gourmand est recommandé pour les sorties déterministes.

Lama-3.1-Nemotron-Ultra-253b prend en charge des applications multilingues, y compris l'anglais, l'allemand, le français, l'italien, le portugais, l'hindi, l'espagnol et le thaï. Il est bien adapté pour divers cas d'utilisation LLM tels que le développement de Chatbot, les flux de travail des agents AI, la génération (RAG) (RAG) et la génération de code.

Autorisé à usage commercial

Sortie sous la licence du modèle Open NVIDIA et régie par l'accord de licence communautaire LLAMA 3.1, le modèle est prêt pour les applications commerciales. NVIDIA souligne l'importance du développement responsable de l'IA, exhortant les équipes à évaluer l'alignement, la sécurité et le biais du modèle pour leurs cas d'utilisation spécifiques.

Oleksii Kuchaiev, directeur du modèle d'IA de Nvidia après la formation, a partagé l'excitation à propos de cette version ouverte sur X, mettant en évidence sa conception dense 253b avec des capacités de raisonnement bordées et l'inclusion de poids ouverts et de données.

Article connexe
從 MIPS 到艾弗洛普僅僅數十年:計算能力正在爆炸,將改變 AI 從 MIPS 到艾弗洛普僅僅數十年:計算能力正在爆炸,將改變 AI 在最近的 Nvidia GTC 大會上,這家科技巨頭揭露了一項突破性成就:首個單機架伺服器系統能達到一艾弗洛普。這是一個令人震驚的每秒十億億次浮點運算(FLOPS)。這項壯舉由 Nvidia 最新的 GB200 NVL72 系統驅動,搭載尖端的 Blackwell 圖形處理單元(GPU)。為了讓大家更直觀理解,這個系統安裝在一個標準電腦機架中,大約 6 英尺高,略超過 3 英尺深,寬度不到 2 英
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
commentaires (50)
0/200
KeithNelson
KeithNelson 14 avril 2025 00:00:00 UTC

Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!

RalphMitchell
RalphMitchell 14 avril 2025 00:00:00 UTC

Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!

GeorgeWilson
GeorgeWilson 14 avril 2025 00:00:00 UTC

Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!

GeorgeNelson
GeorgeNelson 14 avril 2025 00:00:00 UTC

O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!

GeorgeMiller
GeorgeMiller 14 avril 2025 00:00:00 UTC

El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!

BrianLewis
BrianLewis 14 avril 2025 00:00:00 UTC

Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!

Retour en haut
OR