Новый Llama-3.1 Nemotron Ultra Outperforms DeepSeek R1 в половине размера

Пока Meta сталкивается с пристальным вниманием к своей последней семейной модели Llama 4, Nvidia тихо представила новую полностью открытую большую языковую модель (LLM), основанную на более ранней модели Meta Llama-3.1-405B-Instruct. Названная Llama-3.1-Nemotron-Ultra-253B-v1, эта модель обладает 253 миллиардами параметров и разработана для превосходства в сложных рассуждениях, следовании инструкциям и рабочих процессах AI-ассистентов. Nvidia впервые намекнула на эту модель во время своей ежегодной конференции GPU Technology Conference (GTC) в марте.
Выпуск подчеркивает продолжающуюся приверженность Nvidia повышению производительности за счет архитектурных инноваций и тщательных процессов пост-обучения. Анонсированная 7 апреля 2025 года, код модели, веса и данные пост-обучения теперь свободно доступны на Hugging Face. Она разработана для плавного переключения между сложными задачами рассуждения и более простыми результатами на основе системных подсказок, предоставляя разработчикам гибкость в их приложениях.
Разработана для эффективного вывода
Опираясь на предыдущие усилия Nvidia по оптимизации LLM для вывода, Llama-3.1-Nemotron-Ultra-253B включает процесс поиска нейронной архитектуры (NAS) для уточнения своей архитектуры. Это включает инновационные функции, такие как пропущенные слои внимания, объединенные прямые нейронные сети (FFNs) и переменные коэффициенты сжатия FFN. Эти изменения снижают использование памяти и вычислительные требования модели, что делает ее развертываемой на одном узле 8x H100 GPU без ущерба для качества вывода.
Nvidia утверждает, что эта модель обеспечивает высокую производительность при экономичной стоимости для развертывания в дата-центрах. Она совместима с микроархитектурами Nvidia B100 и Hopper и была протестирована в режимах точности BF16 и FP8.
Пост-обучение для рассуждений и выравнивания
Модель прошла всесторонний режим пост-обучения. Это включало контролируемое тонкое настройка по различным доменам, таким как математика, генерация кода, чат и использование инструментов, с последующим обучением с подкреплением с использованием оптимизации групповой относительной политики (GRPO) для улучшения способностей следования инструкциям и рассуждения.
Дальнейшее уточнение проводилось через фазу дистилляции знаний на 65 миллиардах токенов и непрерывное предварительное обучение на дополнительных 88 миллиардах токенов. Источники обучающих данных включали FineWeb, Buzz-V1.2 и Dolma, с пост-обучающими подсказками и ответами, взятыми как из публичных корпусов, так и из методов синтетической генерации. Этот подход помог модели различать свои режимы рассуждения.
Улучшенная производительность в многочисленных доменах и тестах
При включении режима рассуждения модель показала значительные улучшения в различных тестах. Например, в тесте MATH500 производительность выросла с 80,40% в стандартном режиме до 97,00% с включенным рассуждением. Аналогично, результаты AIME25 подскочили с 16,67% до 72,50%, а результаты LiveCodeBench более чем удвоились, с 29,03% до 66,31%.
Модель также преуспела в задачах, связанных с использованием инструментов, и в общем ответе на вопросы (GPQA), набрав 76,01% в режиме рассуждения по сравнению с 56,60% без него. Эти тесты проводились с максимальной длиной последовательности 32 000 токенов, и каждый тест повторялся до 16 раз для точности.
По сравнению с современной моделью MoE DeepSeek R1, которая имеет 671 миллиард параметров, модель Nvidia держится на равных, несмотря на меньшее количество параметров. Она превосходит DeepSeek R1 в задачах, таких как GPQA (76,01 против 71,5), IFEval следование инструкциям (89,45 против 83,3) и задачи кодирования LiveCodeBench (66,31 против 65,9). Однако DeepSeek R1 немного опережает в некоторых математических оценках, особенно в AIME25 (79,8 против 72,50) и MATH500 (97,3 против 97,00).
Эти результаты показывают, что плотная модель Nvidia может соответствовать или превосходить модели MoE в рассуждениях и общем выравнивании инструкций, хотя немного отстает в категориях с интенсивной математикой.
Использование и интеграция
Модель легко интегрируется с библиотекой Hugging Face Transformers (рекомендуется версия 4.48.3) и поддерживает последовательности до 128 000 токенов. Разработчики могут переключать поведение рассуждения с помощью системных подсказок и выбирать стратегии декодирования в зависимости от потребностей задачи. Для задач рассуждения Nvidia предлагает использовать выборку температуры (0,6) с значением top-p 0,95, в то время как для детерминированных выходов рекомендуется жадное декодирование.
Llama-3.1-Nemotron-Ultra-253B поддерживает многоязычные приложения, включая английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Она хорошо подходит для различных случаев использования LLM, таких как разработка чат-ботов, рабочие процессы AI-агентов, генерация с дополненным извлечением (RAG) и генерация кода.
Лицензирована для коммерческого использования
Выпущена под лицензией Nvidia Open Model License и регулируется соглашением о лицензии сообщества Llama 3.1, модель готова для коммерческих приложений. Nvidia подчеркивает важность ответственного развития AI, призывая команды оценивать выравнивание, безопасность и предвзятость модели для их конкретных случаев использования.
Олексий Кучаев, директор Nvidia по пост-обучению AI-моделей, поделился восторгом от этого открытого выпуска на X, подчеркнув плотный дизайн 253B с переключаемыми возможностями рассуждения и включение открытых весов и данных.
Связанная статья
Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot
Salesforce запустила новую стратегию ИИ для рабочего места, представив специализированных «цифровых помощников», интегрированных в беседы Slack, сообщила компания в понедельник.Новый инструмент, Agent
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе
Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
Приложение Meta AI представит премиум-уровень и рекламу
Приложение Meta AI вскоре может предложить платную подписку, аналогичную предложениям конкурентов, таких как OpenAI, Google и Microsoft. Во время отчета о доходах за первый квартал 2025 года генеральн
Комментарии (52)
DouglasMartínez
18 августа 2025 г., 18:01:00 GMT+03:00
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
0
StephenRoberts
1 августа 2025 г., 5:48:18 GMT+03:00
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
0
AnthonyRoberts
24 апреля 2025 г., 11:35:07 GMT+03:00
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
0
JohnRoberts
23 апреля 2025 г., 3:03:45 GMT+03:00
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀
0
BillyAdams
23 апреля 2025 г., 2:54:38 GMT+03:00
O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀
0
ChristopherTaylor
23 апреля 2025 г., 0:27:44 GMT+03:00
¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀
0
Пока Meta сталкивается с пристальным вниманием к своей последней семейной модели Llama 4, Nvidia тихо представила новую полностью открытую большую языковую модель (LLM), основанную на более ранней модели Meta Llama-3.1-405B-Instruct. Названная Llama-3.1-Nemotron-Ultra-253B-v1, эта модель обладает 253 миллиардами параметров и разработана для превосходства в сложных рассуждениях, следовании инструкциям и рабочих процессах AI-ассистентов. Nvidia впервые намекнула на эту модель во время своей ежегодной конференции GPU Technology Conference (GTC) в марте.
Выпуск подчеркивает продолжающуюся приверженность Nvidia повышению производительности за счет архитектурных инноваций и тщательных процессов пост-обучения. Анонсированная 7 апреля 2025 года, код модели, веса и данные пост-обучения теперь свободно доступны на Hugging Face. Она разработана для плавного переключения между сложными задачами рассуждения и более простыми результатами на основе системных подсказок, предоставляя разработчикам гибкость в их приложениях.
Разработана для эффективного вывода
Опираясь на предыдущие усилия Nvidia по оптимизации LLM для вывода, Llama-3.1-Nemotron-Ultra-253B включает процесс поиска нейронной архитектуры (NAS) для уточнения своей архитектуры. Это включает инновационные функции, такие как пропущенные слои внимания, объединенные прямые нейронные сети (FFNs) и переменные коэффициенты сжатия FFN. Эти изменения снижают использование памяти и вычислительные требования модели, что делает ее развертываемой на одном узле 8x H100 GPU без ущерба для качества вывода.
Nvidia утверждает, что эта модель обеспечивает высокую производительность при экономичной стоимости для развертывания в дата-центрах. Она совместима с микроархитектурами Nvidia B100 и Hopper и была протестирована в режимах точности BF16 и FP8.
Пост-обучение для рассуждений и выравнивания
Модель прошла всесторонний режим пост-обучения. Это включало контролируемое тонкое настройка по различным доменам, таким как математика, генерация кода, чат и использование инструментов, с последующим обучением с подкреплением с использованием оптимизации групповой относительной политики (GRPO) для улучшения способностей следования инструкциям и рассуждения.
Дальнейшее уточнение проводилось через фазу дистилляции знаний на 65 миллиардах токенов и непрерывное предварительное обучение на дополнительных 88 миллиардах токенов. Источники обучающих данных включали FineWeb, Buzz-V1.2 и Dolma, с пост-обучающими подсказками и ответами, взятыми как из публичных корпусов, так и из методов синтетической генерации. Этот подход помог модели различать свои режимы рассуждения.
Улучшенная производительность в многочисленных доменах и тестах
При включении режима рассуждения модель показала значительные улучшения в различных тестах. Например, в тесте MATH500 производительность выросла с 80,40% в стандартном режиме до 97,00% с включенным рассуждением. Аналогично, результаты AIME25 подскочили с 16,67% до 72,50%, а результаты LiveCodeBench более чем удвоились, с 29,03% до 66,31%.
Модель также преуспела в задачах, связанных с использованием инструментов, и в общем ответе на вопросы (GPQA), набрав 76,01% в режиме рассуждения по сравнению с 56,60% без него. Эти тесты проводились с максимальной длиной последовательности 32 000 токенов, и каждый тест повторялся до 16 раз для точности.
По сравнению с современной моделью MoE DeepSeek R1, которая имеет 671 миллиард параметров, модель Nvidia держится на равных, несмотря на меньшее количество параметров. Она превосходит DeepSeek R1 в задачах, таких как GPQA (76,01 против 71,5), IFEval следование инструкциям (89,45 против 83,3) и задачи кодирования LiveCodeBench (66,31 против 65,9). Однако DeepSeek R1 немного опережает в некоторых математических оценках, особенно в AIME25 (79,8 против 72,50) и MATH500 (97,3 против 97,00).
Эти результаты показывают, что плотная модель Nvidia может соответствовать или превосходить модели MoE в рассуждениях и общем выравнивании инструкций, хотя немного отстает в категориях с интенсивной математикой.
Использование и интеграция
Модель легко интегрируется с библиотекой Hugging Face Transformers (рекомендуется версия 4.48.3) и поддерживает последовательности до 128 000 токенов. Разработчики могут переключать поведение рассуждения с помощью системных подсказок и выбирать стратегии декодирования в зависимости от потребностей задачи. Для задач рассуждения Nvidia предлагает использовать выборку температуры (0,6) с значением top-p 0,95, в то время как для детерминированных выходов рекомендуется жадное декодирование.
Llama-3.1-Nemotron-Ultra-253B поддерживает многоязычные приложения, включая английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Она хорошо подходит для различных случаев использования LLM, таких как разработка чат-ботов, рабочие процессы AI-агентов, генерация с дополненным извлечением (RAG) и генерация кода.
Лицензирована для коммерческого использования
Выпущена под лицензией Nvidia Open Model License и регулируется соглашением о лицензии сообщества Llama 3.1, модель готова для коммерческих приложений. Nvidia подчеркивает важность ответственного развития AI, призывая команды оценивать выравнивание, безопасность и предвзятость модели для их конкретных случаев использования.
Олексий Кучаев, директор Nvidia по пост-обучению AI-моделей, поделился восторгом от этого открытого выпуска на X, подчеркнув плотный дизайн 253B с переключаемыми возможностями рассуждения и включение открытых весов и данных.



Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀




Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎




Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀




¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀




O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀




¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀












