Новый Llama-3.1 Nemotron Ultra Outperforms DeepSeek R1 в половине размера

Пока Meta сталкивается с пристальным вниманием к своей последней семейной модели Llama 4, Nvidia тихо представила новую полностью открытую большую языковую модель (LLM), основанную на более ранней модели Meta Llama-3.1-405B-Instruct. Названная Llama-3.1-Nemotron-Ultra-253B-v1, эта модель обладает 253 миллиардами параметров и разработана для превосходства в сложных рассуждениях, следовании инструкциям и рабочих процессах AI-ассистентов. Nvidia впервые намекнула на эту модель во время своей ежегодной конференции GPU Technology Conference (GTC) в марте.
Выпуск подчеркивает продолжающуюся приверженность Nvidia повышению производительности за счет архитектурных инноваций и тщательных процессов пост-обучения. Анонсированная 7 апреля 2025 года, код модели, веса и данные пост-обучения теперь свободно доступны на Hugging Face. Она разработана для плавного переключения между сложными задачами рассуждения и более простыми результатами на основе системных подсказок, предоставляя разработчикам гибкость в их приложениях.
Разработана для эффективного вывода
Опираясь на предыдущие усилия Nvidia по оптимизации LLM для вывода, Llama-3.1-Nemotron-Ultra-253B включает процесс поиска нейронной архитектуры (NAS) для уточнения своей архитектуры. Это включает инновационные функции, такие как пропущенные слои внимания, объединенные прямые нейронные сети (FFNs) и переменные коэффициенты сжатия FFN. Эти изменения снижают использование памяти и вычислительные требования модели, что делает ее развертываемой на одном узле 8x H100 GPU без ущерба для качества вывода.
Nvidia утверждает, что эта модель обеспечивает высокую производительность при экономичной стоимости для развертывания в дата-центрах. Она совместима с микроархитектурами Nvidia B100 и Hopper и была протестирована в режимах точности BF16 и FP8.
Пост-обучение для рассуждений и выравнивания
Модель прошла всесторонний режим пост-обучения. Это включало контролируемое тонкое настройка по различным доменам, таким как математика, генерация кода, чат и использование инструментов, с последующим обучением с подкреплением с использованием оптимизации групповой относительной политики (GRPO) для улучшения способностей следования инструкциям и рассуждения.
Дальнейшее уточнение проводилось через фазу дистилляции знаний на 65 миллиардах токенов и непрерывное предварительное обучение на дополнительных 88 миллиардах токенов. Источники обучающих данных включали FineWeb, Buzz-V1.2 и Dolma, с пост-обучающими подсказками и ответами, взятыми как из публичных корпусов, так и из методов синтетической генерации. Этот подход помог модели различать свои режимы рассуждения.
Улучшенная производительность в многочисленных доменах и тестах
При включении режима рассуждения модель показала значительные улучшения в различных тестах. Например, в тесте MATH500 производительность выросла с 80,40% в стандартном режиме до 97,00% с включенным рассуждением. Аналогично, результаты AIME25 подскочили с 16,67% до 72,50%, а результаты LiveCodeBench более чем удвоились, с 29,03% до 66,31%.
Модель также преуспела в задачах, связанных с использованием инструментов, и в общем ответе на вопросы (GPQA), набрав 76,01% в режиме рассуждения по сравнению с 56,60% без него. Эти тесты проводились с максимальной длиной последовательности 32 000 токенов, и каждый тест повторялся до 16 раз для точности.
По сравнению с современной моделью MoE DeepSeek R1, которая имеет 671 миллиард параметров, модель Nvidia держится на равных, несмотря на меньшее количество параметров. Она превосходит DeepSeek R1 в задачах, таких как GPQA (76,01 против 71,5), IFEval следование инструкциям (89,45 против 83,3) и задачи кодирования LiveCodeBench (66,31 против 65,9). Однако DeepSeek R1 немного опережает в некоторых математических оценках, особенно в AIME25 (79,8 против 72,50) и MATH500 (97,3 против 97,00).
Эти результаты показывают, что плотная модель Nvidia может соответствовать или превосходить модели MoE в рассуждениях и общем выравнивании инструкций, хотя немного отстает в категориях с интенсивной математикой.
Использование и интеграция
Модель легко интегрируется с библиотекой Hugging Face Transformers (рекомендуется версия 4.48.3) и поддерживает последовательности до 128 000 токенов. Разработчики могут переключать поведение рассуждения с помощью системных подсказок и выбирать стратегии декодирования в зависимости от потребностей задачи. Для задач рассуждения Nvidia предлагает использовать выборку температуры (0,6) с значением top-p 0,95, в то время как для детерминированных выходов рекомендуется жадное декодирование.
Llama-3.1-Nemotron-Ultra-253B поддерживает многоязычные приложения, включая английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Она хорошо подходит для различных случаев использования LLM, таких как разработка чат-ботов, рабочие процессы AI-агентов, генерация с дополненным извлечением (RAG) и генерация кода.
Лицензирована для коммерческого использования
Выпущена под лицензией Nvidia Open Model License и регулируется соглашением о лицензии сообщества Llama 3.1, модель готова для коммерческих приложений. Nvidia подчеркивает важность ответственного развития AI, призывая команды оценивать выравнивание, безопасность и предвзятость модели для их конкретных случаев использования.
Олексий Кучаев, директор Nvidia по пост-обучению AI-моделей, поделился восторгом от этого открытого выпуска на X, подчеркнув плотный дизайн 253B с переключаемыми возможностями рассуждения и включение открытых весов и данных.
Связанная статья
ElevenLabs объявила о привлечении в качестве новых инвесторов компаний BlackRock, Джейми Фокса и Евы Лонгории
Компания ElevenLabs, занимающаяся разработкой голосовых ИИ-технологий, раскрыла имена дополнительных инвесторов, участвовавших в раунде финансирования серии D на сумму 500 млн долларов, о котором перв
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace
Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
Meta заключила контракт на поставку миллионов процессоров Amazon для искусственного интеллекта
Компания Amazon заключила важное партнерское соглашение с Meta, вновь сделав ставку на свои собственные чипы, разработанные по индивидуальному заказу. Как подтвердила Amazon в пятницу, Meta согласилас
Рекомендации по связанным специальным темам
Комментарии (54)
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀

Пока Meta сталкивается с пристальным вниманием к своей последней семейной модели Llama 4, Nvidia тихо представила новую полностью открытую большую языковую модель (LLM), основанную на более ранней модели Meta Llama-3.1-405B-Instruct. Названная Llama-3.1-Nemotron-Ultra-253B-v1, эта модель обладает 253 миллиардами параметров и разработана для превосходства в сложных рассуждениях, следовании инструкциям и рабочих процессах AI-ассистентов. Nvidia впервые намекнула на эту модель во время своей ежегодной конференции GPU Technology Conference (GTC) в марте.
Выпуск подчеркивает продолжающуюся приверженность Nvidia повышению производительности за счет архитектурных инноваций и тщательных процессов пост-обучения. Анонсированная 7 апреля 2025 года, код модели, веса и данные пост-обучения теперь свободно доступны на Hugging Face. Она разработана для плавного переключения между сложными задачами рассуждения и более простыми результатами на основе системных подсказок, предоставляя разработчикам гибкость в их приложениях.
Разработана для эффективного вывода
Опираясь на предыдущие усилия Nvidia по оптимизации LLM для вывода, Llama-3.1-Nemotron-Ultra-253B включает процесс поиска нейронной архитектуры (NAS) для уточнения своей архитектуры. Это включает инновационные функции, такие как пропущенные слои внимания, объединенные прямые нейронные сети (FFNs) и переменные коэффициенты сжатия FFN. Эти изменения снижают использование памяти и вычислительные требования модели, что делает ее развертываемой на одном узле 8x H100 GPU без ущерба для качества вывода.
Nvidia утверждает, что эта модель обеспечивает высокую производительность при экономичной стоимости для развертывания в дата-центрах. Она совместима с микроархитектурами Nvidia B100 и Hopper и была протестирована в режимах точности BF16 и FP8.
Пост-обучение для рассуждений и выравнивания
Модель прошла всесторонний режим пост-обучения. Это включало контролируемое тонкое настройка по различным доменам, таким как математика, генерация кода, чат и использование инструментов, с последующим обучением с подкреплением с использованием оптимизации групповой относительной политики (GRPO) для улучшения способностей следования инструкциям и рассуждения.
Дальнейшее уточнение проводилось через фазу дистилляции знаний на 65 миллиардах токенов и непрерывное предварительное обучение на дополнительных 88 миллиардах токенов. Источники обучающих данных включали FineWeb, Buzz-V1.2 и Dolma, с пост-обучающими подсказками и ответами, взятыми как из публичных корпусов, так и из методов синтетической генерации. Этот подход помог модели различать свои режимы рассуждения.
Улучшенная производительность в многочисленных доменах и тестах
При включении режима рассуждения модель показала значительные улучшения в различных тестах. Например, в тесте MATH500 производительность выросла с 80,40% в стандартном режиме до 97,00% с включенным рассуждением. Аналогично, результаты AIME25 подскочили с 16,67% до 72,50%, а результаты LiveCodeBench более чем удвоились, с 29,03% до 66,31%.
Модель также преуспела в задачах, связанных с использованием инструментов, и в общем ответе на вопросы (GPQA), набрав 76,01% в режиме рассуждения по сравнению с 56,60% без него. Эти тесты проводились с максимальной длиной последовательности 32 000 токенов, и каждый тест повторялся до 16 раз для точности.
По сравнению с современной моделью MoE DeepSeek R1, которая имеет 671 миллиард параметров, модель Nvidia держится на равных, несмотря на меньшее количество параметров. Она превосходит DeepSeek R1 в задачах, таких как GPQA (76,01 против 71,5), IFEval следование инструкциям (89,45 против 83,3) и задачи кодирования LiveCodeBench (66,31 против 65,9). Однако DeepSeek R1 немного опережает в некоторых математических оценках, особенно в AIME25 (79,8 против 72,50) и MATH500 (97,3 против 97,00).
Эти результаты показывают, что плотная модель Nvidia может соответствовать или превосходить модели MoE в рассуждениях и общем выравнивании инструкций, хотя немного отстает в категориях с интенсивной математикой.
Использование и интеграция
Модель легко интегрируется с библиотекой Hugging Face Transformers (рекомендуется версия 4.48.3) и поддерживает последовательности до 128 000 токенов. Разработчики могут переключать поведение рассуждения с помощью системных подсказок и выбирать стратегии декодирования в зависимости от потребностей задачи. Для задач рассуждения Nvidia предлагает использовать выборку температуры (0,6) с значением top-p 0,95, в то время как для детерминированных выходов рекомендуется жадное декодирование.
Llama-3.1-Nemotron-Ultra-253B поддерживает многоязычные приложения, включая английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Она хорошо подходит для различных случаев использования LLM, таких как разработка чат-ботов, рабочие процессы AI-агентов, генерация с дополненным извлечением (RAG) и генерация кода.
Лицензирована для коммерческого использования
Выпущена под лицензией Nvidia Open Model License и регулируется соглашением о лицензии сообщества Llama 3.1, модель готова для коммерческих приложений. Nvidia подчеркивает важность ответственного развития AI, призывая команды оценивать выравнивание, безопасность и предвзятость модели для их конкретных случаев использования.
Олексий Кучаев, директор Nvidia по пост-обучению AI-моделей, поделился восторгом от этого открытого выпуска на X, подчеркнув плотный дизайн 253B с переключаемыми возможностями рассуждения и включение открытых весов и данных.
ElevenLabs объявила о привлечении в качестве новых инвесторов компаний BlackRock, Джейми Фокса и Евы Лонгории
Компания ElevenLabs, занимающаяся разработкой голосовых ИИ-технологий, раскрыла имена дополнительных инвесторов, участвовавших в раунде финансирования серии D на сумму 500 млн долларов, о котором перв
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace
Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
Meta заключила контракт на поставку миллионов процессоров Amazon для искусственного интеллекта
Компания Amazon заключила важное партнерское соглашение с Meta, вновь сделав ставку на свои собственные чипы, разработанные по индивидуальному заказу. Как подтвердила Amazon в пятницу, Meta согласилас
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀





Дом






