вариант
Дом
Новости
Новый Llama-3.1 Nemotron Ultra Outperforms DeepSeek R1 в половине размера

Новый Llama-3.1 Nemotron Ultra Outperforms DeepSeek R1 в половине размера

13 апреля 2025 г.
75

Новый Llama-3.1 Nemotron Ultra Outperforms DeepSeek R1 в половине размера

В то время как Meta охватывает с помощью внимания, окружающего его последнее семейство моделей Llama 4, Nvidia тихо развернула новую, полностью открытую модель языковой модели (LLM), основанную на более ранней модели Llama-3.1-405b-фактор. Эта модель, названная Llama-3.1-Nemotron-ultra-253B-V1, имеет 253 миллиарда параметров и разработана для преумностей в расширенных рассуждениях, следующих инструкциях и рабочих процессах помощника искусственного интеллекта. Nvidia впервые намекала на эту модель во время ежегодной конференции по технологии GPU (GTC) в марте.

Выпуск подчеркивает постоянную приверженность Nvidia повысить производительность благодаря архитектурным инновациям и тщательному процессам после тренировки. Объявленный 7 апреля 2025 года, код модели, веса и данные после тренировки теперь свободно доступны для обнимающего лица. Он предназначен для беспрепятственного переключения между сложными задачами рассуждений и более простыми выходами на основе системных подсказок, предлагая гибкость разработчиков в своих приложениях.

Разработан для эффективного вывода

Основываясь на предыдущих усилиях Nvidia по оптимизации LLM для вывода, процесс поиска по нейронной архитектуре (NAS) Llama-3.1-Nemotron-Ultra-253b включает в себя процесс поиска нейронной архитектуры, чтобы уточнить свою архитектуру. Это включает в себя инновационные функции, такие как пропущенные слои внимания, сети с плавлеными пластырями (FFN) и переменные коэффициенты сжатия FFN. Эти модификации уменьшают использование памяти модели и вычислительные требования, что делает ее развертываемым на одном узле GPU 8x H100 без ущерба для качества выхода.

Nvidia утверждает, что эта модель обеспечивает надежную производительность, одновременно экономически эффективную для развертывания центров обработки данных. Он совместим с микроархитектурами NVIDIA B100 и Hopper и был протестирован в режимах точности BF16 и FP8.

После тренировки по рассуждениям и выравниванию

Модель прошла всеобъемлющий режим после тренировки. Это включало контролируемую тонкую настройку в различных областях, таких как математика, генерация кода, чат и использование инструментов, за которым следует обучение подкрепления с групповой относительной оптимизацией политики (GRPO) для расширения возможностей для получения инструкций и рассуждений.

Дальнейшая уточнение проходила на этапе дистилляции знаний более 65 миллиардов токенов и постоянную предварительную подготовку на дополнительных 88 миллиардах токена. Источники данных обучения включали FineWeb, Buzz-V1.2 и Dolma, с пост-тренировочными подсказками и ответами, взятыми как из публичных корпоративных, так и из методов синтетической генерации. Этот подход помог модели дифференцировать его режимы рассуждения.

Улучшенная производительность в многочисленных доменах и тестах

При включении для рассуждений модель показала значительные улучшения на различных критериях. Например, на тесте Math500 его производительность выросла с 80,40% в стандартном режиме до 97,00% с рассуждением. Аналогичным образом, оценки AIME25 подскочили с 16,67% до 72,50%, а LiveCodeBench - более чем вдвое, с 29,03% до 66,31%.

Модель также преуспела в задачах на основе инструментов и общем ответе на вопросы (GPQA), набрав 76,01% в режиме рассуждения по сравнению с 56,60% без. Эти тесты проводились с максимальной длиной последовательности 32000 токенов, и каждый тест повторяли до 16 раз для точности.

По сравнению с современной моделью MOE Deepseek R1, которая имеет 671 миллиард параметров, модель NVIDIA сохраняет свои собственные, несмотря на меньшее количество параметров. Он превосходит DeepSeek R1 в таких задачах, как GPQA (76,01 против 71,5), следующую инструкцию (89,45 против 83,3) и задачи кодирования Livecodebench (66,31 против 65,9). Тем не менее, DeepSeek R1 слегка выявляется в определенных оценках математики, в частности AIME25 (79,8 против 72,50) и Math500 (97,3 против 97,00).

Эти результаты показывают, что плотная модель Nvidia может соответствовать или превышать модели MOE в рассуждениях и общем выравнивании инструкций, хотя она слегка отстает в математических категориях.

Использование и интеграция

Модель плавно интегрируется с библиотекой Transformers Transformers, версии 4.48.3) и поддерживает последовательности до 128 000 токенов. Разработчики могут переключать поведение рассуждений, используя системные подсказки и выбрать стратегии декодирования на основе потребностей задач. Для рассуждений NVIDIA предлагает использовать выборку температуры (0,6) со значением TOP-P 0,95, в то время как для детерминированных выходов рекомендуется жадное декодирование.

Llama-3.1-Nemotron-ultra-253b поддерживает многоязычные приложения, включая английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Он хорошо подходит для различных вариантов использования LLM, таких как разработка чат-ботов, рабочие процессы агента искусственного интеллекта, поколение поиска (RAG) и генерация кода.

Лицензирован для коммерческого использования

Выпущенная в соответствии с лицензией Nvidia Open Model и регулируемой Лицензионным соглашением LLAMA 3.1, модель готова к коммерческим приложениям. Nvidia подчеркивает важность ответственного развития ИИ, призывая команды оценить выравнивание, безопасность и предвзятость модели для их конкретных вариантов использования.

Oleksii Kuchaiev, директор Nvidia по пост-тренировке Nvidia, обменивал волнение об этом открытом выпуске на X, подчеркивая его плотный дизайн 253b с возможностями рассуждений, а также включение открытых весов и данных.

Связанная статья
Nvidia предоставляет Omniverse Blueprint для цифровых двойников AI-фабрик Nvidia предоставляет Omniverse Blueprint для цифровых двойников AI-фабрик NVIDIA представляет масштабное расширение Omniverse Blueprint для цифровых двойников AI-фабрикНа Computex 2025 в Тайбэе NVIDIA объявила о значительном расширении Omniverse Blueprint для цифровых двойн
От MIPS до эксафлопсов за несколько десятилетий: Вычислительная мощность стремительно растет, и это преобразит ИИ От MIPS до эксафлопсов за несколько десятилетий: Вычислительная мощность стремительно растет, и это преобразит ИИ На недавней конференции Nvidia GTC технологический гигант представил прорывное достижение: первую систему серверов в одном стоечном шкафу, способную достичь одного эксафлопса. Это ошеломляющие один ми
Внутри скачка ИИ Google: Gemini 2.5 думает глубже, говорит умнее и кодирует быстрее Внутри скачка ИИ Google: Gemini 2.5 думает глубже, говорит умнее и кодирует быстрее Google приближается к своей цели создания универсального ассистента на основе ИИНа мероприятии Google I/O этого года компания представила значительные обновления серии Gemini 2.5,
Комментарии (50)
KeithNelson
KeithNelson 14 апреля 2025 г., 0:00:00 GMT

Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!

RalphMitchell
RalphMitchell 14 апреля 2025 г., 0:00:00 GMT

Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!

GeorgeWilson
GeorgeWilson 14 апреля 2025 г., 0:00:00 GMT

Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!

GeorgeNelson
GeorgeNelson 14 апреля 2025 г., 0:00:00 GMT

O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!

GeorgeMiller
GeorgeMiller 14 апреля 2025 г., 0:00:00 GMT

El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!

BrianLewis
BrianLewis 14 апреля 2025 г., 0:00:00 GMT

Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!

Вернуться к вершине
OR