3 способа Meta's Llama 3.1 - это аванс для Gen AI

Во вторник Meta приоткрыла завесу над последним дополнением к своему семейству больших языковых моделей Llama, представив Llama 3.1. Компания с гордостью называет Llama 3.1 первой открытой "передовой моделью", термином, обычно используемым для самых продвинутых моделей ИИ.
Llama 3.1 представлена в различных размерах, но именно гигантская версия "405B" действительно привлекает внимание. С поразительными 405 миллиардами нейронных "весов" или параметров, она превосходит другие известные модели с открытым исходным кодом, такие как Nemotron 4 от Nvidia, Gemma 2 от Google и Mixtral. Еще более интригующими являются три ключевых решения, принятых командой Meta при создании этого гиганта.
Эти решения представляют собой настоящий мастер-класс по инженерии нейронных сетей, формируя основу того, как была создана и обучена Llama 3.1 405B. Они также опираются на достижения в эффективности, продемонстрированные Meta с Llama 2, которая показала перспективные способы сокращения общего вычислительного бюджета для глубокого обучения.
Во-первых, Llama 3.1 405B отказалась от подхода "смесь экспертов", который Google использует для своей закрытой модели Gemini 1.5, а Mistral — для Mixtral. Этот метод предполагает создание различных комбинаций нейронных весов, некоторые из которых можно отключать для упрощения предсказаний. Вместо этого исследователи Meta придерживались проверенной временем архитектуры "декодер-ONLY трансформерной модели", ставшей стандартом с момента ее внедрения Google в 2017 году. Они утверждают, что этот выбор обеспечивает более стабильный процесс обучения.
Во-вторых, чтобы повысить производительность этой простой трансформерной модели, команда Meta разработала умный многоэтапный подход к обучению. Всем известно, что баланс между объемом обучающих данных и вычислительными ресурсами может существенно повлиять на качество предсказаний. Однако традиционные "законы масштабирования", которые прогнозируют производительность модели на основе размера и данных, не обязательно отражают, насколько хорошо модель справится с "последующими" задачами, такими как тесты на рассуждение.
Поэтому Meta разработала собственный закон масштабирования. Они увеличили объем обучающих данных и вычислительных ресурсов, тестируя различные комбинации в несколько итераций, чтобы определить, насколько хорошо итоговая модель справляется с ключевыми последующими задачами. Этот тщательный процесс помог им найти оптимальное сочетание, что привело к выбору 405 миллиардов параметров для их флагманской модели. Финальное обучение проводилось с использованием 16 000 чипов Nvidia H100 GPU на сервере Grand Teton AI от Meta с использованием сложной системы для параллельного выполнения данных и весов.
Третье новшество заключается в постобучении. После каждого раунда обучения Llama 3.1 проходит строгий процесс, основанный на человеческой обратной связи, аналогичный тому, что делают OpenAI и другие для улучшения результатов своих моделей. Это включает "контролируемую тонкую настройку", при которой модель учится различать желательные и нежелательные результаты на основе человеческих предпочтений.
Затем Meta добавляет изюминку с помощью "оптимизации прямых предпочтений" (DPO), более эффективной версии обучения с подкреплением на основе человеческой обратной связи, разработанной учеными из Стэнфордского университета в этом году. Они также обучают Llama 3.1 использовать "инструменты", такие как внешние поисковые системы, показывая ей примеры запросов, решенных с помощью вызовов API, что повышает ее способности к "нулевому" использованию инструментов.
Для борьбы с "галлюцинациями" команда подбирает специальные обучающие данные и создает оригинальные пары вопросов и ответов, тонко настраивая модель так, чтобы она отвечала только на то, что знает, и отказывалась от ответов, в которых не уверена.
На протяжении всего процесса разработки исследователи Meta подчеркивали простоту, заявляя, что высококачественные данные, масштабирование и прямолинейные подходы стабильно давали лучшие результаты. Несмотря на исследование более сложных архитектур и методов обучения, они обнаружили, что дополнительная сложность не оправдывает преимуществ.
Масштаб Llama 3.1 405B является знаковым для моделей с открытым исходным кодом, которые обычно уступают своим коммерческим аналогам с закрытым кодом. Генеральный директор Meta Марк Цукерберг подчеркнул экономические преимущества, отметив, что разработчики могут выполнять выводы на Llama 3.1 405B за половину стоимости использования моделей, таких как GPT-4o.
Цукерберг также выступил за ИИ с открытым исходным кодом как за естественное развитие программного обеспечения, сравнивая его с эволюцией Unix от проприетарной системы к более продвинутой, безопасной и широкой экосистеме благодаря разработке с открытым кодом.
Однако, как отмечает Стивен Воган-Николс из ZDNET, в публикации кода Meta на Hugging Face отсутствуют некоторые детали, а лицензия на код более ограничительна, чем типичные лицензии на открытый код. Таким образом, хотя Llama 3.1 и является в некотором роде открытой, она не полностью соответствует этому статусу. Тем не менее, объем деталей о процессе ее обучения — это освежающее изменение, особенно когда такие гиганты, как OpenAI и Google, становятся все более скрытными в отношении своих моделей с закрытым кодом.
Связанная статья
Cursor Composer 2 против Claude Opus 4.6: тест производительности разжигает новую дискуссию о программировании с помощью ИИ
19 марта компания Cursor официально представила свою собственную модель кодирования — Composer 2. Это объявление сразу же вызвало бурную дискуссию в сообществе разработчиков — по данным Cursor, Compos
На конференции StrictlyVC в Сан-Франциско соберутся руководители компаний TDK Ventures, Replit и других
Первое в этом году мероприятие StrictlyVC состоится в Сан-Франциско раньше, чем вы думаете. Еще есть билеты на нашу встречу 30 апреля в Sentro Filipino Cultural Center, где выступит впечатляющий соста
Notion превращает свое рабочее пространство в центр для ИИ-агентов
Компания Notion, разработчик программного обеспечения для повышения продуктивности, вступает в эру агентов.Во время прямой трансляции анонса продукта в среду компания Notion, наиболее известная своим
Рекомендации по связанным специальным темам
Комментарии (27)
Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

Во вторник Meta приоткрыла завесу над последним дополнением к своему семейству больших языковых моделей Llama, представив Llama 3.1. Компания с гордостью называет Llama 3.1 первой открытой "передовой моделью", термином, обычно используемым для самых продвинутых моделей ИИ.
Llama 3.1 представлена в различных размерах, но именно гигантская версия "405B" действительно привлекает внимание. С поразительными 405 миллиардами нейронных "весов" или параметров, она превосходит другие известные модели с открытым исходным кодом, такие как Nemotron 4 от Nvidia, Gemma 2 от Google и Mixtral. Еще более интригующими являются три ключевых решения, принятых командой Meta при создании этого гиганта.
Эти решения представляют собой настоящий мастер-класс по инженерии нейронных сетей, формируя основу того, как была создана и обучена Llama 3.1 405B. Они также опираются на достижения в эффективности, продемонстрированные Meta с Llama 2, которая показала перспективные способы сокращения общего вычислительного бюджета для глубокого обучения.
Во-первых, Llama 3.1 405B отказалась от подхода "смесь экспертов", который Google использует для своей закрытой модели Gemini 1.5, а Mistral — для Mixtral. Этот метод предполагает создание различных комбинаций нейронных весов, некоторые из которых можно отключать для упрощения предсказаний. Вместо этого исследователи Meta придерживались проверенной временем архитектуры "декодер-ONLY трансформерной модели", ставшей стандартом с момента ее внедрения Google в 2017 году. Они утверждают, что этот выбор обеспечивает более стабильный процесс обучения.
Во-вторых, чтобы повысить производительность этой простой трансформерной модели, команда Meta разработала умный многоэтапный подход к обучению. Всем известно, что баланс между объемом обучающих данных и вычислительными ресурсами может существенно повлиять на качество предсказаний. Однако традиционные "законы масштабирования", которые прогнозируют производительность модели на основе размера и данных, не обязательно отражают, насколько хорошо модель справится с "последующими" задачами, такими как тесты на рассуждение.
Поэтому Meta разработала собственный закон масштабирования. Они увеличили объем обучающих данных и вычислительных ресурсов, тестируя различные комбинации в несколько итераций, чтобы определить, насколько хорошо итоговая модель справляется с ключевыми последующими задачами. Этот тщательный процесс помог им найти оптимальное сочетание, что привело к выбору 405 миллиардов параметров для их флагманской модели. Финальное обучение проводилось с использованием 16 000 чипов Nvidia H100 GPU на сервере Grand Teton AI от Meta с использованием сложной системы для параллельного выполнения данных и весов.
Третье новшество заключается в постобучении. После каждого раунда обучения Llama 3.1 проходит строгий процесс, основанный на человеческой обратной связи, аналогичный тому, что делают OpenAI и другие для улучшения результатов своих моделей. Это включает "контролируемую тонкую настройку", при которой модель учится различать желательные и нежелательные результаты на основе человеческих предпочтений.
Затем Meta добавляет изюминку с помощью "оптимизации прямых предпочтений" (DPO), более эффективной версии обучения с подкреплением на основе человеческой обратной связи, разработанной учеными из Стэнфордского университета в этом году. Они также обучают Llama 3.1 использовать "инструменты", такие как внешние поисковые системы, показывая ей примеры запросов, решенных с помощью вызовов API, что повышает ее способности к "нулевому" использованию инструментов.
Для борьбы с "галлюцинациями" команда подбирает специальные обучающие данные и создает оригинальные пары вопросов и ответов, тонко настраивая модель так, чтобы она отвечала только на то, что знает, и отказывалась от ответов, в которых не уверена.
На протяжении всего процесса разработки исследователи Meta подчеркивали простоту, заявляя, что высококачественные данные, масштабирование и прямолинейные подходы стабильно давали лучшие результаты. Несмотря на исследование более сложных архитектур и методов обучения, они обнаружили, что дополнительная сложность не оправдывает преимуществ.
Масштаб Llama 3.1 405B является знаковым для моделей с открытым исходным кодом, которые обычно уступают своим коммерческим аналогам с закрытым кодом. Генеральный директор Meta Марк Цукерберг подчеркнул экономические преимущества, отметив, что разработчики могут выполнять выводы на Llama 3.1 405B за половину стоимости использования моделей, таких как GPT-4o.
Цукерберг также выступил за ИИ с открытым исходным кодом как за естественное развитие программного обеспечения, сравнивая его с эволюцией Unix от проприетарной системы к более продвинутой, безопасной и широкой экосистеме благодаря разработке с открытым кодом.
Однако, как отмечает Стивен Воган-Николс из ZDNET, в публикации кода Meta на Hugging Face отсутствуют некоторые детали, а лицензия на код более ограничительна, чем типичные лицензии на открытый код. Таким образом, хотя Llama 3.1 и является в некотором роде открытой, она не полностью соответствует этому статусу. Тем не менее, объем деталей о процессе ее обучения — это освежающее изменение, особенно когда такие гиганты, как OpenAI и Google, становятся все более скрытными в отношении своих моделей с закрытым кодом.
Cursor Composer 2 против Claude Opus 4.6: тест производительности разжигает новую дискуссию о программировании с помощью ИИ
19 марта компания Cursor официально представила свою собственную модель кодирования — Composer 2. Это объявление сразу же вызвало бурную дискуссию в сообществе разработчиков — по данным Cursor, Compos
На конференции StrictlyVC в Сан-Франциско соберутся руководители компаний TDK Ventures, Replit и других
Первое в этом году мероприятие StrictlyVC состоится в Сан-Франциско раньше, чем вы думаете. Еще есть билеты на нашу встречу 30 апреля в Sentro Filipino Cultural Center, где выступит впечатляющий соста
Notion превращает свое рабочее пространство в центр для ИИ-агентов
Компания Notion, разработчик программного обеспечения для повышения продуктивности, вступает в эру агентов.Во время прямой трансляции анонса продукта в среду компания Notion, наиболее известная своим
Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀





Дом






