3 способа Meta's Llama 3.1 - это аванс для Gen AI

Во вторник Meta приоткрыла завесу над последним дополнением к своему семейству больших языковых моделей Llama, представив Llama 3.1. Компания с гордостью называет Llama 3.1 первой открытой "передовой моделью", термином, обычно используемым для самых продвинутых моделей ИИ.
Llama 3.1 представлена в различных размерах, но именно гигантская версия "405B" действительно привлекает внимание. С поразительными 405 миллиардами нейронных "весов" или параметров, она превосходит другие известные модели с открытым исходным кодом, такие как Nemotron 4 от Nvidia, Gemma 2 от Google и Mixtral. Еще более интригующими являются три ключевых решения, принятых командой Meta при создании этого гиганта.
Эти решения представляют собой настоящий мастер-класс по инженерии нейронных сетей, формируя основу того, как была создана и обучена Llama 3.1 405B. Они также опираются на достижения в эффективности, продемонстрированные Meta с Llama 2, которая показала перспективные способы сокращения общего вычислительного бюджета для глубокого обучения.
Во-первых, Llama 3.1 405B отказалась от подхода "смесь экспертов", который Google использует для своей закрытой модели Gemini 1.5, а Mistral — для Mixtral. Этот метод предполагает создание различных комбинаций нейронных весов, некоторые из которых можно отключать для упрощения предсказаний. Вместо этого исследователи Meta придерживались проверенной временем архитектуры "декодер-ONLY трансформерной модели", ставшей стандартом с момента ее внедрения Google в 2017 году. Они утверждают, что этот выбор обеспечивает более стабильный процесс обучения.
Во-вторых, чтобы повысить производительность этой простой трансформерной модели, команда Meta разработала умный многоэтапный подход к обучению. Всем известно, что баланс между объемом обучающих данных и вычислительными ресурсами может существенно повлиять на качество предсказаний. Однако традиционные "законы масштабирования", которые прогнозируют производительность модели на основе размера и данных, не обязательно отражают, насколько хорошо модель справится с "последующими" задачами, такими как тесты на рассуждение.
Поэтому Meta разработала собственный закон масштабирования. Они увеличили объем обучающих данных и вычислительных ресурсов, тестируя различные комбинации в несколько итераций, чтобы определить, насколько хорошо итоговая модель справляется с ключевыми последующими задачами. Этот тщательный процесс помог им найти оптимальное сочетание, что привело к выбору 405 миллиардов параметров для их флагманской модели. Финальное обучение проводилось с использованием 16 000 чипов Nvidia H100 GPU на сервере Grand Teton AI от Meta с использованием сложной системы для параллельного выполнения данных и весов.
Третье новшество заключается в постобучении. После каждого раунда обучения Llama 3.1 проходит строгий процесс, основанный на человеческой обратной связи, аналогичный тому, что делают OpenAI и другие для улучшения результатов своих моделей. Это включает "контролируемую тонкую настройку", при которой модель учится различать желательные и нежелательные результаты на основе человеческих предпочтений.
Затем Meta добавляет изюминку с помощью "оптимизации прямых предпочтений" (DPO), более эффективной версии обучения с подкреплением на основе человеческой обратной связи, разработанной учеными из Стэнфордского университета в этом году. Они также обучают Llama 3.1 использовать "инструменты", такие как внешние поисковые системы, показывая ей примеры запросов, решенных с помощью вызовов API, что повышает ее способности к "нулевому" использованию инструментов.
Для борьбы с "галлюцинациями" команда подбирает специальные обучающие данные и создает оригинальные пары вопросов и ответов, тонко настраивая модель так, чтобы она отвечала только на то, что знает, и отказывалась от ответов, в которых не уверена.
На протяжении всего процесса разработки исследователи Meta подчеркивали простоту, заявляя, что высококачественные данные, масштабирование и прямолинейные подходы стабильно давали лучшие результаты. Несмотря на исследование более сложных архитектур и методов обучения, они обнаружили, что дополнительная сложность не оправдывает преимуществ.
Масштаб Llama 3.1 405B является знаковым для моделей с открытым исходным кодом, которые обычно уступают своим коммерческим аналогам с закрытым кодом. Генеральный директор Meta Марк Цукерберг подчеркнул экономические преимущества, отметив, что разработчики могут выполнять выводы на Llama 3.1 405B за половину стоимости использования моделей, таких как GPT-4o.
Цукерберг также выступил за ИИ с открытым исходным кодом как за естественное развитие программного обеспечения, сравнивая его с эволюцией Unix от проприетарной системы к более продвинутой, безопасной и широкой экосистеме благодаря разработке с открытым кодом.
Однако, как отмечает Стивен Воган-Николс из ZDNET, в публикации кода Meta на Hugging Face отсутствуют некоторые детали, а лицензия на код более ограничительна, чем типичные лицензии на открытый код. Таким образом, хотя Llama 3.1 и является в некотором роде открытой, она не полностью соответствует этому статусу. Тем не менее, объем деталей о процессе ее обучения — это освежающее изменение, особенно когда такие гиганты, как OpenAI и Google, становятся все более скрытными в отношении своих моделей с закрытым кодом.
Связанная статья
Anthropic разрешила судебное дело о пиратстве книг, созданных искусственным интеллектом
Компания Anthropic достигла разрешения значительного спора с американскими авторами по поводу авторских прав, согласившись на предложенное урегулирование коллективного иска, которое позволит избежать
Meta делится доходами с владельцами моделей искусственного интеллекта Llama, говорится в заявлении
Хотя в июле 2023 года генеральный директор Meta Марк Цукерберг подчеркнул, что "продажа доступа" не является бизнес-моделью для моделей ИИ Llama, недавно обнародованные судебные документы показывают,
Разблокируйте 99 % скрытых данных, теперь оптимизированных для искусственного интеллекта
На протяжении многих поколений организации разных отраслей понимали, что накопленная ими информация представляет собой преобразующий актив, способный улучшить взаимодействие с клиентами и сформировать
Комментарии (27)
DavidRodriguez
30 августа 2025 г., 19:30:32 GMT+03:00
Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐
0
ThomasBaker
31 июля 2025 г., 4:41:20 GMT+03:00
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
0
AlbertThomas
22 апреля 2025 г., 18:18:49 GMT+03:00
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
0
GaryGonzalez
22 апреля 2025 г., 11:13:48 GMT+03:00
ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀
0
AnthonyPerez
22 апреля 2025 г., 10:26:53 GMT+03:00
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀
0
JustinAnderson
21 апреля 2025 г., 0:42:32 GMT+03:00
¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪
0
Во вторник Meta приоткрыла завесу над последним дополнением к своему семейству больших языковых моделей Llama, представив Llama 3.1. Компания с гордостью называет Llama 3.1 первой открытой "передовой моделью", термином, обычно используемым для самых продвинутых моделей ИИ.
Llama 3.1 представлена в различных размерах, но именно гигантская версия "405B" действительно привлекает внимание. С поразительными 405 миллиардами нейронных "весов" или параметров, она превосходит другие известные модели с открытым исходным кодом, такие как Nemotron 4 от Nvidia, Gemma 2 от Google и Mixtral. Еще более интригующими являются три ключевых решения, принятых командой Meta при создании этого гиганта.
Эти решения представляют собой настоящий мастер-класс по инженерии нейронных сетей, формируя основу того, как была создана и обучена Llama 3.1 405B. Они также опираются на достижения в эффективности, продемонстрированные Meta с Llama 2, которая показала перспективные способы сокращения общего вычислительного бюджета для глубокого обучения.
Во-первых, Llama 3.1 405B отказалась от подхода "смесь экспертов", который Google использует для своей закрытой модели Gemini 1.5, а Mistral — для Mixtral. Этот метод предполагает создание различных комбинаций нейронных весов, некоторые из которых можно отключать для упрощения предсказаний. Вместо этого исследователи Meta придерживались проверенной временем архитектуры "декодер-ONLY трансформерной модели", ставшей стандартом с момента ее внедрения Google в 2017 году. Они утверждают, что этот выбор обеспечивает более стабильный процесс обучения.
Во-вторых, чтобы повысить производительность этой простой трансформерной модели, команда Meta разработала умный многоэтапный подход к обучению. Всем известно, что баланс между объемом обучающих данных и вычислительными ресурсами может существенно повлиять на качество предсказаний. Однако традиционные "законы масштабирования", которые прогнозируют производительность модели на основе размера и данных, не обязательно отражают, насколько хорошо модель справится с "последующими" задачами, такими как тесты на рассуждение.
Поэтому Meta разработала собственный закон масштабирования. Они увеличили объем обучающих данных и вычислительных ресурсов, тестируя различные комбинации в несколько итераций, чтобы определить, насколько хорошо итоговая модель справляется с ключевыми последующими задачами. Этот тщательный процесс помог им найти оптимальное сочетание, что привело к выбору 405 миллиардов параметров для их флагманской модели. Финальное обучение проводилось с использованием 16 000 чипов Nvidia H100 GPU на сервере Grand Teton AI от Meta с использованием сложной системы для параллельного выполнения данных и весов.
Третье новшество заключается в постобучении. После каждого раунда обучения Llama 3.1 проходит строгий процесс, основанный на человеческой обратной связи, аналогичный тому, что делают OpenAI и другие для улучшения результатов своих моделей. Это включает "контролируемую тонкую настройку", при которой модель учится различать желательные и нежелательные результаты на основе человеческих предпочтений.
Затем Meta добавляет изюминку с помощью "оптимизации прямых предпочтений" (DPO), более эффективной версии обучения с подкреплением на основе человеческой обратной связи, разработанной учеными из Стэнфордского университета в этом году. Они также обучают Llama 3.1 использовать "инструменты", такие как внешние поисковые системы, показывая ей примеры запросов, решенных с помощью вызовов API, что повышает ее способности к "нулевому" использованию инструментов.
Для борьбы с "галлюцинациями" команда подбирает специальные обучающие данные и создает оригинальные пары вопросов и ответов, тонко настраивая модель так, чтобы она отвечала только на то, что знает, и отказывалась от ответов, в которых не уверена.
На протяжении всего процесса разработки исследователи Meta подчеркивали простоту, заявляя, что высококачественные данные, масштабирование и прямолинейные подходы стабильно давали лучшие результаты. Несмотря на исследование более сложных архитектур и методов обучения, они обнаружили, что дополнительная сложность не оправдывает преимуществ.
Масштаб Llama 3.1 405B является знаковым для моделей с открытым исходным кодом, которые обычно уступают своим коммерческим аналогам с закрытым кодом. Генеральный директор Meta Марк Цукерберг подчеркнул экономические преимущества, отметив, что разработчики могут выполнять выводы на Llama 3.1 405B за половину стоимости использования моделей, таких как GPT-4o.
Цукерберг также выступил за ИИ с открытым исходным кодом как за естественное развитие программного обеспечения, сравнивая его с эволюцией Unix от проприетарной системы к более продвинутой, безопасной и широкой экосистеме благодаря разработке с открытым кодом.
Однако, как отмечает Стивен Воган-Николс из ZDNET, в публикации кода Meta на Hugging Face отсутствуют некоторые детали, а лицензия на код более ограничительна, чем типичные лицензии на открытый код. Таким образом, хотя Llama 3.1 и является в некотором роде открытой, она не полностью соответствует этому статусу. Тем не менее, объем деталей о процессе ее обучения — это освежающее изменение, особенно когда такие гиганты, как OpenAI и Google, становятся все более скрытными в отношении своих моделей с закрытым кодом.



Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐




Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎




O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀




ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀




¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀




¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪












