вариант
Дом
Новости
3 способа Meta's Llama 3.1 - это аванс для Gen AI

3 способа Meta's Llama 3.1 - это аванс для Gen AI

15 апреля 2025 г.
107

3 способа Meta's Llama 3.1 - это аванс для Gen AI

Во вторник Meta приоткрыла завесу над последним дополнением к своему семейству больших языковых моделей Llama, представив Llama 3.1. Компания с гордостью называет Llama 3.1 первой открытой "передовой моделью", термином, обычно используемым для самых продвинутых моделей ИИ.

Llama 3.1 представлена в различных размерах, но именно гигантская версия "405B" действительно привлекает внимание. С поразительными 405 миллиардами нейронных "весов" или параметров, она превосходит другие известные модели с открытым исходным кодом, такие как Nemotron 4 от Nvidia, Gemma 2 от Google и Mixtral. Еще более интригующими являются три ключевых решения, принятых командой Meta при создании этого гиганта.

Эти решения представляют собой настоящий мастер-класс по инженерии нейронных сетей, формируя основу того, как была создана и обучена Llama 3.1 405B. Они также опираются на достижения в эффективности, продемонстрированные Meta с Llama 2, которая показала перспективные способы сокращения общего вычислительного бюджета для глубокого обучения.

Во-первых, Llama 3.1 405B отказалась от подхода "смесь экспертов", который Google использует для своей закрытой модели Gemini 1.5, а Mistral — для Mixtral. Этот метод предполагает создание различных комбинаций нейронных весов, некоторые из которых можно отключать для упрощения предсказаний. Вместо этого исследователи Meta придерживались проверенной временем архитектуры "декодер-ONLY трансформерной модели", ставшей стандартом с момента ее внедрения Google в 2017 году. Они утверждают, что этот выбор обеспечивает более стабильный процесс обучения.

Во-вторых, чтобы повысить производительность этой простой трансформерной модели, команда Meta разработала умный многоэтапный подход к обучению. Всем известно, что баланс между объемом обучающих данных и вычислительными ресурсами может существенно повлиять на качество предсказаний. Однако традиционные "законы масштабирования", которые прогнозируют производительность модели на основе размера и данных, не обязательно отражают, насколько хорошо модель справится с "последующими" задачами, такими как тесты на рассуждение.

Поэтому Meta разработала собственный закон масштабирования. Они увеличили объем обучающих данных и вычислительных ресурсов, тестируя различные комбинации в несколько итераций, чтобы определить, насколько хорошо итоговая модель справляется с ключевыми последующими задачами. Этот тщательный процесс помог им найти оптимальное сочетание, что привело к выбору 405 миллиардов параметров для их флагманской модели. Финальное обучение проводилось с использованием 16 000 чипов Nvidia H100 GPU на сервере Grand Teton AI от Meta с использованием сложной системы для параллельного выполнения данных и весов.

Третье новшество заключается в постобучении. После каждого раунда обучения Llama 3.1 проходит строгий процесс, основанный на человеческой обратной связи, аналогичный тому, что делают OpenAI и другие для улучшения результатов своих моделей. Это включает "контролируемую тонкую настройку", при которой модель учится различать желательные и нежелательные результаты на основе человеческих предпочтений.

Затем Meta добавляет изюминку с помощью "оптимизации прямых предпочтений" (DPO), более эффективной версии обучения с подкреплением на основе человеческой обратной связи, разработанной учеными из Стэнфордского университета в этом году. Они также обучают Llama 3.1 использовать "инструменты", такие как внешние поисковые системы, показывая ей примеры запросов, решенных с помощью вызовов API, что повышает ее способности к "нулевому" использованию инструментов.

Для борьбы с "галлюцинациями" команда подбирает специальные обучающие данные и создает оригинальные пары вопросов и ответов, тонко настраивая модель так, чтобы она отвечала только на то, что знает, и отказывалась от ответов, в которых не уверена.

На протяжении всего процесса разработки исследователи Meta подчеркивали простоту, заявляя, что высококачественные данные, масштабирование и прямолинейные подходы стабильно давали лучшие результаты. Несмотря на исследование более сложных архитектур и методов обучения, они обнаружили, что дополнительная сложность не оправдывает преимуществ.

Масштаб Llama 3.1 405B является знаковым для моделей с открытым исходным кодом, которые обычно уступают своим коммерческим аналогам с закрытым кодом. Генеральный директор Meta Марк Цукерберг подчеркнул экономические преимущества, отметив, что разработчики могут выполнять выводы на Llama 3.1 405B за половину стоимости использования моделей, таких как GPT-4o.

Цукерберг также выступил за ИИ с открытым исходным кодом как за естественное развитие программного обеспечения, сравнивая его с эволюцией Unix от проприетарной системы к более продвинутой, безопасной и широкой экосистеме благодаря разработке с открытым кодом.

Однако, как отмечает Стивен Воган-Николс из ZDNET, в публикации кода Meta на Hugging Face отсутствуют некоторые детали, а лицензия на код более ограничительна, чем типичные лицензии на открытый код. Таким образом, хотя Llama 3.1 и является в некотором роде открытой, она не полностью соответствует этому статусу. Тем не менее, объем деталей о процессе ее обучения — это освежающее изменение, особенно когда такие гиганты, как OpenAI и Google, становятся все более скрытными в отношении своих моделей с закрытым кодом.

Связанная статья
Роль ИИ в хип-хопе: Инструмент для инноваций или творческий ярлык? Роль ИИ в хип-хопе: Инструмент для инноваций или творческий ярлык? Искусственный интеллект меняет повседневную жизнь, и музыкальная сцена тоже ощущает эти изменения. В хип-хопе новые системы ИИ стремятся преобразовать создание треков, написание стихов и живые выступл
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
SoftBank приобретает завод Sharp за $676 млн для центра данных ИИ в Японии SoftBank приобретает завод Sharp за $676 млн для центра данных ИИ в Японии SoftBank продвигает свою цель создания крупного центра ИИ в Японии, как самостоятельно, так и через партнерства, такие как OpenAI. Технический гигант подтвердил в пятницу, что инвестирует $676 миллион
Комментарии (26)
ThomasBaker
ThomasBaker 31 июля 2025 г., 4:41:20 GMT+03:00

Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎

AlbertThomas
AlbertThomas 22 апреля 2025 г., 18:18:49 GMT+03:00

O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀

GaryGonzalez
GaryGonzalez 22 апреля 2025 г., 11:13:48 GMT+03:00

ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀

AnthonyPerez
AnthonyPerez 22 апреля 2025 г., 10:26:53 GMT+03:00

¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

JustinAnderson
JustinAnderson 21 апреля 2025 г., 0:42:32 GMT+03:00

¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪

WilliamAllen
WilliamAllen 20 апреля 2025 г., 4:52:01 GMT+03:00

Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀

Вернуться к вершине
OR