вариант
Дом
Новости
Meta представляет Llama 4 с длинным контекстом и моделями Maverick, 2T Parameter Bhemoth скоро появится!

Meta представляет Llama 4 с длинным контекстом и моделями Maverick, 2T Parameter Bhemoth скоро появится!

16 апреля 2025 г.
111

В январе 2025 года мир ИИ был потрясен, когда относительно неизвестный китайский стартап в области ИИ, DeepSeek, бросил вызов с их революционной моделью логического вывода с открытым исходным кодом, DeepSeek R1. Эта модель не только превзошла таких гигантов, как Meta, но и сделала это при значительно меньших затратах — по слухам, всего за несколько миллионов долларов. Это тот бюджет, который Meta могла бы потратить на пару своих лидеров команд ИИ! Эта новость вызвала у Meta некоторую панику, особенно потому, что их последняя модель Llama, версия 3.3, выпущенная всего месяц назад, уже выглядела немного устаревшей.

Сегодня основатель и генеральный директор Meta, Марк Цукерберг, объявил в Instagram о запуске новой серии Llama 4. Эта серия включает Llama 4 Maverick с 400 миллиардами параметров и Llama 4 Scout с 109 миллиардами параметров, оба доступны для разработчиков для загрузки и немедленного экспериментирования на llama.com и Hugging Face. Также представлен предварительный обзор колоссальной модели с 2 триллионами параметров, Llama 4 Behemoth, которая все еще находится в стадии обучения, и дата выпуска пока не объявлена.

Мультимодальные и длинноконтекстные возможности

Одной из выдающихся особенностей этих новых моделей является их мультимодальность. Они не только работают с текстом, но также могут обрабатывать видео и изображения. Кроме того, они имеют невероятно длинные контекстные окна — 1 миллион токенов для Maverick и впечатляющие 10 миллионов для Scout. Для сравнения, это как обработка до 1500 и 15 000 страниц текста за один раз! Представьте возможности для таких областей, как медицина, наука или литература, где нужно обрабатывать и генерировать огромные объемы информации.

Архитектура смеси экспертов

Все три модели Llama 4 используют архитектуру "смеси экспертов" (MoE), технику, которая набирает популярность благодаря таким компаниям, как OpenAI и Mistral. Этот подход объединяет несколько меньших, специализированных моделей в одну большую и более эффективную модель. Каждая модель Llama 4 состоит из 128 различных экспертов, что означает, что только необходимый эксперт и общий эксперт обрабатывают каждый токен, делая модели более экономичными и быстрыми в работе. Meta утверждает, что Llama 4 Maverick можно запускать на одном хосте Nvidia H100 DGX, что упрощает развертывание.

Экономичность и доступность

Meta стремится сделать эти модели доступными. И Scout, и Maverick доступны для самостоятельного хостинга, и они даже поделились привлекательными оценками затрат. Например, стоимость вывода для Llama 4 Maverick составляет от $0.19 до $0.49 за миллион токенов, что является выгодной сделкой по сравнению с другими проприетарными моделями, такими как GPT-4o. А если вы хотите использовать эти модели через облачного провайдера, Groq уже предложил конкурентоспособные цены.

Улучшенные способности к логическому выводу и MetaP

Эти модели созданы с учетом логического вывода, программирования и решения задач. Meta использовала некоторые умные техники во время обучения для усиления этих возможностей, такие как удаление простых запросов и использование непрерывного обучения с подкреплением с постепенно усложняющимися запросами. Они также представили MetaP, новую технику, которая позволяет устанавливать гиперпараметры на одной модели и применять их к другим, экономя время и деньги. Это кардинально меняет ситуацию, особенно для обучения таких монстров, как Behemoth, который использует 32 тысячи графических процессоров и обрабатывает более 30 триллионов токенов.

Производительность и сравнения

Итак, как эти модели показывают себя? Цукерберг четко обозначил свое видение лидерства ИИ с открытым исходным кодом, и Llama 4 — большой шаг в этом направлении. Хотя они, возможно, не устанавливают новых рекордов производительности по всем параметрам, они определенно находятся в числе лидеров своего класса. Например, Llama 4 Behemoth превосходит некоторых тяжеловесов в определенных тестах, хотя все еще отстает от DeepSeek R1 и серии o1 от OpenAI в других.

Llama 4 Behemoth

  • Превосходит GPT-4.5, Gemini 2.0 Pro и Claude Sonnet 3.7 в тестах MATH-500 (95.0), GPQA Diamond (73.7) и MMLU Pro (82.2)

График производительности Llama 4 Behemoth

Llama 4 Maverick

  • Превосходит GPT-4o и Gemini 2.0 Flash в большинстве тестов мультимодального логического вывода, таких как ChartQA, DocVQA, MathVista и MMMU
  • Конкурентоспособен с DeepSeek v3.1, используя менее половины активных параметров
  • Результаты тестов: ChartQA (90.0), DocVQA (94.4), MMLU Pro (80.5)

График производительности Llama 4 Maverick

Llama 4 Scout

  • Соответствует или превосходит модели, такие как Mistral 3.1, Gemini 2.0 Flash-Lite и Gemma 3 в тестах DocVQA (94.4), MMLU Pro (74.3) и MathVista (70.7)
  • Непревзойденная длина контекста в 10 миллионов токенов — идеально для длинных документов и кодовых баз

График производительности Llama 4 Scout

Сравнение с DeepSeek R1

Когда речь заходит о высшей лиге, Llama 4 Behemoth держится достойно, но не совсем вытесняет DeepSeek R1 или серию o1 от OpenAI. Она немного отстает в тестах MATH-500 и MMLU, но опережает в GPQA Diamond. Тем не менее, очевидно, что Llama 4 — сильный конкурент в области логического вывода.

ТестLlama 4 BehemothDeepSeek R1OpenAI o1-1217
MATH-50095.097.396.4
GPQA Diamond73.771.575.7
MMLU82.290.891.8

Безопасность и политическая нейтральность

Meta также не забыла о безопасности. Они представили инструменты, такие как Llama Guard, Prompt Guard и CyberSecEval, чтобы поддерживать порядок. И они делают акцент на снижении политической предвзятости, стремясь к более сбалансированному подходу, особенно после того, как Цукерберг отметил поддержку республиканской политики после выборов 2024 года.

Будущее с Llama 4

С Llama 4 Meta раздвигает границы эффективности, открытости и производительности в ИИ. Будь то создание ИИ-помощников корпоративного уровня или глубокое погружение в исследования ИИ, Llama 4 предлагает мощные и гибкие варианты, которые приоритетно ориентированы на логический вывод. Очевидно, что Meta стремится сделать ИИ более доступным и влиятельным для всех.

Связанная статья
Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность В то время как крупные технологические корпорации продвигают "агентов" искусственного интеллекта как средства повышения производительности бизнеса, одна некоммерческая организация демонстрирует их пот
Ведущие лаборатории искусственного интеллекта предупреждают, что человечество теряет понимание систем ИИ Ведущие лаборатории искусственного интеллекта предупреждают, что человечество теряет понимание систем ИИ В беспрецедентной демонстрации единства исследователи из OpenAI, Google DeepMind, Anthropic и Meta отложили в сторону конкурентные разногласия, чтобы выступить с коллективным предупреждением об ответс
Облако Google обеспечивает прорыв в научных исследованиях и открытиях Облако Google обеспечивает прорыв в научных исследованиях и открытиях Цифровая революция трансформирует научные методологии благодаря беспрецедентным вычислительным возможностям. Передовые технологии теперь дополняют теоретические основы и лабораторные эксперименты, спо
Комментарии (26)
OwenLewis
OwenLewis 24 августа 2025 г., 16:01:19 GMT+03:00

Llama 4 sounds like a beast! That 10M token context window is wild—imagine analyzing entire books in one go. But can Meta keep up with DeepSeek’s efficiency? Excited for Behemoth, though! 🚀

RogerSanchez
RogerSanchez 24 апреля 2025 г., 22:53:44 GMT+03:00

Llama 4 정말 대단해요! 긴 문맥 스카우트와 마버릭 모델은 놀랍네요. 2T 파라미터의 괴물이 나올 걸 기대하고 있어요. 다만, 설정하는 게 좀 복잡해요. 그래도, AI의 미래가 밝아 보이네요! 🚀

WillieHernández
WillieHernández 24 апреля 2025 г., 3:21:23 GMT+03:00

Llama 4はすごい!長いコンテキストのスカウトやマーベリックモデルは驚異的。2Tパラメータのビーストが出るのを待ちきれない。ただ、設定が少し大変かな。でも、これでAIの未来は明るいね!🚀

GregoryWilson
GregoryWilson 22 апреля 2025 г., 20:23:39 GMT+03:00

MetaのLlama 4は最高ですね!長いコンテキストをスムーズに処理できるのが本当に便利。マーベリックモデルも面白いけど、2Tパラメータのモデルが来るのが楽しみです!🤩✨

BrianThomas
BrianThomas 22 апреля 2025 г., 9:27:50 GMT+03:00

O Llama 4 da Meta é incrível! A função de contexto longo é uma mão na roda para minhas pesquisas. Os modelos Maverick também são legais, mas estou ansioso pelo modelo de 2T parâmetros. Mal posso esperar para ver o que ele pode fazer! 🤯🚀

JohnGarcia
JohnGarcia 22 апреля 2025 г., 6:11:00 GMT+03:00

Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎

Вернуться к вершине
OR