вариант
Дом
Новости
Meta защищает релиз Llama 4, цитирует ошибки в качестве причины отчетов о смешанных качествах

Meta защищает релиз Llama 4, цитирует ошибки в качестве причины отчетов о смешанных качествах

23 апреля 2025 г.
72

На выходных Meta, Powerhouse, стоящая за Facebook, Instagram, WhatsApp и Quest VR, удивили всех, обнародовав свою последнюю модель языка искусственного интеллекта, Llama 4. Не только одна, но три новых версии были введены, каждая из них обладает улучшенными возможностями благодаря архитектуре «смеси экспертов» и новым подходом к тренировке, называемым фиксированными гиперпаметорами. Более того, все три модели поставляются с обширными контекстными окнами, что позволяет им обрабатывать больше информации в одном взаимодействии.

Несмотря на волнение релиза, реакция сообщества ИИ была в лучшем случае теплой. В субботу Meta сделала две из этих моделей, Llama 4 Scout и Llama 4 Maverick, доступные для загрузки и использования, но ответ был далек от энтузиазма.

Llama 4 Sparks путаница и критика среди пользователей искусственного интеллекта

Неоверный пост на форуме 1Point3Acres, популярном китайском языковом сообществе в Северной Америке, нашла путь к R/Localllama Subreddit на Reddit. Пост, предположительно от исследователя в организации Meta Genai, утверждал, что Llama 4 недооценен на внутренних сторонних показателях. Он предположил, что руководство Meta манипулировало результатами, смешивая испытательные наборы во время после тренировки, чтобы соответствовать различным показателям и представить благоприятный результат. Подлинность этого требования была встречена скептицизмом, и Meta еще не ответила на запросы от VentureBeat.

Тем не менее, сомнения в результате выступления Llama 4 не остановились на этом. На x пользователь @cto_junior выразил неверие в производительности модели, сославшись на независимый тест, где Llama 4 Maverick набрал всего 16% на эталоне Polyglot, который проверяет задачи кодирования. Этот показатель значительно ниже, чем у старых моделей аналогичного размера, таких как Deepseek V3 и Claude 3.7 Sonnet.

Доктор философии ИИ и автор Андрий Бурков также взял на себя X, чтобы подвергнуть сомнению окно модели 10 миллионов ток-контекстов для Llama 4 Scout, заявив, что она «виртуальная», потому что модель не была обучена подсказкам длиннее 256 тыс. Токенов. Он предупредил, что отправка более длинных подсказок, вероятно, приведет к низкокачественным результатам.

В Subreddit R/Localllama пользователь DR_karminski обменивал разочарование с Llama 4, сравнив свою плохую производительность с неэризованной моделью V3 Deepseek по таким задачам, как моделирование движений мяча в гепхагоне.

Натан Ламберт, бывший исследователь мета -исследователя и нынешний старший научный сотрудник в AI2, раскритиковал сравнения Meta в своем блоге Interconnects Supack. Он отметил, что модель Llama 4 Maverick, используемая в рекламных материалах Meta, отличалась от одной публичной, оптимизированной вместо этого для разговорности. Ламберт отметил несоответствие, сказав: «Подлый. Результаты ниже являются фальшивыми, и сообщество Meta является небольшим, чтобы не выпустить модель, которую они использовали для создания своего основного маркетингового толчка». Он добавил, что, хотя рекламная модель «тантировала техническую репутацию релиза, потому что ее персонаж - ювенильная,« фактическая модель, доступная на других платформах, была «довольно умной и имеет разумный тон».

Мета отвечает, отрицая «обучение на тестовых наборах» и ссылаясь на ошибки в реализации из -за быстрого развертывания

В ответ на критику и обвинения, вице-президент Meta и глава Genai Ахмад аль-Дале отправился в X для решения проблем. Он выразил энтузиазм по поводу взаимодействия сообщества с Llama 4, но признал сообщения о непоследовательном качестве в разных услугах. Он объяснил эти проблемы с быстрым развертыванием и временем, необходимым для стабилизации общественных реализаций. Аль-Дал твердо отрицал обвинения в обучении по тестовым наборам, подчеркнув, что качество переменной была вызвана ошибками реализации, а не каким-либо проступком. Он подтвердил веру Meta в значительные достижения моделей Llama 4 и их приверженность сотрудничеству с сообществом для реализации их потенциала.

Тем не менее, ответ мало что сделал для подавления разочарований сообщества, и многие все еще сообщали о плохой производительности и требуют большей технической документации о процессах обучения моделей. Этот релиз столкнулся с большим количеством проблем, чем предыдущие версии LLAMA, поднимая вопросы о его развитии и развертывании.

Время этого релиза примечательно, так как оно следует за отъездом Джоэл -Пино, вице -президента Meta's Vp Research, которая объявила о своем выходе на LinkedIn на прошлой неделе с благодарностью за свое время в компании. Pineau также продвигал семейство Model Llama 4 на выходных.

Поскольку Llama 4 продолжает быть принята другими поставщиками выводов с смешанными результатами, ясно, что первоначальный выпуск не был успешным, на что Meta, возможно, надеялась. Предстоящий Meta Llamacon 29 апреля, который станет первым собранием для сторонних разработчиков модельного семейства, вероятно, станет очагом дискуссий и дебатов. Мы будем внимательно следить за событиями, так что следите за обновлениями.

Связанная статья
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
Вернуться к вершине
OR