вариант
Дом
Новости
Meta's Model Model Clardmarks: Вводятся в заблуждение?

Meta's Model Model Clardmarks: Вводятся в заблуждение?

10 апреля 2025 г.
145

Meta's Model Model Clardmarks: Вводятся в заблуждение?

Итак, Meta представила свою новую модель ИИ, Maverick, в выходные, и она уже вызывает ажиотаж, заняв второе место в LM Arena. Знаете, это место, где люди выступают в роли судей и присяжных, сравнивая различные модели ИИ и выбирая своих фаворитов. Но подождите, тут есть подвох! Оказывается, версия Maverick, которая демонстрируется в LM Arena, не совсем совпадает с той, которую вы можете скачать и использовать как разработчик.

Некоторые внимательные исследователи ИИ на X (да, это платформа, ранее известная как Twitter) заметили, что Meta назвала версию для LM Arena «экспериментальной чат-версией». А если заглянуть на сайт Llama, там есть таблица, которая раскрывает правду, сообщая, что тестирование проводилось с «Llama 4 Maverick, оптимизированной для разговорного стиля». Мы уже говорили об этом раньше, но LM Arena — это не совсем золотой стандарт для измерения производительности ИИ. Большинство компаний, занимающихся ИИ, не модифицируют свои модели только ради того, чтобы лучше пройти этот тест — или, по крайней мере, они этого не признают.

Дело в том, что когда вы настраиваете модель, чтобы она преуспела в тесте, но затем выпускаете другую «ванильную» версию для публики, разработчикам сложно понять, насколько хорошо модель будет работать в реальных сценариях. К тому же, это немного вводит в заблуждение, правда? Тесты, несмотря на их недостатки, должны давать нам четкое представление о том, что модель может и чего не может делать в различных задачах.

Исследователи на X быстро заметили значительные различия между Maverick, которую можно скачать, и той, что представлена в LM Arena. Версия в Arena, похоже, активно использует эмодзи и любит давать длинные, затянутые ответы.

Окей, Llama 4 определённо немного странная, лол, что это за город болтовни pic.twitter.com/y3GvhbVz65

— Nathan Lambert (@natolambert) 6 апреля 2025

по какой-то причине модель Llama 4 в Arena использует намного больше эмодзи

на together.ai она кажется лучше: pic.twitter.com/f74ODX4zTt

— Tech Dev Notes (@techdevnotes) 6 апреля 2025

Мы обратились к Meta и организаторам Chatbot Arena, которые управляют LM Arena, чтобы узнать, что они скажут по этому поводу. Следите за обновлениями!

Связанная статья
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
Meta заключила контракт на поставку миллионов процессоров Amazon для искусственного интеллекта Meta заключила контракт на поставку миллионов процессоров Amazon для искусственного интеллекта Компания Amazon заключила важное партнерское соглашение с Meta, вновь сделав ставку на свои собственные чипы, разработанные по индивидуальному заказу. Как подтвердила Amazon в пятницу, Meta согласилас
Рост объемов добычи природного газа компанией Meta может обеспечить энергией энергосистему Южной Дакоты Рост объемов добычи природного газа компанией Meta может обеспечить энергией энергосистему Южной Дакоты Центры обработки данных стали настолько масштабными, что их потребление электроэнергии теперь сопоставимо с потреблением целых штатов США. Возьмем, к примеру, центр обработки данных Hyperion AI компан
Рекомендации по связанным специальным темам
Бизнес Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы
Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов
xix.ai
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
Комментарии (37)
0/500
RalphGarcia
RalphGarcia 12 октября 2025 г., 21:30:34 GMT+03:00

メタのAIベンチマークって怪しくない?🤔 人間が好みで評価するランダムなランキングより、実用的なテストの方が信用できると思う。結局ベンチマークゲームに夢中になる企業より、実際に役立つAIを作ってる会社の方が価値あるよね。 #AIベンチマーク

ScottWalker
ScottWalker 28 июля 2025 г., 4:20:54 GMT+03:00

Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?

KennethMartin
KennethMartin 21 апреля 2025 г., 13:14:21 GMT+03:00

Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!

WalterThomas
WalterThomas 21 апреля 2025 г., 5:55:14 GMT+03:00

मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!

JohnYoung
JohnYoung 18 апреля 2025 г., 18:03:42 GMT+03:00

메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔

JohnHernández
JohnHernández 17 апреля 2025 г., 19:58:48 GMT+03:00

Meta's Maverick AI model snagging second place on LM Arena is pretty cool, but the benchmarks might be a bit off! 🤔 It's fun to see these models go head-to-head, but I'm not sure if the results are totally fair. Worth keeping an eye on! 👀

OR