Meta's Model Model Clardmarks: Вводятся в заблуждение?

Итак, Meta представила свою новую модель ИИ, Maverick, в выходные, и она уже вызывает ажиотаж, заняв второе место в LM Arena. Знаете, это место, где люди выступают в роли судей и присяжных, сравнивая различные модели ИИ и выбирая своих фаворитов. Но подождите, тут есть подвох! Оказывается, версия Maverick, которая демонстрируется в LM Arena, не совсем совпадает с той, которую вы можете скачать и использовать как разработчик.
Некоторые внимательные исследователи ИИ на X (да, это платформа, ранее известная как Twitter) заметили, что Meta назвала версию для LM Arena «экспериментальной чат-версией». А если заглянуть на сайт Llama, там есть таблица, которая раскрывает правду, сообщая, что тестирование проводилось с «Llama 4 Maverick, оптимизированной для разговорного стиля». Мы уже говорили об этом раньше, но LM Arena — это не совсем золотой стандарт для измерения производительности ИИ. Большинство компаний, занимающихся ИИ, не модифицируют свои модели только ради того, чтобы лучше пройти этот тест — или, по крайней мере, они этого не признают.
Дело в том, что когда вы настраиваете модель, чтобы она преуспела в тесте, но затем выпускаете другую «ванильную» версию для публики, разработчикам сложно понять, насколько хорошо модель будет работать в реальных сценариях. К тому же, это немного вводит в заблуждение, правда? Тесты, несмотря на их недостатки, должны давать нам четкое представление о том, что модель может и чего не может делать в различных задачах.
Исследователи на X быстро заметили значительные различия между Maverick, которую можно скачать, и той, что представлена в LM Arena. Версия в Arena, похоже, активно использует эмодзи и любит давать длинные, затянутые ответы.
Окей, Llama 4 определённо немного странная, лол, что это за город болтовни pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 6 апреля 2025
по какой-то причине модель Llama 4 в Arena использует намного больше эмодзи
на together.ai она кажется лучше: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) 6 апреля 2025
Мы обратились к Meta и организаторам Chatbot Arena, которые управляют LM Arena, чтобы узнать, что они скажут по этому поводу. Следите за обновлениями!
Связанная статья
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace
Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
Meta заключила контракт на поставку миллионов процессоров Amazon для искусственного интеллекта
Компания Amazon заключила важное партнерское соглашение с Meta, вновь сделав ставку на свои собственные чипы, разработанные по индивидуальному заказу. Как подтвердила Amazon в пятницу, Meta согласилас
Рост объемов добычи природного газа компанией Meta может обеспечить энергией энергосистему Южной Дакоты
Центры обработки данных стали настолько масштабными, что их потребление электроэнергии теперь сопоставимо с потреблением целых штатов США. Возьмем, к примеру, центр обработки данных Hyperion AI компан
Рекомендации по связанным специальным темам
Комментарии (37)
メタのAIベンチマークって怪しくない?🤔 人間が好みで評価するランダムなランキングより、実用的なテストの方が信用できると思う。結局ベンチマークゲームに夢中になる企業より、実際に役立つAIを作ってる会社の方が価値あるよね。 #AIベンチマーク
Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?
Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!
मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!
메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔

Итак, Meta представила свою новую модель ИИ, Maverick, в выходные, и она уже вызывает ажиотаж, заняв второе место в LM Arena. Знаете, это место, где люди выступают в роли судей и присяжных, сравнивая различные модели ИИ и выбирая своих фаворитов. Но подождите, тут есть подвох! Оказывается, версия Maverick, которая демонстрируется в LM Arena, не совсем совпадает с той, которую вы можете скачать и использовать как разработчик.
Некоторые внимательные исследователи ИИ на X (да, это платформа, ранее известная как Twitter) заметили, что Meta назвала версию для LM Arena «экспериментальной чат-версией». А если заглянуть на сайт Llama, там есть таблица, которая раскрывает правду, сообщая, что тестирование проводилось с «Llama 4 Maverick, оптимизированной для разговорного стиля». Мы уже говорили об этом раньше, но LM Arena — это не совсем золотой стандарт для измерения производительности ИИ. Большинство компаний, занимающихся ИИ, не модифицируют свои модели только ради того, чтобы лучше пройти этот тест — или, по крайней мере, они этого не признают.
Дело в том, что когда вы настраиваете модель, чтобы она преуспела в тесте, но затем выпускаете другую «ванильную» версию для публики, разработчикам сложно понять, насколько хорошо модель будет работать в реальных сценариях. К тому же, это немного вводит в заблуждение, правда? Тесты, несмотря на их недостатки, должны давать нам четкое представление о том, что модель может и чего не может делать в различных задачах.
Исследователи на X быстро заметили значительные различия между Maverick, которую можно скачать, и той, что представлена в LM Arena. Версия в Arena, похоже, активно использует эмодзи и любит давать длинные, затянутые ответы.
Окей, Llama 4 определённо немного странная, лол, что это за город болтовни pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 6 апреля 2025
по какой-то причине модель Llama 4 в Arena использует намного больше эмодзи
— Tech Dev Notes (@techdevnotes) 6 апреля 2025
на together.ai она кажется лучше: pic.twitter.com/f74ODX4zTt
Мы обратились к Meta и организаторам Chatbot Arena, которые управляют LM Arena, чтобы узнать, что они скажут по этому поводу. Следите за обновлениями!
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace
Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
Meta заключила контракт на поставку миллионов процессоров Amazon для искусственного интеллекта
Компания Amazon заключила важное партнерское соглашение с Meta, вновь сделав ставку на свои собственные чипы, разработанные по индивидуальному заказу. Как подтвердила Amazon в пятницу, Meta согласилас
Рост объемов добычи природного газа компанией Meta может обеспечить энергией энергосистему Южной Дакоты
Центры обработки данных стали настолько масштабными, что их потребление электроэнергии теперь сопоставимо с потреблением целых штатов США. Возьмем, к примеру, центр обработки данных Hyperion AI компан
メタのAIベンチマークって怪しくない?🤔 人間が好みで評価するランダムなランキングより、実用的なテストの方が信用できると思う。結局ベンチマークゲームに夢中になる企業より、実際に役立つAIを作ってる会社の方が価値あるよね。 #AIベンチマーク
Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?
Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!
मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!
메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔





Дом






