Benchmarks du modèle AI de Meta: trompeur?

Ainsi, Meta a lancé son nouveau modèle d'IA, Maverick, pendant le week-end, et il fait déjà des vagues en décrochant la deuxième place sur LM Arena. Vous savez, c'est l'endroit où les humains jouent les juges et les jurés, comparant différents modèles d'IA et choisissant leurs favoris. Mais, attendez une seconde, il y a un rebondissement ! Il s'avère que la version de Maverick qui parade sur LM Arena n'est pas tout à fait la même que celle que vous pouvez télécharger et utiliser en tant que développeur.
Certains chercheurs en IA aux yeux de lynx sur X (oui, la plateforme autrefois connue sous le nom de Twitter) ont remarqué que Meta a qualifié la version de LM Arena de "version expérimentale de chat". Et si vous jetez un œil au site web de Llama, il y a un tableau qui révèle tout, indiquant que les tests ont été réalisés avec "Llama 4 Maverick optimisé pour la conversation". Nous en avons déjà parlé, mais LM Arena n'est pas exactement l'étalon-or pour mesurer les performances des IA. La plupart des entreprises d'IA ne modifient pas leurs modèles juste pour obtenir un meilleur score à ce test — ou du moins, elles ne l'admettent pas.
Le problème, c'est que lorsqu'on ajuste un modèle pour exceller dans un benchmark mais qu'on publie ensuite une version "vanille" différente au public, il est difficile pour les développeurs de comprendre comment le modèle se comportera réellement dans des scénarios du monde réel. De plus, c'est un peu trompeur, non ? Les benchmarks, imparfaits qu'ils soient, devraient nous donner une image claire de ce qu'un modèle peut et ne peut pas faire à travers différentes tâches.
Les chercheurs sur X ont rapidement remarqué des différences significatives entre le Maverick que vous pouvez télécharger et celui sur LM Arena. La version Arena semble être très portée sur les emojis et adore donner des réponses longues et détaillées.
Okay Llama 4 is def a littled cooked lol, what is this yap city pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) April 6, 2025
for some reason, the Llama 4 model in Arena uses a lot more Emojis
on together . ai, it seems better: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) April 6, 2025
Nous avons contacté Meta et les responsables de Chatbot Arena, qui gèrent LM Arena, pour savoir ce qu'ils ont à dire à ce sujet. Restez à l'écoute !
Article connexe
Meta AI répond désormais aux messages des acheteurs sur Facebook Marketplace
Facebook Marketplace lance de nouvelles fonctionnalités basées sur l'IA de Meta, notamment des réponses automatiques aux demandes des acheteurs, a annoncé jeudi l'entreprise. La plateforme u
Meta signe un contrat portant sur plusieurs millions de processeurs IA d'Amazon
Amazon a conclu un partenariat majeur avec Meta, en s'appuyant une nouvelle fois sur ses propres puces conçues sur mesure. Meta a accepté de déployer des millions de puces AWS Graviton pour répondre à
L'essor du gaz naturel chez Meta pourrait alimenter le réseau électrique du Dakota du Sud
Les centres de données ont pris une telle ampleur que leur consommation d'électricité équivaut désormais à celle de certains États américains. Prenons l'exemple du centre de données Hyperion AI de Met
Recommandations de sujets spéciaux liés
commentaires (37)
メタのAIベンチマークって怪しくない?🤔 人間が好みで評価するランダムなランキングより、実用的なテストの方が信用できると思う。結局ベンチマークゲームに夢中になる企業より、実際に役立つAIを作ってる会社の方が価値あるよね。 #AIベンチマーク
Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?
Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!
मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!
메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔

Ainsi, Meta a lancé son nouveau modèle d'IA, Maverick, pendant le week-end, et il fait déjà des vagues en décrochant la deuxième place sur LM Arena. Vous savez, c'est l'endroit où les humains jouent les juges et les jurés, comparant différents modèles d'IA et choisissant leurs favoris. Mais, attendez une seconde, il y a un rebondissement ! Il s'avère que la version de Maverick qui parade sur LM Arena n'est pas tout à fait la même que celle que vous pouvez télécharger et utiliser en tant que développeur.
Certains chercheurs en IA aux yeux de lynx sur X (oui, la plateforme autrefois connue sous le nom de Twitter) ont remarqué que Meta a qualifié la version de LM Arena de "version expérimentale de chat". Et si vous jetez un œil au site web de Llama, il y a un tableau qui révèle tout, indiquant que les tests ont été réalisés avec "Llama 4 Maverick optimisé pour la conversation". Nous en avons déjà parlé, mais LM Arena n'est pas exactement l'étalon-or pour mesurer les performances des IA. La plupart des entreprises d'IA ne modifient pas leurs modèles juste pour obtenir un meilleur score à ce test — ou du moins, elles ne l'admettent pas.
Le problème, c'est que lorsqu'on ajuste un modèle pour exceller dans un benchmark mais qu'on publie ensuite une version "vanille" différente au public, il est difficile pour les développeurs de comprendre comment le modèle se comportera réellement dans des scénarios du monde réel. De plus, c'est un peu trompeur, non ? Les benchmarks, imparfaits qu'ils soient, devraient nous donner une image claire de ce qu'un modèle peut et ne peut pas faire à travers différentes tâches.
Les chercheurs sur X ont rapidement remarqué des différences significatives entre le Maverick que vous pouvez télécharger et celui sur LM Arena. La version Arena semble être très portée sur les emojis et adore donner des réponses longues et détaillées.
Okay Llama 4 is def a littled cooked lol, what is this yap city pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) April 6, 2025
for some reason, the Llama 4 model in Arena uses a lot more Emojis
— Tech Dev Notes (@techdevnotes) April 6, 2025
on together . ai, it seems better: pic.twitter.com/f74ODX4zTt
Nous avons contacté Meta et les responsables de Chatbot Arena, qui gèrent LM Arena, pour savoir ce qu'ils ont à dire à ce sujet. Restez à l'écoute !
Meta AI répond désormais aux messages des acheteurs sur Facebook Marketplace
Facebook Marketplace lance de nouvelles fonctionnalités basées sur l'IA de Meta, notamment des réponses automatiques aux demandes des acheteurs, a annoncé jeudi l'entreprise. La plateforme u
Meta signe un contrat portant sur plusieurs millions de processeurs IA d'Amazon
Amazon a conclu un partenariat majeur avec Meta, en s'appuyant une nouvelle fois sur ses propres puces conçues sur mesure. Meta a accepté de déployer des millions de puces AWS Graviton pour répondre à
L'essor du gaz naturel chez Meta pourrait alimenter le réseau électrique du Dakota du Sud
Les centres de données ont pris une telle ampleur que leur consommation d'électricité équivaut désormais à celle de certains États américains. Prenons l'exemple du centre de données Hyperion AI de Met
メタのAIベンチマークって怪しくない?🤔 人間が好みで評価するランダムなランキングより、実用的なテストの方が信用できると思う。結局ベンチマークゲームに夢中になる企業より、実際に役立つAIを作ってる会社の方が価値あるよね。 #AIベンチマーク
Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?
Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!
मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!
메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔





Maison






