Les débats sur l'analyse comparative de l'IA ont atteint Pokémon

Même le monde adoré de Pokémon n'est pas à l'abri du drame entourant les benchmarks d'IA. Un récent post viral sur X a suscité un vif engouement, affirmant que le dernier modèle Gemini de Google avait surpassé le modèle Claude d'Anthropic dans la trilogie classique des jeux vidéo Pokémon. Selon le post, Gemini avait impressionnamment atteint Lavande dans un stream Twitch d'un développeur, tandis que Claude était à la traîne à la Mont Sélénite fin février.
Gemini est littéralement devant Claude en ce moment dans Pokémon après avoir atteint Lavande
119 vues en direct seulement d'ailleurs, stream incroyablement sous-estimé pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 avril 2025
Cependant, ce que ce post a commodément omis, c'est le fait que Gemini avait un léger avantage injuste. Des utilisateurs avisés sur Reddit ont rapidement souligné que le développeur derrière le stream Gemini avait créé une minimap personnalisée. Cet outil astucieux aide le modèle à reconnaître les "tuiles" dans le jeu, comme les arbres coupables, ce qui réduit considérablement le temps dont Gemini a besoin pour analyser les captures d'écran avant de décider de son prochain mouvement.
Maintenant, bien que Pokémon ne soit pas le benchmark d'IA le plus sérieux qui soit, il constitue un exemple amusant mais révélateur de la manière dont différentes configurations peuvent fausser les résultats de ces tests. Prenons par exemple le récent modèle d'Anthropic, Anthropic 3.7 Sonnet. Sur le benchmark SWE-bench Verified, destiné à tester les compétences en codage, il a obtenu une précision de 62,3 %. Mais, avec un "échafaudage personnalisé" qu'Anthropic a conçu, ce score a bondi à 70,3 %.
Et cela ne s'arrête pas là. Meta a pris l'un de ses nouveaux modèles, Llama 4 Maverick, et l'a affiné spécifiquement pour le benchmark LM Arena. La version de base du modèle n'a pas obtenu de résultats aussi bons sur le même test.
Étant donné que les benchmarks d'IA, y compris notre sympathique exemple Pokémon, sont déjà quelque peu aléatoires, ces ajustements personnalisés et ces approches non standardisées rendent encore plus difficile la comparaison significative entre les modèles lorsqu'ils arrivent sur le marché. Il semble que comparer des pommes avec des pommes devient de plus en plus compliqué chaque jour.
Article connexe
"Dot AI Companion Appounces Closure, Discontinues Personalized Service" (L'application Dot AI Companion annonce sa fermeture et interrompt son service personnalisé)
Dot, une application d'IA conçue pour servir d'ami personnel et de confident, va cesser ses activités, selon une annonce faite vendredi par ses développeurs. New Computer, la startup à l'origine de Do
Anthropic résout une affaire de piratage de livres générés par l'IA
Anthropic a trouvé une solution à un important litige en matière de droits d'auteur avec des auteurs américains, en acceptant une proposition de règlement de recours collectif qui évite un procès pote
Figma met à la disposition de tous les utilisateurs un outil de création d'applications basé sur l'IA
Figma Make, la plateforme de développement innovante de type prompt-to-app dévoilée au début de l'année, est officiellement sortie de la phase bêta et a été déployée pour tous les utilisateurs. Cet ou
commentaires (6)
0/200
DouglasMartínez
6 août 2025 19:01:00 UTC+02:00
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
0
JasonKing
5 mai 2025 13:38:52 UTC+02:00
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
5 mai 2025 01:11:33 UTC+02:00
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
WalterThomas
4 mai 2025 17:05:10 UTC+02:00
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
AlbertThomas
4 mai 2025 08:38:28 UTC+02:00
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
3 mai 2025 21:01:44 UTC+02:00
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
Même le monde adoré de Pokémon n'est pas à l'abri du drame entourant les benchmarks d'IA. Un récent post viral sur X a suscité un vif engouement, affirmant que le dernier modèle Gemini de Google avait surpassé le modèle Claude d'Anthropic dans la trilogie classique des jeux vidéo Pokémon. Selon le post, Gemini avait impressionnamment atteint Lavande dans un stream Twitch d'un développeur, tandis que Claude était à la traîne à la Mont Sélénite fin février.
Gemini est littéralement devant Claude en ce moment dans Pokémon après avoir atteint Lavande
119 vues en direct seulement d'ailleurs, stream incroyablement sous-estimé pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 avril 2025
Cependant, ce que ce post a commodément omis, c'est le fait que Gemini avait un léger avantage injuste. Des utilisateurs avisés sur Reddit ont rapidement souligné que le développeur derrière le stream Gemini avait créé une minimap personnalisée. Cet outil astucieux aide le modèle à reconnaître les "tuiles" dans le jeu, comme les arbres coupables, ce qui réduit considérablement le temps dont Gemini a besoin pour analyser les captures d'écran avant de décider de son prochain mouvement.
Maintenant, bien que Pokémon ne soit pas le benchmark d'IA le plus sérieux qui soit, il constitue un exemple amusant mais révélateur de la manière dont différentes configurations peuvent fausser les résultats de ces tests. Prenons par exemple le récent modèle d'Anthropic, Anthropic 3.7 Sonnet. Sur le benchmark SWE-bench Verified, destiné à tester les compétences en codage, il a obtenu une précision de 62,3 %. Mais, avec un "échafaudage personnalisé" qu'Anthropic a conçu, ce score a bondi à 70,3 %.
Et cela ne s'arrête pas là. Meta a pris l'un de ses nouveaux modèles, Llama 4 Maverick, et l'a affiné spécifiquement pour le benchmark LM Arena. La version de base du modèle n'a pas obtenu de résultats aussi bons sur le même test.
Étant donné que les benchmarks d'IA, y compris notre sympathique exemple Pokémon, sont déjà quelque peu aléatoires, ces ajustements personnalisés et ces approches non standardisées rendent encore plus difficile la comparaison significative entre les modèles lorsqu'ils arrivent sur le marché. Il semble que comparer des pommes avec des pommes devient de plus en plus compliqué chaque jour.



Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯












