Les débats sur l'analyse comparative de l'IA ont atteint Pokémon

Même le monde adoré de Pokémon n'est pas à l'abri du drame entourant les benchmarks d'IA. Un récent post viral sur X a suscité un vif engouement, affirmant que le dernier modèle Gemini de Google avait surpassé le modèle Claude d'Anthropic dans la trilogie classique des jeux vidéo Pokémon. Selon le post, Gemini avait impressionnamment atteint Lavande dans un stream Twitch d'un développeur, tandis que Claude était à la traîne à la Mont Sélénite fin février.
Gemini est littéralement devant Claude en ce moment dans Pokémon après avoir atteint Lavande
119 vues en direct seulement d'ailleurs, stream incroyablement sous-estimé pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 avril 2025
Cependant, ce que ce post a commodément omis, c'est le fait que Gemini avait un léger avantage injuste. Des utilisateurs avisés sur Reddit ont rapidement souligné que le développeur derrière le stream Gemini avait créé une minimap personnalisée. Cet outil astucieux aide le modèle à reconnaître les "tuiles" dans le jeu, comme les arbres coupables, ce qui réduit considérablement le temps dont Gemini a besoin pour analyser les captures d'écran avant de décider de son prochain mouvement.
Maintenant, bien que Pokémon ne soit pas le benchmark d'IA le plus sérieux qui soit, il constitue un exemple amusant mais révélateur de la manière dont différentes configurations peuvent fausser les résultats de ces tests. Prenons par exemple le récent modèle d'Anthropic, Anthropic 3.7 Sonnet. Sur le benchmark SWE-bench Verified, destiné à tester les compétences en codage, il a obtenu une précision de 62,3 %. Mais, avec un "échafaudage personnalisé" qu'Anthropic a conçu, ce score a bondi à 70,3 %.
Et cela ne s'arrête pas là. Meta a pris l'un de ses nouveaux modèles, Llama 4 Maverick, et l'a affiné spécifiquement pour le benchmark LM Arena. La version de base du modèle n'a pas obtenu de résultats aussi bons sur le même test.
Étant donné que les benchmarks d'IA, y compris notre sympathique exemple Pokémon, sont déjà quelque peu aléatoires, ces ajustements personnalisés et ces approches non standardisées rendent encore plus difficile la comparaison significative entre les modèles lorsqu'ils arrivent sur le marché. Il semble que comparer des pommes avec des pommes devient de plus en plus compliqué chaque jour.
Article connexe
Kakao Mobility présente sa feuille de route pour la conduite autonome de niveau 4 basée sur l'IA physique
Kakao Mobility prévoit de développer en interne des technologies de conduite autonome de niveau 4 dans le cadre de sa stratégie d'IA physique.Lors de la conférence World IT Show 2026 qui s'est tenue
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se
YouTube étend sa détection des deepfakes par IA aux personnalités politiques, aux responsables gouvernementaux et aux journalistes
Mardi, YouTube a annoncé qu’il étendait sa technologie de détection des deepfakes à un groupe restreint de responsables gouvernementaux, de candidats politiques et de journalistes. Cet outil identifie
Recommandations de sujets spéciaux liés
commentaires (9)
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

Même le monde adoré de Pokémon n'est pas à l'abri du drame entourant les benchmarks d'IA. Un récent post viral sur X a suscité un vif engouement, affirmant que le dernier modèle Gemini de Google avait surpassé le modèle Claude d'Anthropic dans la trilogie classique des jeux vidéo Pokémon. Selon le post, Gemini avait impressionnamment atteint Lavande dans un stream Twitch d'un développeur, tandis que Claude était à la traîne à la Mont Sélénite fin février.
Gemini est littéralement devant Claude en ce moment dans Pokémon après avoir atteint Lavande
119 vues en direct seulement d'ailleurs, stream incroyablement sous-estimé pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 avril 2025
Cependant, ce que ce post a commodément omis, c'est le fait que Gemini avait un léger avantage injuste. Des utilisateurs avisés sur Reddit ont rapidement souligné que le développeur derrière le stream Gemini avait créé une minimap personnalisée. Cet outil astucieux aide le modèle à reconnaître les "tuiles" dans le jeu, comme les arbres coupables, ce qui réduit considérablement le temps dont Gemini a besoin pour analyser les captures d'écran avant de décider de son prochain mouvement.
Maintenant, bien que Pokémon ne soit pas le benchmark d'IA le plus sérieux qui soit, il constitue un exemple amusant mais révélateur de la manière dont différentes configurations peuvent fausser les résultats de ces tests. Prenons par exemple le récent modèle d'Anthropic, Anthropic 3.7 Sonnet. Sur le benchmark SWE-bench Verified, destiné à tester les compétences en codage, il a obtenu une précision de 62,3 %. Mais, avec un "échafaudage personnalisé" qu'Anthropic a conçu, ce score a bondi à 70,3 %.
Et cela ne s'arrête pas là. Meta a pris l'un de ses nouveaux modèles, Llama 4 Maverick, et l'a affiné spécifiquement pour le benchmark LM Arena. La version de base du modèle n'a pas obtenu de résultats aussi bons sur le même test.
Étant donné que les benchmarks d'IA, y compris notre sympathique exemple Pokémon, sont déjà quelque peu aléatoires, ces ajustements personnalisés et ces approches non standardisées rendent encore plus difficile la comparaison significative entre les modèles lorsqu'ils arrivent sur le marché. Il semble que comparer des pommes avec des pommes devient de plus en plus compliqué chaque jour.
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se
YouTube étend sa détection des deepfakes par IA aux personnalités politiques, aux responsables gouvernementaux et aux journalistes
Mardi, YouTube a annoncé qu’il étendait sa technologie de détection des deepfakes à un groupe restreint de responsables gouvernementaux, de candidats politiques et de journalistes. Cet outil identifie
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯





Maison






