Les débats sur l'analyse comparative de l'IA ont atteint Pokémon
3 mai 2025
JonathanDavis
0

Même le monde bien-aimé de Pokémon n'est pas à l'abri du drame entourant les repères de l'IA. Un récent post viral sur X a suscité tout à fait le buzz, affirmant que le dernier modèle de Gémeaux de Google avait dépassé le principal modèle Claude d'Anthropic dans la trilogie classique du jeu vidéo Pokémon. Selon le Post, Gemini était devenu impressionnant à Lavender Town dans le flux de Twitch d'un développeur, tandis que Claude était en retard à Mount Moon fin février.
Gemini est littéralement en avance sur Claude ATM à Pokémon après avoir atteint la ville de Lavender
119 Vues en direct uniquement btw, flux incroyablement sous-estimé pic.twitter.com/8avsovai4x
- Jush (@ Jush21e8) 10 avril 2025
Cependant, ce que ce post a facilement laissé de côté, c'est le fait que Gemini avait un peu un avantage injuste. Les utilisateurs avisés sur Reddit ont rapidement souligné que le développeur derrière le flux Gemini avait fabriqué une minimap personnalisée. Cet outil astucieux aide le modèle à reconnaître les "carreaux" dans le jeu, tels que les arbres CutTable, ce qui réduit considérablement le temps que Gemini doit passer à analyser des captures d'écran avant de décider de son prochain mouvement.
Maintenant, bien que Pokémon ne soit peut-être pas la référence IA la plus grave, cela sert d'exemple amusant mais révélateur de la façon dont différentes configurations peuvent fausser les résultats de ces tests. Prenez le modèle récent d'Anthropic, Anthropic 3.7 Sonnet, par exemple. Sur la référence vérifiée SWE-Bench, qui est destinée à tester les prouesses de codage, il a obtenu une précision de 62,3%. Mais, avec un "échafaudage personnalisé" que anthropique a fouetté, ce score est passé à 70,3%.
Et ça ne s'arrête pas là. Meta a pris l'un de ses nouveaux modèles, Llama 4 Maverick, et l'a affiné spécifiquement pour la référence LM Arena. La version vanille du modèle n'a pas aussi bien réussi sur le même test.
Étant donné que les repères de l'IA, y compris notre exemple de Pokémon sympathique, sont déjà un peu à succès, ces ajustements personnalisés et ces approches non standard rendent encore plus difficile pour faire des comparaisons significatives entre les modèles lorsqu'ils arrivent sur le marché. Il semble que comparer les pommes aux pommes pourrait devenir plus difficile de jour.
Article connexe
Top 10 AI Marketing Tools for April 2025
Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers
Wikipedia's New Strategy to Manage AI Data Scraping
Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance
Huawei's Bold Move in the Global AI Chip Race
Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
Commentaires (0)
0/200






Même le monde bien-aimé de Pokémon n'est pas à l'abri du drame entourant les repères de l'IA. Un récent post viral sur X a suscité tout à fait le buzz, affirmant que le dernier modèle de Gémeaux de Google avait dépassé le principal modèle Claude d'Anthropic dans la trilogie classique du jeu vidéo Pokémon. Selon le Post, Gemini était devenu impressionnant à Lavender Town dans le flux de Twitch d'un développeur, tandis que Claude était en retard à Mount Moon fin février.
Gemini est littéralement en avance sur Claude ATM à Pokémon après avoir atteint la ville de Lavender
119 Vues en direct uniquement btw, flux incroyablement sous-estimé pic.twitter.com/8avsovai4x
- Jush (@ Jush21e8) 10 avril 2025
Cependant, ce que ce post a facilement laissé de côté, c'est le fait que Gemini avait un peu un avantage injuste. Les utilisateurs avisés sur Reddit ont rapidement souligné que le développeur derrière le flux Gemini avait fabriqué une minimap personnalisée. Cet outil astucieux aide le modèle à reconnaître les "carreaux" dans le jeu, tels que les arbres CutTable, ce qui réduit considérablement le temps que Gemini doit passer à analyser des captures d'écran avant de décider de son prochain mouvement.
Maintenant, bien que Pokémon ne soit peut-être pas la référence IA la plus grave, cela sert d'exemple amusant mais révélateur de la façon dont différentes configurations peuvent fausser les résultats de ces tests. Prenez le modèle récent d'Anthropic, Anthropic 3.7 Sonnet, par exemple. Sur la référence vérifiée SWE-Bench, qui est destinée à tester les prouesses de codage, il a obtenu une précision de 62,3%. Mais, avec un "échafaudage personnalisé" que anthropique a fouetté, ce score est passé à 70,3%.
Et ça ne s'arrête pas là. Meta a pris l'un de ses nouveaux modèles, Llama 4 Maverick, et l'a affiné spécifiquement pour la référence LM Arena. La version vanille du modèle n'a pas aussi bien réussi sur le même test.
Étant donné que les repères de l'IA, y compris notre exemple de Pokémon sympathique, sont déjà un peu à succès, ces ajustements personnalisés et ces approches non standard rendent encore plus difficile pour faire des comparaisons significatives entre les modèles lorsqu'ils arrivent sur le marché. Il semble que comparer les pommes aux pommes pourrait devenir plus difficile de jour.











