Anthropic a utilisé Pokémon pour comparer son nouveau modèle d'IA
Dans une décision surprenante, Anthropic a décidé de mettre son dernier modèle d'IA, Claude 3.7 Sonnet, à l'épreuve avec le jeu Game Boy classique, Pokémon Red. Selon un article de blog publié lundi, l'entreprise a équipé le modèle avec The Essentials: Memory, la possibilité de lire les pixels de l'écran et la puissance d'appuyer sur les boutons et de se déplacer autour de l'écran du jeu. Cette configuration a permis à Claude 3.7 Sonnet de plonger dans le monde de Pokémon et de continuer à jouer.
Ce qui distingue le sonnet de Claude 3.7, c'est son talent pour "la réflexion étendue". Semblable à d'autres modèles comme O3-Mini d'Openai et R1 de Deepseek, il peut s'attaquer aux problèmes difficiles en augmentant la puissance de calcul et en prenant son temps doux pour réfléchir aux choses.
Cette fonctionnalité s'est avérée changer la donne dans Pokémon Red. Alors que le Sonnet Claude 3.0 plus âgé ne pouvait même pas sortir de la zone de départ de Pallet Town, Claude 3.7 Sonnet a réussi à éliminer trois chefs de gym et à accrocher leurs badges.

Crédits d'image: anthropique Maintenant, Anthropic n'a pas renversé les haricots sur la quantité de puissance de calcul nécessaire ou combien de temps il a fallu à Claude 3.7 Sonnet pour atteindre ces jalons. Ils viennent de mentionner que le modèle a effectué 35 000 actions pour affronter le dernier chef de gym, Surge.
La semaine dernière, un chercheur a essayé un aperçu précoce de Claude 3.7 Sonnet.
Les résultats étaient frappants. En quelques heures, Claude a vaincu Brock. Quelques jours plus tard, il a battu Misty. Les progrès que les modèles plus anciens avaient peu d'espoir d'atteindre.
Il s'avère que la réflexion étendue est super efficace. pic.twitter.com/rspslgj2uf
- anthropic (@anthropicai) 25 février 2025
Il ne faudra pas longtemps avant qu'un développeur intelligent ne comprenne les détails de Nitty-Gritty.
Bien que Pokémon Red puisse sembler un peu un test amusant, les jeux ont en fait été utilisés pour l'analyse comparative de l'IA depuis des lustres. Au cours des derniers mois, nous avons vu un tas de nouvelles applications et plates-formes apparaître pour tester la façon dont les modèles d'IA peuvent tout jouer, de Street Fighter à Pictionary.
Article connexe
关于AI基准测试的辩论已达到神奇宝贝
即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
Augmenter l'engagement avec des Reels d'Emoji alimentés par l'IA pour une croissance virale
Le guide ultime pour créer des Reels d'Emoji viraux avec l'IA (et en tirer profit)Voulez-vous transformer votre présence sur les réseaux sociaux en une machine à gagner de l'argent ? Voici un petit se
Création de storyboard avec ChatGPT : Guide étape par étape
Comment créer des storyboards avec ChatGPT (même si vous ne savez pas dessiner)Le storyboard est un outil révolutionnaire pour les cinéastes, animateurs et développeurs de jeux—il permet de visualiser
commentaires (15)
0/200
GeorgeWilliams
12 avril 2025 00:00:00 UTC
Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮
0
StephenGreen
12 avril 2025 00:00:00 UTC
ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮
0
RogerSanchez
13 avril 2025 00:00:00 UTC
포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮
0
HenryTurner
15 avril 2025 00:00:00 UTC
Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮
0
JohnGarcia
15 avril 2025 00:00:00 UTC
¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮
0
TerryGonzález
12 avril 2025 00:00:00 UTC
Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂
0
Dans une décision surprenante, Anthropic a décidé de mettre son dernier modèle d'IA, Claude 3.7 Sonnet, à l'épreuve avec le jeu Game Boy classique, Pokémon Red. Selon un article de blog publié lundi, l'entreprise a équipé le modèle avec The Essentials: Memory, la possibilité de lire les pixels de l'écran et la puissance d'appuyer sur les boutons et de se déplacer autour de l'écran du jeu. Cette configuration a permis à Claude 3.7 Sonnet de plonger dans le monde de Pokémon et de continuer à jouer.
Ce qui distingue le sonnet de Claude 3.7, c'est son talent pour "la réflexion étendue". Semblable à d'autres modèles comme O3-Mini d'Openai et R1 de Deepseek, il peut s'attaquer aux problèmes difficiles en augmentant la puissance de calcul et en prenant son temps doux pour réfléchir aux choses.
Cette fonctionnalité s'est avérée changer la donne dans Pokémon Red. Alors que le Sonnet Claude 3.0 plus âgé ne pouvait même pas sortir de la zone de départ de Pallet Town, Claude 3.7 Sonnet a réussi à éliminer trois chefs de gym et à accrocher leurs badges.
La semaine dernière, un chercheur a essayé un aperçu précoce de Claude 3.7 Sonnet.
Les résultats étaient frappants. En quelques heures, Claude a vaincu Brock. Quelques jours plus tard, il a battu Misty. Les progrès que les modèles plus anciens avaient peu d'espoir d'atteindre.
Il s'avère que la réflexion étendue est super efficace. pic.twitter.com/rspslgj2uf
- anthropic (@anthropicai) 25 février 2025
Il ne faudra pas longtemps avant qu'un développeur intelligent ne comprenne les détails de Nitty-Gritty.
Bien que Pokémon Red puisse sembler un peu un test amusant, les jeux ont en fait été utilisés pour l'analyse comparative de l'IA depuis des lustres. Au cours des derniers mois, nous avons vu un tas de nouvelles applications et plates-formes apparaître pour tester la façon dont les modèles d'IA peuvent tout jouer, de Street Fighter à Pictionary.




Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮




ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮




포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮




Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮




¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮




Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂












