option
Maison Nouvelles Anthropic a utilisé Pokémon pour comparer son nouveau modèle d'IA

Anthropic a utilisé Pokémon pour comparer son nouveau modèle d'IA

date de sortie date de sortie 10 avril 2025
Auteur Auteur AvaHill
vues vues 41

Dans une décision surprenante, Anthropic a décidé de mettre son dernier modèle d'IA, Claude 3.7 Sonnet, à l'épreuve avec le jeu Game Boy classique, Pokémon Red. Selon un article de blog publié lundi, l'entreprise a équipé le modèle avec The Essentials: Memory, la possibilité de lire les pixels de l'écran et la puissance d'appuyer sur les boutons et de se déplacer autour de l'écran du jeu. Cette configuration a permis à Claude 3.7 Sonnet de plonger dans le monde de Pokémon et de continuer à jouer.

Ce qui distingue le sonnet de Claude 3.7, c'est son talent pour "la réflexion étendue". Semblable à d'autres modèles comme O3-Mini d'Openai et R1 de Deepseek, il peut s'attaquer aux problèmes difficiles en augmentant la puissance de calcul et en prenant son temps doux pour réfléchir aux choses.

Cette fonctionnalité s'est avérée changer la donne dans Pokémon Red. Alors que le Sonnet Claude 3.0 plus âgé ne pouvait même pas sortir de la zone de départ de Pallet Town, Claude 3.7 Sonnet a réussi à éliminer trois chefs de gym et à accrocher leurs badges.

Rouge Pokémon anthropique

Crédits d'image: anthropique
Maintenant, Anthropic n'a pas renversé les haricots sur la quantité de puissance de calcul nécessaire ou combien de temps il a fallu à Claude 3.7 Sonnet pour atteindre ces jalons. Ils viennent de mentionner que le modèle a effectué 35 000 actions pour affronter le dernier chef de gym, Surge.

La semaine dernière, un chercheur a essayé un aperçu précoce de Claude 3.7 Sonnet.

Les résultats étaient frappants. En quelques heures, Claude a vaincu Brock. Quelques jours plus tard, il a battu Misty. Les progrès que les modèles plus anciens avaient peu d'espoir d'atteindre.

Il s'avère que la réflexion étendue est super efficace. pic.twitter.com/rspslgj2uf

- anthropic (@anthropicai) 25 février 2025

Il ne faudra pas longtemps avant qu'un développeur intelligent ne comprenne les détails de Nitty-Gritty.

Bien que Pokémon Red puisse sembler un peu un test amusant, les jeux ont en fait été utilisés pour l'analyse comparative de l'IA depuis des lustres. Au cours des derniers mois, nous avons vu un tas de nouvelles applications et plates-formes apparaître pour tester la façon dont les modèles d'IA peuvent tout jouer, de Street Fighter à Pictionary.

Article connexe
Debates over AI benchmarking have reached Pokémon Debates over AI benchmarking have reached Pokémon Even the beloved world of Pokémon isn't immune to the drama surrounding AI benchmarks. A recent viral post on X stirred up quite the buzz, claiming that Google's latest Gemini model had outpaced Anthropic's leading Claude model in the classic Pokémon video game trilogy. According to the post, Gemini
Copie d'annonce Facebook dirigée par AI: générer des annonces rapidement Copie d'annonce Facebook dirigée par AI: générer des annonces rapidement La révolution de l'IA dans l'élaboration de Copy Copyin Facebook Ad the Whirlwind du marketing numérique, la possibilité de concocter une copie publicitaire Facebook est tout simplement essentielle. Entrez l'intelligence artificielle (IA), un changeur de jeu qui remodèle la façon dont nous abordons la création d'annonces. Ce guide D
Générateur de rubriques AI: rationalisation de l'évaluation avec un enseignement rapide Générateur de rubriques AI: rationalisation de l'évaluation avec un enseignement rapide Dans le monde dynamique de l'éducation, les enseignants sont toujours à la recherche d'outils qui peuvent simplifier leur travail tout en stimulant l'apprentissage des élèves. Entrez le générateur de rubriques AI de l'enseignement vif - un changeur de jeu dans le domaine de l'évaluation. Cet outil astucieux aide les éducateurs à fabriquer des rubriques personnalisées dans un instantané, en
commentaires (15)
0/200
GeorgeWilliams
GeorgeWilliams 11 avril 2025 17:22:08 UTC

Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮

StephenGreen
StephenGreen 12 avril 2025 03:40:24 UTC

ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮

RogerSanchez
RogerSanchez 13 avril 2025 05:05:35 UTC

포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮

HenryTurner
HenryTurner 14 avril 2025 22:24:40 UTC

Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮

JohnGarcia
JohnGarcia 14 avril 2025 19:59:47 UTC

¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮

TerryGonzález
TerryGonzález 12 avril 2025 04:11:07 UTC

Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂

Retour en haut
OR