人類はポケモンを使用して、最新のAIモデルをベンチマークしました
2025年4月10日
AvaHill
41
驚くべき動きの中で、人類は最新のAIモデルであるClaude 3.7 Sonnetを、古典的なゲームボーイゲームであるPokémonRedでテストすることにしました。月曜日にリリースされたブログ投稿によると、同社はメモリ、画面のピクセルを読み取る機能、ボタンを押してゲーム画面を移動するパワーなど、エッセンシャルをモデルに配置しました。このセットアップにより、Claude 3.7 Sonnetはポケモンの世界に飛び込み、プレイし続けることができました。
クロード3.7ソネットを際立たせるのは、「拡張思考」のコツです。 OpenaiのO3-MiniやDeepseekのR1などの他のモデルと同様に、コンピューティングパワーを上げて、物事を考えるのに甘い時間をとることで、困難な問題に取り組むことができます。
この機能は、ポケモンレッドのゲームチェンジャーであることが証明されました。古いクロード3.0ソネットはパレットタウンのスターティングエリアから出ることさえできませんでしたが、クロード3.7ソネットは3人のジムリーダーを倒し、バッジを引っ掛けました。

画像クレジット:人類 現在、人類は、Claude 3.7 Sonnetがこれらのマイルストーンに到達するのに必要な量や、どれだけの時間がかかったかに正確に豆を流出させませんでした。彼らは、このモデルは、最後のジムリーダーであるサージと対決するために、なんと35,000の行動を実行したと述べました。
先週、研究者がClaude 3.7 Sonnetの初期プレビューを試しました。
結果は印象的でした。数時間以内に、クロードはブロックを破った。数日後、それは霧を打ち負かしました。古いモデルが達成するという希望はほとんどありませんでした。
拡張思考は非常に効果的です。 pic.twitter.com/rspslgj2uf
- 人類(@anthropicai)2025年2月25日
賢い開発者が核心の詳細を理解するのはそう長くはかからないでしょう。
ポケモンレッドは少し楽しいテストのように思えるかもしれませんが、実際には年齢のAIベンチマークにゲームが使用されています。ここ数ヶ月で、たくさんの新しいアプリとプラットフォームがポップアップして、AIモデルがストリートファイターからピクトリアリーまですべてをどの程度プレイできるかをテストしました。
関連記事
Debates over AI benchmarking have reached Pokémon
Even the beloved world of Pokémon isn't immune to the drama surrounding AI benchmarks. A recent viral post on X stirred up quite the buzz, claiming that Google's latest Gemini model had outpaced Anthropic's leading Claude model in the classic Pokémon video game trilogy. According to the post, Gemini
AI駆動型Facebook広告コピー:広告をすばやく生成します
魅力的なFacebookの広告を作成する際のAIの革命は、デジタルマーケティングの旋風の世界をコピーします。人工知能(AI)を入力します。これは、広告作成にどのようにアプローチするかを再構築しているゲームチェンジャーです。このガイドd
AIルーブリックジェネレーター:活発なティーチングによる評価を合理化します
教育のダイナミックな世界では、教師は常に学生の学習を後押ししながら仕事を簡素化できるツールを探しています。 Brisk TeachingのAI Rubricジェネレーターを入力します。これは、評価の領域にあるゲームチェンジャーです。この気の利いたツールは、教育者がスナップでパーソナライズされたルーミックを作成するのに役立ちます。
コメント (15)
0/200
GeorgeWilliams
2025年4月11日 17:22:08 GMT
Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮
0
StephenGreen
2025年4月12日 3:40:24 GMT
ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮
0
RogerSanchez
2025年4月13日 5:05:35 GMT
포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮
0
HenryTurner
2025年4月14日 22:24:40 GMT
Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮
0
JohnGarcia
2025年4月14日 19:59:47 GMT
¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮
0
TerryGonzález
2025年4月12日 4:11:07 GMT
Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂
0






驚くべき動きの中で、人類は最新のAIモデルであるClaude 3.7 Sonnetを、古典的なゲームボーイゲームであるPokémonRedでテストすることにしました。月曜日にリリースされたブログ投稿によると、同社はメモリ、画面のピクセルを読み取る機能、ボタンを押してゲーム画面を移動するパワーなど、エッセンシャルをモデルに配置しました。このセットアップにより、Claude 3.7 Sonnetはポケモンの世界に飛び込み、プレイし続けることができました。
クロード3.7ソネットを際立たせるのは、「拡張思考」のコツです。 OpenaiのO3-MiniやDeepseekのR1などの他のモデルと同様に、コンピューティングパワーを上げて、物事を考えるのに甘い時間をとることで、困難な問題に取り組むことができます。
この機能は、ポケモンレッドのゲームチェンジャーであることが証明されました。古いクロード3.0ソネットはパレットタウンのスターティングエリアから出ることさえできませんでしたが、クロード3.7ソネットは3人のジムリーダーを倒し、バッジを引っ掛けました。
先週、研究者がClaude 3.7 Sonnetの初期プレビューを試しました。
結果は印象的でした。数時間以内に、クロードはブロックを破った。数日後、それは霧を打ち負かしました。古いモデルが達成するという希望はほとんどありませんでした。
拡張思考は非常に効果的です。 pic.twitter.com/rspslgj2uf
- 人類(@anthropicai)2025年2月25日
賢い開発者が核心の詳細を理解するのはそう長くはかからないでしょう。
ポケモンレッドは少し楽しいテストのように思えるかもしれませんが、実際には年齢のAIベンチマークにゲームが使用されています。ここ数ヶ月で、たくさんの新しいアプリとプラットフォームがポップアップして、AIモデルがストリートファイターからピクトリアリーまですべてをどの程度プレイできるかをテストしました。




Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮




ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮




포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮




Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮




¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮




Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂












