人類はポケモンを使用して、最新のAIモデルをベンチマークしました
驚くべきことに、Anthropicは最新のAIモデルであるClaude 3.7 Sonnetを、クラシックなGame Boyゲーム、ポケモン赤で試すことを決定しました。月曜日に公開されたブログ投稿によると、同社はこのモデルに必要なものを装備しました:メモリ、画面のピクセルを読み取る能力、そしてボタンを押したりゲーム画面内を移動したりする力です。この設定により、Claude 3.7 Sonnetはポケモンの世界に飛び込み、プレイを続けることができました。
Claude 3.7 Sonnetを際立たせるのは、その「拡張思考」の能力です。OpenAIのo3-miniやDeepSeekのR1のような他のモデルと同様に、計算能力を高め、じっくり考える時間を取ることで難しい問題に取り組むことができます。
この機能はポケモン赤でゲームチェンジャーであることが証明されました。古いClaude 3.0 Sonnetはパレットタウンのスタートエリアから抜け出すことさえできませんでしたが、Claude 3.7 Sonnetは3人のジムリーダーを倒し、彼らのバッジを獲得しました。

画像提供:Anthropic さて、AnthropicはClaude 3.7 Sonnetがこれらの成果を達成するのに必要な計算能力や所要時間を具体的に明かしませんでした。彼らはただ、モデルが最後のジムリーダーであるマチスと対決するために、驚くべき35,000のアクションを実行したと述べました。先週、ある研究者がClaude 3.7 Sonnetの早期プレビューを試しました。
結果は驚くべきものでした。数時間以内に、Claudeはカツラを倒しました。数日後にはカスミを圧倒しました。古いモデルではほとんど達成できなかった進歩です。
拡張思考が非常に効果的であることが分かりました。pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025年2月25日
すぐにでも賢い開発者が詳細を解明するでしょう。
ポケモン赤はちょっとした楽しいテストのように思えるかもしれませんが、実際にはゲームはAIのベンチマークとして長い間使われてきました。ここ数ヶ月だけでも、AIモデルがストリートファイターからピクショナリーまで、さまざまなゲームをどれだけうまくプレイできるかをテストする新しいアプリやプラットフォームがたくさん登場しています。
関連記事
AIベンチマークに関する議論はポケモンに到達しました
ポケモンの最愛の世界でさえ、AIのベンチマークを取り巻くドラマの影響を受けません。 Xに関する最近のウイルスの投稿は、Googleの最新のGeminiモデルが古典的なポケモンビデオゲームの3部作で人類の主要なクロードモデルを上回っていたと主張し、かなりの話題を刺激しました。投稿によると、ジェミニ
AI駆動の塗り絵ブック作成:包括的ガイド
塗り絵ブックのデザインは、芸術的表現とユーザーのリラックス体験を組み合わせた報われる追求です。しかし、そのプロセスは労働集約的です。幸い、AIツールは高品質で均一な塗り絵ページを簡単に作成できます。このガイドは、AIを使用して一貫したスタイルと最適な効率に焦点を当てた塗り絵ブック作成のステップごとのアプローチを提供します。主なポイントAIプロンプトツールを使用して、詳細で構造化された塗り絵ページの
QodoがGoogle Cloudと提携し、開発者向け無料AIコードレビューを提供
Qodo、イスラエル拠点のAIコーディングスタートアップは、コード品質に焦点を当て、Google Cloudと提携し、AI生成ソフトウェアの完全性を強化。企業がコーディングにAIをますます活用する中、堅牢な監視と品質保証ツールの需要が増加。QodoのCEOイタマール・フリードマンは、AI生成コードが現代の開発の中心であると指摘。「AIがすべてのコードを書く未来を想像してください。人間がすべてをレビ
コメント (17)
0/200
FrankSanchez
2025年8月12日 2:01:02 JST
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
0
PaulSanchez
2025年7月23日 13:59:29 JST
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
0
LawrenceLopez
2025年4月22日 13:33:07 JST
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂
0
JeffreyRamirez
2025年4月20日 17:47:48 JST
Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂
0
FrankSmith
2025年4月17日 23:27:49 JST
포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂
0
JoeLee
2025年4月17日 10:15:28 JST
¿Usar Pokémon para probar IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Rojo es genial, pero un poco raro. Es increíble que pueda leer píxeles de la pantalla y recordar cosas, pero ¿realmente atrapa a todos? 🤔 Idea divertida, pero me pregunto qué tan práctico es en la vida real. ¡A atraparlos a todos, verdad? 😂
0
驚くべきことに、Anthropicは最新のAIモデルであるClaude 3.7 Sonnetを、クラシックなGame Boyゲーム、ポケモン赤で試すことを決定しました。月曜日に公開されたブログ投稿によると、同社はこのモデルに必要なものを装備しました:メモリ、画面のピクセルを読み取る能力、そしてボタンを押したりゲーム画面内を移動したりする力です。この設定により、Claude 3.7 Sonnetはポケモンの世界に飛び込み、プレイを続けることができました。
Claude 3.7 Sonnetを際立たせるのは、その「拡張思考」の能力です。OpenAIのo3-miniやDeepSeekのR1のような他のモデルと同様に、計算能力を高め、じっくり考える時間を取ることで難しい問題に取り組むことができます。
この機能はポケモン赤でゲームチェンジャーであることが証明されました。古いClaude 3.0 Sonnetはパレットタウンのスタートエリアから抜け出すことさえできませんでしたが、Claude 3.7 Sonnetは3人のジムリーダーを倒し、彼らのバッジを獲得しました。
先週、ある研究者がClaude 3.7 Sonnetの早期プレビューを試しました。
結果は驚くべきものでした。数時間以内に、Claudeはカツラを倒しました。数日後にはカスミを圧倒しました。古いモデルではほとんど達成できなかった進歩です。
拡張思考が非常に効果的であることが分かりました。pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025年2月25日
すぐにでも賢い開発者が詳細を解明するでしょう。
ポケモン赤はちょっとした楽しいテストのように思えるかもしれませんが、実際にはゲームはAIのベンチマークとして長い間使われてきました。ここ数ヶ月だけでも、AIモデルがストリートファイターからピクショナリーまで、さまざまなゲームをどれだけうまくプレイできるかをテストする新しいアプリやプラットフォームがたくさん登場しています。




Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄




Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️




Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂




Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂




포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂




¿Usar Pokémon para probar IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Rojo es genial, pero un poco raro. Es increíble que pueda leer píxeles de la pantalla y recordar cosas, pero ¿realmente atrapa a todos? 🤔 Idea divertida, pero me pregunto qué tan práctico es en la vida real. ¡A atraparlos a todos, verdad? 😂












