人類はポケモンを使用して、最新のAIモデルをベンチマークしました

家

ニュース

2025年4月10日

AvaHill

313

# pokemon

驚くべきことに、Anthropicは最新のAIモデルであるClaude 3.7 Sonnetを、クラシックなGame Boyゲーム、ポケモン赤で試すことを決定しました。月曜日に公開されたブログ投稿によると、同社はこのモデルに必要なものを装備しました：メモリ、画面のピクセルを読み取る能力、そしてボタンを押したりゲーム画面内を移動したりする力です。この設定により、Claude 3.7 Sonnetはポケモンの世界に飛び込み、プレイを続けることができました。

Claude 3.7 Sonnetを際立たせるのは、その「拡張思考」の能力です。OpenAIのo3-miniやDeepSeekのR1のような他のモデルと同様に、計算能力を高め、じっくり考える時間を取ることで難しい問題に取り組むことができます。

この機能はポケモン赤でゲームチェンジャーであることが証明されました。古いClaude 3.0 Sonnetはパレットタウンのスタートエリアから抜け出すことさえできませんでしたが、Claude 3.7 Sonnetは3人のジムリーダーを倒し、彼らのバッジを獲得しました。

Anthropic ポケモン赤

画像提供：Anthropic

さて、AnthropicはClaude 3.7 Sonnetがこれらの成果を達成するのに必要な計算能力や所要時間を具体的に明かしませんでした。彼らはただ、モデルが最後のジムリーダーであるマチスと対決するために、驚くべき35,000のアクションを実行したと述べました。

先週、ある研究者がClaude 3.7 Sonnetの早期プレビューを試しました。
結果は驚くべきものでした。数時間以内に、Claudeはカツラを倒しました。数日後にはカスミを圧倒しました。古いモデルではほとんど達成できなかった進歩です。
拡張思考が非常に効果的であることが分かりました。pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025年2月25日

すぐにでも賢い開発者が詳細を解明するでしょう。

ポケモン赤はちょっとした楽しいテストのように思えるかもしれませんが、実際にはゲームはAIのベンチマークとして長い間使われてきました。ここ数ヶ月だけでも、AIモデルがストリートファイターからピクショナリーまで、さまざまなゲームをどれだけうまくプレイできるかをテストする新しいアプリやプラットフォームがたくさん登場しています。

グーグルのAI「Gemini」が「ポケモンブルー」をアシストで攻略グーグルのAIマイルストーン：古典的なポケモンアドベンチャーを制覇グーグルの最先端AIモデルが、1996年にゲームボーイで発売された「ポケモンブルー」を完成させるという、特筆すべきゲーム上のブレークスルーを達成したようだ。CEOのスンダル・ピチャイはソーシャルメディアでこの偉業を祝ったが、この偉業には重要な背景がある。Gemini Plays Pokémonのライブストリーム・プロジェクトは、実際

AIベンチマークに関する議論はポケモンに到達しましたポケモンの最愛の世界でさえ、AIのベンチマークを取り巻くドラマの影響を受けません。 Xに関する最近のウイルスの投稿は、Googleの最新のGeminiモデルが古典的なポケモンビデオゲームの3部作で人類の主要なクロードモデルを上回っていたと主張し、かなりの話題を刺激しました。投稿によると、ジェミニ

テンセントの「小龍蝦」が予想を上回る大ヒット、チームは生産能力を10倍に拡大し、謝罪と補償を実施テンセントは、あらゆるシナリオに対応するAIインテリジェントエージェント「WorkBuddy」を正式にリリースした。これは、高い統合性と低い導入ハードルを特徴とし、大規模モデルアプリケーション層における競争に新たな局面をもたらすものである。同製品はリリース当日から業界の注目を集めた。ユーザーアクセス数が予想を大幅に上回り、関連サービスである「Tencent Cloud Code Assistan

関連特集おすすめ

漫画制作

少年漫画向けトップAIジェネレーター：迫力満点のアクションシーンやエネルギーエフェクトを作成

XIX.AIで、2026年のおすすめ少年漫画向けAIジェネレーターをご紹介します。厳選されたトップクラスのリストには、迫力満点のアクションシーンや躍動感あふれるエフェクトを作成できる強力なツールが揃っています。実際のテスト結果をもとに、無料版と有料版の比較も可能です。あなたの創造力を解き放ち、今日から壮大な漫画の制作を始めましょう！

15 ツール

xix.ai

仕事

おすすめのAI経費管理ツール：レシートをスキャンして、業務経費を自動分類

2026年最新・最高のAI経費管理ツール：レシートをスキャンし、法人経費を自動分類する高評価ツールをご紹介。手間いらずの経費管理、正確な財務追跡、コンプライアンス対応の効率化を実現する、画期的なソリューションをご覧ください。無料版と有料版の比較表は厳選され、毎週更新されるため、最適なツール選びにお役立ていただけます。XIX.AIの専門家が厳選したツールで、AIの力を最大限に活用しましょう。

10 ツール

xix.ai

仕事

おすすめのAI採用ツール：履歴書の選考と候補者の面接スケジュール管理を自動化

XIX.AIで、2026年最新の評価の高いAI採用ツールをチェックしましょう。厳選されたリストには、履歴書のスクリーニングや候補者の面接スケジュール管理を自動化する、強力で画期的なソリューションが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版の比較が可能です。最適な採用アシスタントを見つけて、今すぐ採用業務を効率化しましょう！

10 ツール

xix.ai

生産性

AIパーソナルウェルネス＆集中力コーチ：バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス＆集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール

xix.ai

チャットボット

高評価のAI恋愛チャットボット：一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール

xix.ai

教育と学習

最高のAIデータサイエンスメンター：SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール

xix.ai

コメント (19)

0/500

最初にログインしてください

GaryWilson

2025年10月30日 3:31:10 JST

와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?

BillyAdams

2025年8月27日 21:59:25 JST

Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎

FrankSanchez

2025年8月12日 2:01:02 JST

Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄

PaulSanchez

2025年7月23日 13:59:29 JST

Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️

LawrenceLopez

2025年4月22日 13:33:07 JST

Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂

JeffreyRamirez

2025年4月20日 17:47:48 JST

Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂

トップニュース

AI BuilderとPower Automateがドキュメントの要約を革新 AIホストのNotebooklm Podcastのホストは、インタビューに利用できるようになりました中国、国家ヒューマノイドロボット及び具現化された知能の基準を発表企業のAI導入は頭打ち、ランプのデータで明らかに Bing Image Creator チュートリアル: AIアート生成ガイドあなたの声を使用してAIミュージックを作成することを学ぶ：ステップバイステップSunoチュートリアル iMyFone MagicMic：リアルタイムAIボイスチェンジャーのレビューとチュートリアル 2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 DeepSeek V4、マルチモーダルAIのゲームチェンジャーとして登場エンボディッド・インテリジェンス、無秩序な拡大を抑制するための初の業界標準を発表

もっと

特集