人類はポケモンを使用して、最新のAIモデルをベンチマークしました

家

ニュース

2025年4月10日

AvaHill

154

# pokemon

驚くべきことに、Anthropicは最新のAIモデルであるClaude 3.7 Sonnetを、クラシックなGame Boyゲーム、ポケモン赤で試すことを決定しました。月曜日に公開されたブログ投稿によると、同社はこのモデルに必要なものを装備しました：メモリ、画面のピクセルを読み取る能力、そしてボタンを押したりゲーム画面内を移動したりする力です。この設定により、Claude 3.7 Sonnetはポケモンの世界に飛び込み、プレイを続けることができました。

Claude 3.7 Sonnetを際立たせるのは、その「拡張思考」の能力です。OpenAIのo3-miniやDeepSeekのR1のような他のモデルと同様に、計算能力を高め、じっくり考える時間を取ることで難しい問題に取り組むことができます。

この機能はポケモン赤でゲームチェンジャーであることが証明されました。古いClaude 3.0 Sonnetはパレットタウンのスタートエリアから抜け出すことさえできませんでしたが、Claude 3.7 Sonnetは3人のジムリーダーを倒し、彼らのバッジを獲得しました。

Anthropic ポケモン赤

画像提供：Anthropic

さて、AnthropicはClaude 3.7 Sonnetがこれらの成果を達成するのに必要な計算能力や所要時間を具体的に明かしませんでした。彼らはただ、モデルが最後のジムリーダーであるマチスと対決するために、驚くべき35,000のアクションを実行したと述べました。

先週、ある研究者がClaude 3.7 Sonnetの早期プレビューを試しました。
結果は驚くべきものでした。数時間以内に、Claudeはカツラを倒しました。数日後にはカスミを圧倒しました。古いモデルではほとんど達成できなかった進歩です。
拡張思考が非常に効果的であることが分かりました。pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025年2月25日

すぐにでも賢い開発者が詳細を解明するでしょう。

ポケモン赤はちょっとした楽しいテストのように思えるかもしれませんが、実際にはゲームはAIのベンチマークとして長い間使われてきました。ここ数ヶ月だけでも、AIモデルがストリートファイターからピクショナリーまで、さまざまなゲームをどれだけうまくプレイできるかをテストする新しいアプリやプラットフォームがたくさん登場しています。

グーグルのAI「Gemini」が「ポケモンブルー」をアシストで攻略グーグルのAIマイルストーン：古典的なポケモンアドベンチャーを制覇グーグルの最先端AIモデルが、1996年にゲームボーイで発売された「ポケモンブルー」を完成させるという、特筆すべきゲーム上のブレークスルーを達成したようだ。CEOのスンダル・ピチャイはソーシャルメディアでこの偉業を祝ったが、この偉業には重要な背景がある。Gemini Plays Pokémonのライブストリーム・プロジェクトは、実際

AIベンチマークに関する議論はポケモンに到達しましたポケモンの最愛の世界でさえ、AIのベンチマークを取り巻くドラマの影響を受けません。 Xに関する最近のウイルスの投稿は、Googleの最新のGeminiモデルが古典的なポケモンビデオゲームの3部作で人類の主要なクロードモデルを上回っていたと主張し、かなりの話題を刺激しました。投稿によると、ジェミニ

AIを駆使したカバーレター：ジャーナル投稿のためのエキスパートガイド競争の激しい今日の学術出版環境では、効果的なカバーレターを作成することが、原稿の採否を決定的に左右します。ChatGPTのようなAIを搭載したツールが、この重要なタスクをいかに効率化し、ジャーナル編集者の目を引く洗練されたプロフェッショナルなレターを作成できるかをご覧ください。ChatGPTの包括的なガイドでは、投稿パッケージを最適化し、出版を最大限に成功させるための戦略をステップごとに紹介してい

コメント (18)

0/200

提出する

BillyAdams

2025年8月27日 21:59:25 JST

Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎

FrankSanchez

2025年8月12日 2:01:02 JST

Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄

PaulSanchez

2025年7月23日 13:59:29 JST

Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️

LawrenceLopez

2025年4月22日 13:33:07 JST

Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂

JeffreyRamirez

2025年4月20日 17:47:48 JST

Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂

FrankSmith

2025年4月17日 23:27:49 JST

포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂

トップニュース

2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 Gemini 2.5 ProはClaudeよりも無制限で安価で、GPT-4O AIボイスオーバー：リアルな声制作究極ガイドカンビウムのAIは、廃棄物を木材に変換します AI BuilderとPower Automateがドキュメントの要約を革新 Openaiは、より良いチャットのためにAIの音声アシスタントを強化します AI統合のためにデータが信頼できることを確認する方法 Notebooklmはグローバルに拡張し、スライドを追加し、ファクトチェックを強化します米国のデータセンターへの微調整は、76 GWの新しい電源容量のロックを解除できます GoogleはAIを利用して、詐欺の疑いのために3900万を超える広告アカウントを一時停止します

もっと

特集