AIベンチマークに関する議論はポケモンに到達しました

ポケモンの愛される世界でさえ、AIベンチマークをめぐる騒動から逃れられません。最近、Xでバズった投稿が話題を呼び、Googleの最新Geminiモデルが、クラシックなポケモンビデオゲーム三部作でAnthropicのトップモデルClaudeを上回ったと主張しました。投稿によると、Geminiは開発者のTwitch配信でラベンダータウンに到達し、2月下旬時点でClaudeはムーン山で遅れをとっていました。
GeminiはポケモンでClaudeを現在リード、ラベンダータウンに到達
視聴者119人だけ、めっちゃ過小評価されてる配信 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
しかし、この投稿が都合よく省いたのは、Geminiが少し不公平な優位性を持っていた事実です。Redditの鋭いユーザーたちがすぐに指摘したのは、Geminiの配信の背後にいた開発者がカスタムミニマップを作成していたことです。この便利なツールは、モデルがゲーム内の「タイル」(例:切れる木など)を認識するのを助け、Geminiがスクリーンショットを分析して次の行動を決める時間を大幅に短縮します。
ポケモンは最も真剣なAIベンチマークではないかもしれませんが、異なる設定がテスト結果を歪めることを示す、楽しくも示唆に富んだ例です。たとえば、Anthropicの最新モデル、Anthropic 3.7 Sonnetは、コーディング能力をテストするSWE-bench Verifiedベンチマークで62.3%の精度を記録しました。しかし、Anthropicが作った「カスタムスキャフォールド」を使うと、そのスコアは70.3%に跳ね上がりました。
それだけではありません。Metaは新しいモデル、Llama 4 Maverickを取り、LM Arenaベンチマーク用に特別に微調整しました。標準バージョンのモデルは同じテストでそれほど良い結果を残せませんでした。
AIベンチマークは、ポケモンの例を含めて、すでに当たり外れがあるものですが、これらのカスタム調整や非標準的なアプローチは、市場に出るモデル間の意味ある比較をさらに難しくします。リンゴとリンゴを比較することが、日に日に難しくなっているようです。
関連記事
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
カカオ・モビリティ、物理AIに向けたレベル4自動運転のロードマップを提示
カカオ・モビリティは、フィジカルAI戦略の一環として、レベル4の自動運転技術を自社開発する計画だ。ソウルCOEXで開催された「2026ワールドITショー」のカンファレンスにおいて、カカオモビリティのフィジカルAI部門長兼副社長であるキム・ジンギュ氏がロードマップを発表した。同氏の講演は、フィジカルAI時代におけるモビリティプラットフォームを軸とした自動運転サービスに焦点を当てたものだった。聯合
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
関連特集おすすめ
コメント (9)
0/500
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

ポケモンの愛される世界でさえ、AIベンチマークをめぐる騒動から逃れられません。最近、Xでバズった投稿が話題を呼び、Googleの最新Geminiモデルが、クラシックなポケモンビデオゲーム三部作でAnthropicのトップモデルClaudeを上回ったと主張しました。投稿によると、Geminiは開発者のTwitch配信でラベンダータウンに到達し、2月下旬時点でClaudeはムーン山で遅れをとっていました。
GeminiはポケモンでClaudeを現在リード、ラベンダータウンに到達
視聴者119人だけ、めっちゃ過小評価されてる配信 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
しかし、この投稿が都合よく省いたのは、Geminiが少し不公平な優位性を持っていた事実です。Redditの鋭いユーザーたちがすぐに指摘したのは、Geminiの配信の背後にいた開発者がカスタムミニマップを作成していたことです。この便利なツールは、モデルがゲーム内の「タイル」(例:切れる木など)を認識するのを助け、Geminiがスクリーンショットを分析して次の行動を決める時間を大幅に短縮します。
ポケモンは最も真剣なAIベンチマークではないかもしれませんが、異なる設定がテスト結果を歪めることを示す、楽しくも示唆に富んだ例です。たとえば、Anthropicの最新モデル、Anthropic 3.7 Sonnetは、コーディング能力をテストするSWE-bench Verifiedベンチマークで62.3%の精度を記録しました。しかし、Anthropicが作った「カスタムスキャフォールド」を使うと、そのスコアは70.3%に跳ね上がりました。
それだけではありません。Metaは新しいモデル、Llama 4 Maverickを取り、LM Arenaベンチマーク用に特別に微調整しました。標準バージョンのモデルは同じテストでそれほど良い結果を残せませんでした。
AIベンチマークは、ポケモンの例を含めて、すでに当たり外れがあるものですが、これらのカスタム調整や非標準的なアプローチは、市場に出るモデル間の意味ある比較をさらに難しくします。リンゴとリンゴを比較することが、日に日に難しくなっているようです。
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯





家






