AIベンチマークに関する議論はポケモンに到達しました

ポケモンの愛される世界でさえ、AIベンチマークをめぐる騒動から逃れられません。最近、Xでバズった投稿が話題を呼び、Googleの最新Geminiモデルが、クラシックなポケモンビデオゲーム三部作でAnthropicのトップモデルClaudeを上回ったと主張しました。投稿によると、Geminiは開発者のTwitch配信でラベンダータウンに到達し、2月下旬時点でClaudeはムーン山で遅れをとっていました。
GeminiはポケモンでClaudeを現在リード、ラベンダータウンに到達
視聴者119人だけ、めっちゃ過小評価されてる配信 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
しかし、この投稿が都合よく省いたのは、Geminiが少し不公平な優位性を持っていた事実です。Redditの鋭いユーザーたちがすぐに指摘したのは、Geminiの配信の背後にいた開発者がカスタムミニマップを作成していたことです。この便利なツールは、モデルがゲーム内の「タイル」(例:切れる木など)を認識するのを助け、Geminiがスクリーンショットを分析して次の行動を決める時間を大幅に短縮します。
ポケモンは最も真剣なAIベンチマークではないかもしれませんが、異なる設定がテスト結果を歪めることを示す、楽しくも示唆に富んだ例です。たとえば、Anthropicの最新モデル、Anthropic 3.7 Sonnetは、コーディング能力をテストするSWE-bench Verifiedベンチマークで62.3%の精度を記録しました。しかし、Anthropicが作った「カスタムスキャフォールド」を使うと、そのスコアは70.3%に跳ね上がりました。
それだけではありません。Metaは新しいモデル、Llama 4 Maverickを取り、LM Arenaベンチマーク用に特別に微調整しました。標準バージョンのモデルは同じテストでそれほど良い結果を残せませんでした。
AIベンチマークは、ポケモンの例を含めて、すでに当たり外れがあるものですが、これらのカスタム調整や非標準的なアプローチは、市場に出るモデル間の意味ある比較をさらに難しくします。リンゴとリンゴを比較することが、日に日に難しくなっているようです。
関連記事
SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗
Salesforceは新しい職場AI戦略を発表し、月曜日にSlackの会話に統合された専門の「デジタルチームメイト」を導入した。新ツール「SlackのAgentforce」は、企業が職場チャットを検索し、会社データにアクセスし、従業員が日常的に働くメッセージングプラットフォーム内でアクションを実行するタスク特化型AIエージェントを作成・展開できる。「専門の従業員が協力して問題を解決するように、クラ
Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化
Oracleは、Financial Timesが報じたところによると、OpenAIが開発するテキサスの主要な新データセンターを動かすために、約40億ドルのNvidiaチップに投資する予定です。この取引は、これまでで最大規模のチップ取得の一つであり、AIコンピューティングリソースに対する急増する需要を強調しています。テキサス州アビリーンに位置するこの施設は、米国初の「Stargate」データセンター
Meta AIアプリがプレミアム層と広告を導入
MetaのAIアプリは、OpenAI、Google、Microsoftなどの競合他社と同様に、有料サブスクリプションを近日中に導入する可能性があります。2025年第1四半期の決算発表で、MetaのCEOマーク・ザッカーバーグは、プレミアムサービス計画を発表し、ユーザーがMeta AIで強化された計算能力や追加機能にアクセスできるようにすると述べました。ChatGPTに対抗するため、Metaは今週、
コメント (6)
0/200
DouglasMartínez
2025年8月7日 2:01:00 JST
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
0
JasonKing
2025年5月5日 20:38:52 JST
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
2025年5月5日 8:11:33 JST
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
WalterThomas
2025年5月5日 0:05:10 JST
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
AlbertThomas
2025年5月4日 15:38:28 JST
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
2025年5月4日 4:01:44 JST
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
ポケモンの愛される世界でさえ、AIベンチマークをめぐる騒動から逃れられません。最近、Xでバズった投稿が話題を呼び、Googleの最新Geminiモデルが、クラシックなポケモンビデオゲーム三部作でAnthropicのトップモデルClaudeを上回ったと主張しました。投稿によると、Geminiは開発者のTwitch配信でラベンダータウンに到達し、2月下旬時点でClaudeはムーン山で遅れをとっていました。
GeminiはポケモンでClaudeを現在リード、ラベンダータウンに到達
視聴者119人だけ、めっちゃ過小評価されてる配信 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
しかし、この投稿が都合よく省いたのは、Geminiが少し不公平な優位性を持っていた事実です。Redditの鋭いユーザーたちがすぐに指摘したのは、Geminiの配信の背後にいた開発者がカスタムミニマップを作成していたことです。この便利なツールは、モデルがゲーム内の「タイル」(例:切れる木など)を認識するのを助け、Geminiがスクリーンショットを分析して次の行動を決める時間を大幅に短縮します。
ポケモンは最も真剣なAIベンチマークではないかもしれませんが、異なる設定がテスト結果を歪めることを示す、楽しくも示唆に富んだ例です。たとえば、Anthropicの最新モデル、Anthropic 3.7 Sonnetは、コーディング能力をテストするSWE-bench Verifiedベンチマークで62.3%の精度を記録しました。しかし、Anthropicが作った「カスタムスキャフォールド」を使うと、そのスコアは70.3%に跳ね上がりました。
それだけではありません。Metaは新しいモデル、Llama 4 Maverickを取り、LM Arenaベンチマーク用に特別に微調整しました。標準バージョンのモデルは同じテストでそれほど良い結果を残せませんでした。
AIベンチマークは、ポケモンの例を含めて、すでに当たり外れがあるものですが、これらのカスタム調整や非標準的なアプローチは、市場に出るモデル間の意味ある比較をさらに難しくします。リンゴとリンゴを比較することが、日に日に難しくなっているようです。



Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯












