AIベンチマークに関する議論はポケモンに到達しました

家

ニュース

2025年5月3日

JonathanDavis

122

# ai # pokemon

AIベンチマークに関する議論はポケモンに到達しました

ポケモンの愛される世界でさえ、AIベンチマークをめぐる騒動から逃れられません。最近、Xでバズった投稿が話題を呼び、Googleの最新Geminiモデルが、クラシックなポケモンビデオゲーム三部作でAnthropicのトップモデルClaudeを上回ったと主張しました。投稿によると、Geminiは開発者のTwitch配信でラベンダータウンに到達し、2月下旬時点でClaudeはムーン山で遅れをとっていました。

GeminiはポケモンでClaudeを現在リード、ラベンダータウンに到達

視聴者119人だけ、めっちゃ過小評価されてる配信 pic.twitter.com/8AvSovAI4x

— Jush (@Jush21e8) 2025年4月10日

しかし、この投稿が都合よく省いたのは、Geminiが少し不公平な優位性を持っていた事実です。Redditの鋭いユーザーたちがすぐに指摘したのは、Geminiの配信の背後にいた開発者がカスタムミニマップを作成していたことです。この便利なツールは、モデルがゲーム内の「タイル」（例：切れる木など）を認識するのを助け、Geminiがスクリーンショットを分析して次の行動を決める時間を大幅に短縮します。

ポケモンは最も真剣なAIベンチマークではないかもしれませんが、異なる設定がテスト結果を歪めることを示す、楽しくも示唆に富んだ例です。たとえば、Anthropicの最新モデル、Anthropic 3.7 Sonnetは、コーディング能力をテストするSWE-bench Verifiedベンチマークで62.3%の精度を記録しました。しかし、Anthropicが作った「カスタムスキャフォールド」を使うと、そのスコアは70.3%に跳ね上がりました。

それだけではありません。Metaは新しいモデル、Llama 4 Maverickを取り、LM Arenaベンチマーク用に特別に微調整しました。標準バージョンのモデルは同じテストでそれほど良い結果を残せませんでした。

AIベンチマークは、ポケモンの例を含めて、すでに当たり外れがあるものですが、これらのカスタム調整や非標準的なアプローチは、市場に出るモデル間の意味ある比較をさらに難しくします。リンゴとリンゴを比較することが、日に日に難しくなっているようです。

SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 Salesforceは新しい職場AI戦略を発表し、月曜日にSlackの会話に統合された専門の「デジタルチームメイト」を導入した。新ツール「SlackのAgentforce」は、企業が職場チャットを検索し、会社データにアクセスし、従業員が日常的に働くメッセージングプラットフォーム内でアクションを実行するタスク特化型AIエージェントを作成・展開できる。「専門の従業員が協力して問題を解決するように、クラ

Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化 Oracleは、Financial Timesが報じたところによると、OpenAIが開発するテキサスの主要な新データセンターを動かすために、約40億ドルのNvidiaチップに投資する予定です。この取引は、これまでで最大規模のチップ取得の一つであり、AIコンピューティングリソースに対する急増する需要を強調しています。テキサス州アビリーンに位置するこの施設は、米国初の「Stargate」データセンター

Meta AIアプリがプレミアム層と広告を導入 MetaのAIアプリは、OpenAI、Google、Microsoftなどの競合他社と同様に、有料サブスクリプションを近日中に導入する可能性があります。2025年第1四半期の決算発表で、MetaのCEOマーク・ザッカーバーグは、プレミアムサービス計画を発表し、ユーザーがMeta AIで強化された計算能力や追加機能にアクセスできるようにすると述べました。ChatGPTに対抗するため、Metaは今週、

コメント (6)

0/200

提出する

DouglasMartínez

2025年8月7日 2:01:00 JST

Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️

JasonKing

2025年5月5日 20:38:52 JST

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams

2025年5月5日 8:11:33 JST

ポケモンでAIのベンチマークを議論するなんて、信じられない！AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない？🤯

WalterThomas

2025年5月5日 0:05:10 JST

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

AlbertThomas

2025年5月4日 15:38:28 JST

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts

2025年5月4日 4:01:44 JST

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

トップニュース

Gemini 2.5 ProはClaudeよりも無制限で安価で、GPT-4O 2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 AIボイスオーバー：リアルな声制作究極ガイド Openaiは、より良いチャットのためにAIの音声アシスタントを強化します AI統合のためにデータが信頼できることを確認する方法 Notebooklmはグローバルに拡張し、スライドを追加し、ファクトチェックを強化します米国のデータセンターへの微調整は、76 GWの新しい電源容量のロックを解除できますカンビウムのAIは、廃棄物を木材に変換します 2026年までに複数のNYCのパワーを消費するAIコンピューティングは、創設者によると AIボイスクローン：音声変換を極めるための完全ガイド

もっと

特集