オプション
ニュース
AIベンチマークに関する議論はポケモンに到達しました

AIベンチマークに関する議論はポケモンに到達しました

2025年5月3日
122

AIベンチマークに関する議論はポケモンに到達しました

ポケモンの愛される世界でさえ、AIベンチマークをめぐる騒動から逃れられません。最近、Xでバズった投稿が話題を呼び、Googleの最新Geminiモデルが、クラシックなポケモンビデオゲーム三部作でAnthropicのトップモデルClaudeを上回ったと主張しました。投稿によると、Geminiは開発者のTwitch配信でラベンダータウンに到達し、2月下旬時点でClaudeはムーン山で遅れをとっていました。

GeminiはポケモンでClaudeを現在リード、ラベンダータウンに到達

視聴者119人だけ、めっちゃ過小評価されてる配信 pic.twitter.com/8AvSovAI4x

— Jush (@Jush21e8) 2025年4月10日

しかし、この投稿が都合よく省いたのは、Geminiが少し不公平な優位性を持っていた事実です。Redditの鋭いユーザーたちがすぐに指摘したのは、Geminiの配信の背後にいた開発者がカスタムミニマップを作成していたことです。この便利なツールは、モデルがゲーム内の「タイル」(例:切れる木など)を認識するのを助け、Geminiがスクリーンショットを分析して次の行動を決める時間を大幅に短縮します。

ポケモンは最も真剣なAIベンチマークではないかもしれませんが、異なる設定がテスト結果を歪めることを示す、楽しくも示唆に富んだ例です。たとえば、Anthropicの最新モデル、Anthropic 3.7 Sonnetは、コーディング能力をテストするSWE-bench Verifiedベンチマークで62.3%の精度を記録しました。しかし、Anthropicが作った「カスタムスキャフォールド」を使うと、そのスコアは70.3%に跳ね上がりました。

それだけではありません。Metaは新しいモデル、Llama 4 Maverickを取り、LM Arenaベンチマーク用に特別に微調整しました。標準バージョンのモデルは同じテストでそれほど良い結果を残せませんでした。

AIベンチマークは、ポケモンの例を含めて、すでに当たり外れがあるものですが、これらのカスタム調整や非標準的なアプローチは、市場に出るモデル間の意味ある比較をさらに難しくします。リンゴとリンゴを比較することが、日に日に難しくなっているようです。

関連記事
"ドットAIコンパニオンアプリが閉鎖を発表、パーソナライズドサービスを中止" 個人的な友人や親友として機能するように設計されたAIコンパニオン・アプリケーションであるDotが、金曜日の開発者からの発表によると、運営を終了する。Dotを開発したスタートアップのNew Computer社は、10月5日までサービスを提供し、ユーザーが個人データをエクスポートできるようにするとウェブサイトで述べている。このアプリは、共同設立者であるサム・ホイットモアと元アップルのデザイン・スペシャ
Anthropic、AIが作成した書籍の著作権侵害をめぐる訴訟を解決 Anthropic、AIが作成した書籍の著作権侵害をめぐる訴訟を解決 Anthropic社は、米国の著作者との重要な著作権紛争で解決に達し、高額になる可能性のある裁判を回避する集団訴訟の和解案に合意した。今週火曜日に裁判所文書に提出されたこの合意は、AI企業が海賊版の文学作品を使ってクロードモデルを訓練したという申し立てに起因する。和解の詳細は非公開だが、この訴訟は作家のアンドレア・バーツ、チャールズ・グレイバー、カーク・ウォレス・ジョンソンの主張に端を発している。
Figma、AIを搭載したアプリビルダー・ツールを全ユーザーに公開 Figma、AIを搭載したアプリビルダー・ツールを全ユーザーに公開 今年初めに発表された革新的なプロンプト・トゥ・アプリ開発プラットフォームであるFigma Makeが、正式にベータ版を終了し、全ユーザーにロールアウトしました。この画期的なツールは、グーグルのジェミニ・コード・アシストやマイクロソフトのギットハブ・コパイロットのようなAIを搭載したコーディング・アシスタントの仲間入りをし、クリエイターが従来のプログラミングの専門知識がなくても、自然言語の記述を機能
コメント (6)
0/200
DouglasMartínez
DouglasMartínez 2025年8月7日 2:01:00 JST

Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️

JasonKing
JasonKing 2025年5月5日 20:38:52 JST

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 2025年5月5日 8:11:33 JST

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

WalterThomas
WalterThomas 2025年5月5日 0:05:10 JST

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

AlbertThomas
AlbertThomas 2025年5月4日 15:38:28 JST

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 2025年5月4日 4:01:44 JST

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

トップに戻ります
OR