AIベンチマークに関する議論はポケモンに到達しました
2025年5月3日
JonathanDavis
0

ポケモンの最愛の世界でさえ、AIのベンチマークを取り巻くドラマの影響を受けません。 Xに関する最近のウイルスの投稿は、Googleの最新のGeminiモデルが古典的なポケモンビデオゲームの3部作で人類の主要なクロードモデルを上回っていたと主張し、かなりの話題を刺激しました。投稿によると、ジェミニは、2月下旬にマウントムーンで遅れをとっていた間、開発者のひきストリームでラベンダーの町に印象的に到着しました。
ジェミニは、ラベンダーの町に着いた後、文字通りポケモンのクロードATMよりも先にいます
119のライブビューは、非常に過小評価されているストリームpic.twitter.com/8avsovai4xのみです
- jush(@jush21e8)2025年4月10日
しかし、この投稿が都合よく省略したのは、ジェミニが少し不公平な利点を持っていたという事実でした。 Redditの精通したユーザーは、Geminiストリームの背後にある開発者がカスタムミニマップを作成したことをすぐに指摘しました。この気の利いたツールは、カットテーブルツリーなど、ゲーム内の「タイル」を認識するのに役立ちます。これは、ジェミニが次の動きを決定する前にスクリーンショットの分析に費やす必要がある時間を大幅に削減します。
現在、ポケモンは最も深刻なAIベンチマークではないかもしれませんが、これらのテストの結果をどのように異なるセットアップを歪めているかの楽しいことを伝える例として役立ちます。たとえば、人類の最近のモデル、人類3.7ソネットを取ります。コーディングの腕前をテストすることを目的としたSWEベンチの検証済みベンチマークでは、62.3%の精度を獲得しました。しかし、人類がホイップした「カスタム足場」で、そのスコアは70.3%に跳ね上がりました。
そして、それはそこで止まりません。メタは、新しいモデルの1つであるLlama 4 Maverickを採用し、LM Arena Benchmark専用に微調整しました。モデルのバニラバージョンは、同じテストではほとんど機能しませんでした。
フレンドリーなポケモンの例を含むAIベンチマークはすでに少しヒットまたはミスであることを考えると、これらのカスタム調整と非標準的なアプローチは、モデルが市場に出回っているときに意味のある比較を引き出すことをさらに難しくしています。リンゴとリンゴを比較すると、その日までに難しくなっているようです。
関連記事
2025年4月のトップ10 AIマーケティングツール
人工知能(AI)は左右に産業を揺さぶっていますが、マーケティングも例外ではありません。小規模なスタートアップから大企業まで、企業はAIマーケティングツールにますます目を向けて、ブランドの可視性を高め、成長を促進しています。これらのツールをビジネスに組み込む
ウィキペディアはAI開発者にボットスクレーパーをかわすためにデータを提供しています
Wikimedia Foundationを通じて、Wikipediaを削除するAIデータを管理するウィキペディアの新しい戦略は、サーバー上のAIデータスクレイピングの影響を管理するための積極的なステップを踏み出しています。水曜日に、彼らはGoogleが所有し、データサイエンスと専用のプラットフォームであるKaggleとのコラボレーションを発表しました。
HuaweiのAIハードウェアのブレークスルーは、Nvidiaの支配に挑戦します
中国のハイテク大手であるグローバルAIチップレースHuaweiにおけるHuaweiの大胆な動きは、グローバルAIチップレースを揺るがす可能性のある大きな前進を遂げました。彼らは、The CloudMatrix 384 Supernodeという新しいコンピューティングシステムを導入しました。これは、地元のメディアによると、同様のテクノを上回ります
コメント (0)
0/200






ポケモンの最愛の世界でさえ、AIのベンチマークを取り巻くドラマの影響を受けません。 Xに関する最近のウイルスの投稿は、Googleの最新のGeminiモデルが古典的なポケモンビデオゲームの3部作で人類の主要なクロードモデルを上回っていたと主張し、かなりの話題を刺激しました。投稿によると、ジェミニは、2月下旬にマウントムーンで遅れをとっていた間、開発者のひきストリームでラベンダーの町に印象的に到着しました。
ジェミニは、ラベンダーの町に着いた後、文字通りポケモンのクロードATMよりも先にいます
119のライブビューは、非常に過小評価されているストリームpic.twitter.com/8avsovai4xのみです
- jush(@jush21e8)2025年4月10日
しかし、この投稿が都合よく省略したのは、ジェミニが少し不公平な利点を持っていたという事実でした。 Redditの精通したユーザーは、Geminiストリームの背後にある開発者がカスタムミニマップを作成したことをすぐに指摘しました。この気の利いたツールは、カットテーブルツリーなど、ゲーム内の「タイル」を認識するのに役立ちます。これは、ジェミニが次の動きを決定する前にスクリーンショットの分析に費やす必要がある時間を大幅に削減します。
現在、ポケモンは最も深刻なAIベンチマークではないかもしれませんが、これらのテストの結果をどのように異なるセットアップを歪めているかの楽しいことを伝える例として役立ちます。たとえば、人類の最近のモデル、人類3.7ソネットを取ります。コーディングの腕前をテストすることを目的としたSWEベンチの検証済みベンチマークでは、62.3%の精度を獲得しました。しかし、人類がホイップした「カスタム足場」で、そのスコアは70.3%に跳ね上がりました。
そして、それはそこで止まりません。メタは、新しいモデルの1つであるLlama 4 Maverickを採用し、LM Arena Benchmark専用に微調整しました。モデルのバニラバージョンは、同じテストではほとんど機能しませんでした。
フレンドリーなポケモンの例を含むAIベンチマークはすでに少しヒットまたはミスであることを考えると、これらのカスタム調整と非標準的なアプローチは、モデルが市場に出回っているときに意味のある比較を引き出すことをさらに難しくしています。リンゴとリンゴを比較すると、その日までに難しくなっているようです。











