AIベンチマークに関する議論はポケモンに到達しました
2025年5月3日
JonathanDavis
0

ポケモンの最愛の世界でさえ、AIのベンチマークを取り巻くドラマの影響を受けません。 Xに関する最近のウイルスの投稿は、Googleの最新のGeminiモデルが古典的なポケモンビデオゲームの3部作で人類の主要なクロードモデルを上回っていたと主張し、かなりの話題を刺激しました。投稿によると、ジェミニは、2月下旬にマウントムーンで遅れをとっていた間、開発者のひきストリームでラベンダーの町に印象的に到着しました。
ジェミニは、ラベンダーの町に着いた後、文字通りポケモンのクロードATMよりも先にいます
119のライブビューは、非常に過小評価されているストリームpic.twitter.com/8avsovai4xのみです
- jush(@jush21e8)2025年4月10日
しかし、この投稿が都合よく省略したのは、ジェミニが少し不公平な利点を持っていたという事実でした。 Redditの精通したユーザーは、Geminiストリームの背後にある開発者がカスタムミニマップを作成したことをすぐに指摘しました。この気の利いたツールは、カットテーブルツリーなど、ゲーム内の「タイル」を認識するのに役立ちます。これは、ジェミニが次の動きを決定する前にスクリーンショットの分析に費やす必要がある時間を大幅に削減します。
現在、ポケモンは最も深刻なAIベンチマークではないかもしれませんが、これらのテストの結果をどのように異なるセットアップを歪めているかの楽しいことを伝える例として役立ちます。たとえば、人類の最近のモデル、人類3.7ソネットを取ります。コーディングの腕前をテストすることを目的としたSWEベンチの検証済みベンチマークでは、62.3%の精度を獲得しました。しかし、人類がホイップした「カスタム足場」で、そのスコアは70.3%に跳ね上がりました。
そして、それはそこで止まりません。メタは、新しいモデルの1つであるLlama 4 Maverickを採用し、LM Arena Benchmark専用に微調整しました。モデルのバニラバージョンは、同じテストではほとんど機能しませんでした。
フレンドリーなポケモンの例を含むAIベンチマークはすでに少しヒットまたはミスであることを考えると、これらのカスタム調整と非標準的なアプローチは、モデルが市場に出回っているときに意味のある比較を引き出すことをさらに難しくしています。リンゴとリンゴを比較すると、その日までに難しくなっているようです。
関連記事
Top 10 AI Marketing Tools for April 2025
Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers
Wikipedia's New Strategy to Manage AI Data Scraping
Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance
Huawei's Bold Move in the Global AI Chip Race
Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
コメント (0)
0/200






ポケモンの最愛の世界でさえ、AIのベンチマークを取り巻くドラマの影響を受けません。 Xに関する最近のウイルスの投稿は、Googleの最新のGeminiモデルが古典的なポケモンビデオゲームの3部作で人類の主要なクロードモデルを上回っていたと主張し、かなりの話題を刺激しました。投稿によると、ジェミニは、2月下旬にマウントムーンで遅れをとっていた間、開発者のひきストリームでラベンダーの町に印象的に到着しました。
ジェミニは、ラベンダーの町に着いた後、文字通りポケモンのクロードATMよりも先にいます
119のライブビューは、非常に過小評価されているストリームpic.twitter.com/8avsovai4xのみです
- jush(@jush21e8)2025年4月10日
しかし、この投稿が都合よく省略したのは、ジェミニが少し不公平な利点を持っていたという事実でした。 Redditの精通したユーザーは、Geminiストリームの背後にある開発者がカスタムミニマップを作成したことをすぐに指摘しました。この気の利いたツールは、カットテーブルツリーなど、ゲーム内の「タイル」を認識するのに役立ちます。これは、ジェミニが次の動きを決定する前にスクリーンショットの分析に費やす必要がある時間を大幅に削減します。
現在、ポケモンは最も深刻なAIベンチマークではないかもしれませんが、これらのテストの結果をどのように異なるセットアップを歪めているかの楽しいことを伝える例として役立ちます。たとえば、人類の最近のモデル、人類3.7ソネットを取ります。コーディングの腕前をテストすることを目的としたSWEベンチの検証済みベンチマークでは、62.3%の精度を獲得しました。しかし、人類がホイップした「カスタム足場」で、そのスコアは70.3%に跳ね上がりました。
そして、それはそこで止まりません。メタは、新しいモデルの1つであるLlama 4 Maverickを採用し、LM Arena Benchmark専用に微調整しました。モデルのバニラバージョンは、同じテストではほとんど機能しませんでした。
フレンドリーなポケモンの例を含むAIベンチマークはすでに少しヒットまたはミスであることを考えると、これらのカスタム調整と非標準的なアプローチは、モデルが市場に出回っているときに意味のある比較を引き出すことをさらに難しくしています。リンゴとリンゴを比較すると、その日までに難しくなっているようです。











