AIベンチマークに関する議論はポケモンに到達しました

ポケモンの最愛の世界でさえ、AIのベンチマークを取り巻くドラマの影響を受けません。 Xに関する最近のウイルスの投稿は、Googleの最新のGeminiモデルが古典的なポケモンビデオゲームの3部作で人類の主要なクロードモデルを上回っていたと主張し、かなりの話題を刺激しました。投稿によると、ジェミニは、2月下旬にマウントムーンで遅れをとっていた間、開発者のひきストリームでラベンダーの町に印象的に到着しました。
ジェミニは、ラベンダーの町に着いた後、文字通りポケモンのクロードATMよりも先にいます
119のライブビューは、非常に過小評価されているストリームpic.twitter.com/8avsovai4xのみです
- jush(@jush21e8)2025年4月10日
しかし、この投稿が都合よく省略したのは、ジェミニが少し不公平な利点を持っていたという事実でした。 Redditの精通したユーザーは、Geminiストリームの背後にある開発者がカスタムミニマップを作成したことをすぐに指摘しました。この気の利いたツールは、カットテーブルツリーなど、ゲーム内の「タイル」を認識するのに役立ちます。これは、ジェミニが次の動きを決定する前にスクリーンショットの分析に費やす必要がある時間を大幅に削減します。
現在、ポケモンは最も深刻なAIベンチマークではないかもしれませんが、これらのテストの結果をどのように異なるセットアップを歪めているかの楽しいことを伝える例として役立ちます。たとえば、人類の最近のモデル、人類3.7ソネットを取ります。コーディングの腕前をテストすることを目的としたSWEベンチの検証済みベンチマークでは、62.3%の精度を獲得しました。しかし、人類がホイップした「カスタム足場」で、そのスコアは70.3%に跳ね上がりました。
そして、それはそこで止まりません。メタは、新しいモデルの1つであるLlama 4 Maverickを採用し、LM Arena Benchmark専用に微調整しました。モデルのバニラバージョンは、同じテストではほとんど機能しませんでした。
フレンドリーなポケモンの例を含むAIベンチマークはすでに少しヒットまたはミスであることを考えると、これらのカスタム調整と非標準的なアプローチは、モデルが市場に出回っているときに意味のある比較を引き出すことをさらに難しくしています。リンゴとリンゴを比較すると、その日までに難しくなっているようです。
関連記事
xAI đăng các lời nhắc hậu trường của Grok
xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự
Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này
Xin chào mọi người, chào mừng trở lại với bản tin AI của TechCrunch! Nếu bạn chưa đăng ký, bạn có thể đăng ký tại đây để nhận bản tin trực tiếp vào hộp thư đến của bạn mỗi thứ Tư.Chúng tôi đã tạm nghỉ
Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI
NotebookLM Đã Có Mặt Trên Di Động: Trợ Lý Nghiên Cứu AI Giờ Đã Có Trên Android & iOS Phản hồi về NotebookLM đã vượt xa mong đợi—hàng triệu người dùng đã chọn nó làm công cụ kh
コメント (5)
0/200
JasonKing
2025年5月5日 0:00:00 GMT
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
2025年5月5日 0:00:00 GMT
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
AlbertThomas
2025年5月4日 0:00:00 GMT
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
2025年5月4日 0:00:00 GMT
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
WalterThomas
2025年5月4日 0:00:00 GMT
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
ポケモンの最愛の世界でさえ、AIのベンチマークを取り巻くドラマの影響を受けません。 Xに関する最近のウイルスの投稿は、Googleの最新のGeminiモデルが古典的なポケモンビデオゲームの3部作で人類の主要なクロードモデルを上回っていたと主張し、かなりの話題を刺激しました。投稿によると、ジェミニは、2月下旬にマウントムーンで遅れをとっていた間、開発者のひきストリームでラベンダーの町に印象的に到着しました。
ジェミニは、ラベンダーの町に着いた後、文字通りポケモンのクロードATMよりも先にいます
119のライブビューは、非常に過小評価されているストリームpic.twitter.com/8avsovai4xのみです
- jush(@jush21e8)2025年4月10日
しかし、この投稿が都合よく省略したのは、ジェミニが少し不公平な利点を持っていたという事実でした。 Redditの精通したユーザーは、Geminiストリームの背後にある開発者がカスタムミニマップを作成したことをすぐに指摘しました。この気の利いたツールは、カットテーブルツリーなど、ゲーム内の「タイル」を認識するのに役立ちます。これは、ジェミニが次の動きを決定する前にスクリーンショットの分析に費やす必要がある時間を大幅に削減します。
現在、ポケモンは最も深刻なAIベンチマークではないかもしれませんが、これらのテストの結果をどのように異なるセットアップを歪めているかの楽しいことを伝える例として役立ちます。たとえば、人類の最近のモデル、人類3.7ソネットを取ります。コーディングの腕前をテストすることを目的としたSWEベンチの検証済みベンチマークでは、62.3%の精度を獲得しました。しかし、人類がホイップした「カスタム足場」で、そのスコアは70.3%に跳ね上がりました。
そして、それはそこで止まりません。メタは、新しいモデルの1つであるLlama 4 Maverickを採用し、LM Arena Benchmark専用に微調整しました。モデルのバニラバージョンは、同じテストではほとんど機能しませんでした。
フレンドリーなポケモンの例を含むAIベンチマークはすでに少しヒットまたはミスであることを考えると、これらのカスタム調整と非標準的なアプローチは、モデルが市場に出回っているときに意味のある比較を引き出すことをさらに難しくしています。リンゴとリンゴを比較すると、その日までに難しくなっているようです。




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯












