Debatten über AI -Benchmarking haben Pokémon erreicht

Sogar die geliebte Welt von Pokémon ist nicht immun gegen das Drama, das KI -Benchmarks umgibt. Ein aktueller viraler Beitrag auf X war ein wesentlicher Bestand, und behauptete, dass Googles neuestes Gemini -Modell das führende Claude -Modell von Anthropic in der klassischen Pokémon -Videospiel -Trilogie übertroffen habe. Laut dem Posten hatte Gemini es beeindruckend in Lavender Town in einem Entwickler -Twitch -Bach geschafft, während Claude Ende Februar auf dem Mount Moon zurückgeblieben war.
Gemini ist buchstäblich vor Claude ATM in Pokemon, nachdem er Lavendelstadt erreicht hatte
119 Live -Aufrufe nur übrigens, unglaublich unterschätzte Stream pic.twitter.com/8avsovai4x
- JUSH (@JUSH21E8) 10. April 2025
Was dieser Beitrag jedoch bequem ausgelassen hat, war die Tatsache, dass Gemini einen etwas unfairen Vorteil hatte. Savvy -Benutzer bei Reddit wiesen schnell darauf hin, dass der Entwickler hinter dem Gemini -Stream eine benutzerdefinierte Minimap erstellt habe. Dieses raffinierte Tool fördert das Modell bei der Erkennung von "Fliesen" im Spiel, wie z. B. Cuttable -Bäume, was die Zeit, die Gemini benötigt, um Screenshots zu analysieren, erheblich verkürzt, bevor er sich für den nächsten Schritt entscheidet.
Während Pokémon vielleicht nicht der schwerwiegendste KI -Benchmark da draußen ist, dient es als lustiges, aber aussagekräftiges Beispiel dafür, wie unterschiedliche Setups die Ergebnisse dieser Tests verzerren können. Nehmen Sie beispielsweise Anthropics aktuelles Modell Anthropic 3.7 Sonett. Auf dem verifizierten Benchmark der SWE-Bench, der Codierungskenntnisse testen soll, erzielte sie eine Genauigkeit von 62,3%. Aber mit einem "benutzerdefinierten Gerüst", das anthropisch aufpeitschte, stieg diese Punktzahl auf 70,3%.
Und es hört hier nicht auf. Meta nahm eines seiner neueren Models, Lama 4 Maverick, und fand es speziell für die LM Arena Benchmark. Die Vanilleversion des Modells färbte sich bei demselben Test nicht annähernd so gut.
Angesichts der Tatsache, dass KI-Benchmarks, einschließlich unseres freundlichen Pokémon-Beispiels, bereits ein bisschen Hit-or-Miss sind, machen diese benutzerdefinierten Optimierungen und nicht standardmäßigen Ansätze es einfach noch schwieriger, sinnvolle Vergleiche zwischen Modellen zu ziehen, wenn sie auf den Markt kommen. Es scheint, als würde der Vergleich von Äpfeln mit Äpfeln von Tag zu Tag schwieriger werden.
Verwandter Artikel
xAI đăng các lời nhắc hậu trường của Grok
xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự
Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này
Xin chào mọi người, chào mừng trở lại với bản tin AI của TechCrunch! Nếu bạn chưa đăng ký, bạn có thể đăng ký tại đây để nhận bản tin trực tiếp vào hộp thư đến của bạn mỗi thứ Tư.Chúng tôi đã tạm nghỉ
Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI
NotebookLM Đã Có Mặt Trên Di Động: Trợ Lý Nghiên Cứu AI Giờ Đã Có Trên Android & iOS Phản hồi về NotebookLM đã vượt xa mong đợi—hàng triệu người dùng đã chọn nó làm công cụ kh
Kommentare (5)
0/200
JasonKing
5. Mai 2025 00:00:00 GMT
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
5. Mai 2025 00:00:00 GMT
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
AlbertThomas
4. Mai 2025 00:00:00 GMT
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
4. Mai 2025 00:00:00 GMT
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
WalterThomas
4. Mai 2025 00:00:00 GMT
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
Sogar die geliebte Welt von Pokémon ist nicht immun gegen das Drama, das KI -Benchmarks umgibt. Ein aktueller viraler Beitrag auf X war ein wesentlicher Bestand, und behauptete, dass Googles neuestes Gemini -Modell das führende Claude -Modell von Anthropic in der klassischen Pokémon -Videospiel -Trilogie übertroffen habe. Laut dem Posten hatte Gemini es beeindruckend in Lavender Town in einem Entwickler -Twitch -Bach geschafft, während Claude Ende Februar auf dem Mount Moon zurückgeblieben war.
Gemini ist buchstäblich vor Claude ATM in Pokemon, nachdem er Lavendelstadt erreicht hatte
119 Live -Aufrufe nur übrigens, unglaublich unterschätzte Stream pic.twitter.com/8avsovai4x
- JUSH (@JUSH21E8) 10. April 2025
Was dieser Beitrag jedoch bequem ausgelassen hat, war die Tatsache, dass Gemini einen etwas unfairen Vorteil hatte. Savvy -Benutzer bei Reddit wiesen schnell darauf hin, dass der Entwickler hinter dem Gemini -Stream eine benutzerdefinierte Minimap erstellt habe. Dieses raffinierte Tool fördert das Modell bei der Erkennung von "Fliesen" im Spiel, wie z. B. Cuttable -Bäume, was die Zeit, die Gemini benötigt, um Screenshots zu analysieren, erheblich verkürzt, bevor er sich für den nächsten Schritt entscheidet.
Während Pokémon vielleicht nicht der schwerwiegendste KI -Benchmark da draußen ist, dient es als lustiges, aber aussagekräftiges Beispiel dafür, wie unterschiedliche Setups die Ergebnisse dieser Tests verzerren können. Nehmen Sie beispielsweise Anthropics aktuelles Modell Anthropic 3.7 Sonett. Auf dem verifizierten Benchmark der SWE-Bench, der Codierungskenntnisse testen soll, erzielte sie eine Genauigkeit von 62,3%. Aber mit einem "benutzerdefinierten Gerüst", das anthropisch aufpeitschte, stieg diese Punktzahl auf 70,3%.
Und es hört hier nicht auf. Meta nahm eines seiner neueren Models, Lama 4 Maverick, und fand es speziell für die LM Arena Benchmark. Die Vanilleversion des Modells färbte sich bei demselben Test nicht annähernd so gut.
Angesichts der Tatsache, dass KI-Benchmarks, einschließlich unseres freundlichen Pokémon-Beispiels, bereits ein bisschen Hit-or-Miss sind, machen diese benutzerdefinierten Optimierungen und nicht standardmäßigen Ansätze es einfach noch schwieriger, sinnvolle Vergleiche zwischen Modellen zu ziehen, wenn sie auf den Markt kommen. Es scheint, als würde der Vergleich von Äpfeln mit Äpfeln von Tag zu Tag schwieriger werden.




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯












