option
Maison
Nouvelles
Les débats sur l'analyse comparative de l'IA ont atteint Pokémon

Les débats sur l'analyse comparative de l'IA ont atteint Pokémon

3 mai 2025
89

Les débats sur l'analyse comparative de l'IA ont atteint Pokémon

Même le monde bien-aimé de Pokémon n'est pas à l'abri du drame entourant les repères de l'IA. Un récent post viral sur X a suscité tout à fait le buzz, affirmant que le dernier modèle de Gémeaux de Google avait dépassé le principal modèle Claude d'Anthropic dans la trilogie classique du jeu vidéo Pokémon. Selon le Post, Gemini était devenu impressionnant à Lavender Town dans le flux de Twitch d'un développeur, tandis que Claude était en retard à Mount Moon fin février.

Gemini est littéralement en avance sur Claude ATM à Pokémon après avoir atteint la ville de Lavender

119 Vues en direct uniquement btw, flux incroyablement sous-estimé pic.twitter.com/8avsovai4x

- Jush (@ Jush21e8) 10 avril 2025

Cependant, ce que ce post a facilement laissé de côté, c'est le fait que Gemini avait un peu un avantage injuste. Les utilisateurs avisés sur Reddit ont rapidement souligné que le développeur derrière le flux Gemini avait fabriqué une minimap personnalisée. Cet outil astucieux aide le modèle à reconnaître les "carreaux" dans le jeu, tels que les arbres CutTable, ce qui réduit considérablement le temps que Gemini doit passer à analyser des captures d'écran avant de décider de son prochain mouvement.

Maintenant, bien que Pokémon ne soit peut-être pas la référence IA la plus grave, cela sert d'exemple amusant mais révélateur de la façon dont différentes configurations peuvent fausser les résultats de ces tests. Prenez le modèle récent d'Anthropic, Anthropic 3.7 Sonnet, par exemple. Sur la référence vérifiée SWE-Bench, qui est destinée à tester les prouesses de codage, il a obtenu une précision de 62,3%. Mais, avec un "échafaudage personnalisé" que anthropique a fouetté, ce score est passé à 70,3%.

Et ça ne s'arrête pas là. Meta a pris l'un de ses nouveaux modèles, Llama 4 Maverick, et l'a affiné spécifiquement pour la référence LM Arena. La version vanille du modèle n'a pas aussi bien réussi sur le même test.

Étant donné que les repères de l'IA, y compris notre exemple de Pokémon sympathique, sont déjà un peu à succès, ces ajustements personnalisés et ces approches non standard rendent encore plus difficile pour faire des comparaisons significatives entre les modèles lorsqu'ils arrivent sur le marché. Il semble que comparer les pommes aux pommes pourrait devenir plus difficile de jour.

Article connexe
xAI đăng các lời nhắc hậu trường của Grok xAI đăng các lời nhắc hậu trường của Grok xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự
Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này Xin chào mọi người, chào mừng trở lại với bản tin AI của TechCrunch! Nếu bạn chưa đăng ký, bạn có thể đăng ký tại đây để nhận bản tin trực tiếp vào hộp thư đến của bạn mỗi thứ Tư.Chúng tôi đã tạm nghỉ
Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI NotebookLM Đã Có Mặt Trên Di Động: Trợ Lý Nghiên Cứu AI Giờ Đã Có Trên Android & iOS Phản hồi về NotebookLM đã vượt xa mong đợi—hàng triệu người dùng đã chọn nó làm công cụ kh
commentaires (5)
0/200
JasonKing
JasonKing 5 mai 2025 00:00:00 UTC

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 5 mai 2025 00:00:00 UTC

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

AlbertThomas
AlbertThomas 4 mai 2025 00:00:00 UTC

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 4 mai 2025 00:00:00 UTC

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

WalterThomas
WalterThomas 4 mai 2025 00:00:00 UTC

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

Retour en haut
OR