Los debates sobre la evaluación comparativa de IA han llegado a Pokémon

Incluso el querido mundo de Pokémon no es inmune al drama que rodea los puntos de referencia de IA. Una publicación viral reciente en X provocó bastante entusiasmo, alegando que el último modelo de Géminis de Google había superado el modelo de Claude de Anthrope en la clásica trilogía de videojuegos de Pokémon. Según el Post, Gemini había llegado de manera impresionante a Lavender Town en la corriente de contracción de un desarrollador, mientras que Claude se quedó atrás en Mount Moon a fines de febrero.
Géminis está literalmente por delante del cajero automático de Claude en Pokémon después de llegar a Lavender Town
119 vistas en vivo solo por cierto, transmisión increíblemente subestimada pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 de abril de 2025
Sin embargo, lo que esta publicación dejó de lado convenientemente fue el hecho de que Gemini tenía una ventaja un poco injusta. Los usuarios inteligentes en Reddit señalaron rápidamente que el desarrollador detrás de Gemini Stream había creado un minimap personalizado. Esta ingeniosa herramienta ayuda al modelo a reconocer "mosaicos" en el juego, como los árboles de corte, que reduce significativamente el tiempo que Gemini necesita pasar analizando capturas de pantalla antes de decidir su próximo movimiento.
Ahora, aunque Pokémon podría no ser el punto de referencia de IA más serio, sirve como un ejemplo divertido pero revelador de cómo las diferentes configuraciones pueden sesgar los resultados de estas pruebas. Tome el modelo reciente de Anthrope, el soneto Anthrope 3.7, por ejemplo. En el punto de referencia verificado SWE-Bench, que está destinado a probar la destreza de codificación, obtuvo una precisión del 62.3%. Pero, con un "andamio personalizado" que el antrópico azotó, ese puntaje aumentó al 70.3%.
Y no se detiene allí. Meta tomó uno de sus modelos más nuevos, Llama 4 Maverick, y lo ajustó específicamente para el LM Arena Benchmark. La versión de vainilla del modelo no le fue tan bien en la misma prueba.
Dado que los puntos de referencia de AI, incluido nuestro amigable ejemplo de Pokémon, ya son un poco exitosos, estos ajustes personalizados y los enfoques no estándar hacen que sea aún más complicado establecer comparaciones significativas entre los modelos a medida que llegan al mercado. Parece que comparar manzanas con manzanas podría estar cada vez más difícil cada día.
Artículo relacionado
xAI đăng các lời nhắc hậu trường của Grok
xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự
Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này
Xin chào mọi người, chào mừng trở lại với bản tin AI của TechCrunch! Nếu bạn chưa đăng ký, bạn có thể đăng ký tại đây để nhận bản tin trực tiếp vào hộp thư đến của bạn mỗi thứ Tư.Chúng tôi đã tạm nghỉ
Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI
NotebookLM Đã Có Mặt Trên Di Động: Trợ Lý Nghiên Cứu AI Giờ Đã Có Trên Android & iOS Phản hồi về NotebookLM đã vượt xa mong đợi—hàng triệu người dùng đã chọn nó làm công cụ kh
comentario (5)
0/200
JasonKing
5 de mayo de 2025 00:00:00 GMT
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
5 de mayo de 2025 00:00:00 GMT
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
AlbertThomas
4 de mayo de 2025 00:00:00 GMT
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
4 de mayo de 2025 00:00:00 GMT
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
WalterThomas
4 de mayo de 2025 00:00:00 GMT
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
Incluso el querido mundo de Pokémon no es inmune al drama que rodea los puntos de referencia de IA. Una publicación viral reciente en X provocó bastante entusiasmo, alegando que el último modelo de Géminis de Google había superado el modelo de Claude de Anthrope en la clásica trilogía de videojuegos de Pokémon. Según el Post, Gemini había llegado de manera impresionante a Lavender Town en la corriente de contracción de un desarrollador, mientras que Claude se quedó atrás en Mount Moon a fines de febrero.
Géminis está literalmente por delante del cajero automático de Claude en Pokémon después de llegar a Lavender Town
119 vistas en vivo solo por cierto, transmisión increíblemente subestimada pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 de abril de 2025
Sin embargo, lo que esta publicación dejó de lado convenientemente fue el hecho de que Gemini tenía una ventaja un poco injusta. Los usuarios inteligentes en Reddit señalaron rápidamente que el desarrollador detrás de Gemini Stream había creado un minimap personalizado. Esta ingeniosa herramienta ayuda al modelo a reconocer "mosaicos" en el juego, como los árboles de corte, que reduce significativamente el tiempo que Gemini necesita pasar analizando capturas de pantalla antes de decidir su próximo movimiento.
Ahora, aunque Pokémon podría no ser el punto de referencia de IA más serio, sirve como un ejemplo divertido pero revelador de cómo las diferentes configuraciones pueden sesgar los resultados de estas pruebas. Tome el modelo reciente de Anthrope, el soneto Anthrope 3.7, por ejemplo. En el punto de referencia verificado SWE-Bench, que está destinado a probar la destreza de codificación, obtuvo una precisión del 62.3%. Pero, con un "andamio personalizado" que el antrópico azotó, ese puntaje aumentó al 70.3%.
Y no se detiene allí. Meta tomó uno de sus modelos más nuevos, Llama 4 Maverick, y lo ajustó específicamente para el LM Arena Benchmark. La versión de vainilla del modelo no le fue tan bien en la misma prueba.
Dado que los puntos de referencia de AI, incluido nuestro amigable ejemplo de Pokémon, ya son un poco exitosos, estos ajustes personalizados y los enfoques no estándar hacen que sea aún más complicado establecer comparaciones significativas entre los modelos a medida que llegan al mercado. Parece que comparar manzanas con manzanas podría estar cada vez más difícil cada día.




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯












