Los debates sobre la evaluación comparativa de IA han llegado a Pokémon
3 de mayo de 2025
JonathanDavis
0

Incluso el querido mundo de Pokémon no es inmune al drama que rodea los puntos de referencia de IA. Una publicación viral reciente en X provocó bastante entusiasmo, alegando que el último modelo de Géminis de Google había superado el modelo de Claude de Anthrope en la clásica trilogía de videojuegos de Pokémon. Según el Post, Gemini había llegado de manera impresionante a Lavender Town en la corriente de contracción de un desarrollador, mientras que Claude se quedó atrás en Mount Moon a fines de febrero.
Géminis está literalmente por delante del cajero automático de Claude en Pokémon después de llegar a Lavender Town
119 vistas en vivo solo por cierto, transmisión increíblemente subestimada pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 de abril de 2025
Sin embargo, lo que esta publicación dejó de lado convenientemente fue el hecho de que Gemini tenía una ventaja un poco injusta. Los usuarios inteligentes en Reddit señalaron rápidamente que el desarrollador detrás de Gemini Stream había creado un minimap personalizado. Esta ingeniosa herramienta ayuda al modelo a reconocer "mosaicos" en el juego, como los árboles de corte, que reduce significativamente el tiempo que Gemini necesita pasar analizando capturas de pantalla antes de decidir su próximo movimiento.
Ahora, aunque Pokémon podría no ser el punto de referencia de IA más serio, sirve como un ejemplo divertido pero revelador de cómo las diferentes configuraciones pueden sesgar los resultados de estas pruebas. Tome el modelo reciente de Anthrope, el soneto Anthrope 3.7, por ejemplo. En el punto de referencia verificado SWE-Bench, que está destinado a probar la destreza de codificación, obtuvo una precisión del 62.3%. Pero, con un "andamio personalizado" que el antrópico azotó, ese puntaje aumentó al 70.3%.
Y no se detiene allí. Meta tomó uno de sus modelos más nuevos, Llama 4 Maverick, y lo ajustó específicamente para el LM Arena Benchmark. La versión de vainilla del modelo no le fue tan bien en la misma prueba.
Dado que los puntos de referencia de AI, incluido nuestro amigable ejemplo de Pokémon, ya son un poco exitosos, estos ajustes personalizados y los enfoques no estándar hacen que sea aún más complicado establecer comparaciones significativas entre los modelos a medida que llegan al mercado. Parece que comparar manzanas con manzanas podría estar cada vez más difícil cada día.
Artículo relacionado
Top 10 herramientas de marketing de IA para abril de 2025
La inteligencia artificial (IA) está sacudiendo a las industrias a la izquierda y a la derecha, y el marketing no es una excepción. Desde pequeñas nuevas empresas hasta grandes corporaciones, las empresas recurren cada vez más a las herramientas de marketing de IA para impulsar la visibilidad de su marca e impulsar su crecimiento. Incorporando estas herramientas en su negocio
Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots
La nueva estrategia de Wikipedia para administrar datos de IA raspando Wikipedia, a través de la Fundación Wikimedia, está dando un paso proactivo para gestionar el impacto del raspado de datos de IA en sus servidores. El miércoles, anunciaron una colaboración con Kaggle, una plataforma propiedad de Google y dedicada a la ciencia de datos y
El avance de hardware de IA de Huawei plantea el desafío para el dominio de Nvidia
El audaz movimiento de Huawei en la carrera mundial de chips de IA, Huawei, el gigante tecnológico chino, ha dado un paso adelante significativo que podría sacudir la carrera global de chips de IA. Han introducido un nuevo sistema de computación llamado CloudMatrix 384 SuperNode, que, según los medios locales, supera a TechnO similar
Comentario (0)
0/200






Incluso el querido mundo de Pokémon no es inmune al drama que rodea los puntos de referencia de IA. Una publicación viral reciente en X provocó bastante entusiasmo, alegando que el último modelo de Géminis de Google había superado el modelo de Claude de Anthrope en la clásica trilogía de videojuegos de Pokémon. Según el Post, Gemini había llegado de manera impresionante a Lavender Town en la corriente de contracción de un desarrollador, mientras que Claude se quedó atrás en Mount Moon a fines de febrero.
Géminis está literalmente por delante del cajero automático de Claude en Pokémon después de llegar a Lavender Town
119 vistas en vivo solo por cierto, transmisión increíblemente subestimada pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 de abril de 2025
Sin embargo, lo que esta publicación dejó de lado convenientemente fue el hecho de que Gemini tenía una ventaja un poco injusta. Los usuarios inteligentes en Reddit señalaron rápidamente que el desarrollador detrás de Gemini Stream había creado un minimap personalizado. Esta ingeniosa herramienta ayuda al modelo a reconocer "mosaicos" en el juego, como los árboles de corte, que reduce significativamente el tiempo que Gemini necesita pasar analizando capturas de pantalla antes de decidir su próximo movimiento.
Ahora, aunque Pokémon podría no ser el punto de referencia de IA más serio, sirve como un ejemplo divertido pero revelador de cómo las diferentes configuraciones pueden sesgar los resultados de estas pruebas. Tome el modelo reciente de Anthrope, el soneto Anthrope 3.7, por ejemplo. En el punto de referencia verificado SWE-Bench, que está destinado a probar la destreza de codificación, obtuvo una precisión del 62.3%. Pero, con un "andamio personalizado" que el antrópico azotó, ese puntaje aumentó al 70.3%.
Y no se detiene allí. Meta tomó uno de sus modelos más nuevos, Llama 4 Maverick, y lo ajustó específicamente para el LM Arena Benchmark. La versión de vainilla del modelo no le fue tan bien en la misma prueba.
Dado que los puntos de referencia de AI, incluido nuestro amigable ejemplo de Pokémon, ya son un poco exitosos, estos ajustes personalizados y los enfoques no estándar hacen que sea aún más complicado establecer comparaciones significativas entre los modelos a medida que llegan al mercado. Parece que comparar manzanas con manzanas podría estar cada vez más difícil cada día.











