Hogar Noticias Los debates sobre la evaluación comparativa de IA han llegado a Pokémon

Los debates sobre la evaluación comparativa de IA han llegado a Pokémon

3 de mayo de 2025
JonathanDavis
0

Los debates sobre la evaluación comparativa de IA han llegado a Pokémon

Incluso el querido mundo de Pokémon no es inmune al drama que rodea los puntos de referencia de IA. Una publicación viral reciente en X provocó bastante entusiasmo, alegando que el último modelo de Géminis de Google había superado el modelo de Claude de Anthrope en la clásica trilogía de videojuegos de Pokémon. Según el Post, Gemini había llegado de manera impresionante a Lavender Town en la corriente de contracción de un desarrollador, mientras que Claude se quedó atrás en Mount Moon a fines de febrero.

Géminis está literalmente por delante del cajero automático de Claude en Pokémon después de llegar a Lavender Town

119 vistas en vivo solo por cierto, transmisión increíblemente subestimada pic.twitter.com/8avsovai4x

- Jush (@jush21e8) 10 de abril de 2025

Sin embargo, lo que esta publicación dejó de lado convenientemente fue el hecho de que Gemini tenía una ventaja un poco injusta. Los usuarios inteligentes en Reddit señalaron rápidamente que el desarrollador detrás de Gemini Stream había creado un minimap personalizado. Esta ingeniosa herramienta ayuda al modelo a reconocer "mosaicos" en el juego, como los árboles de corte, que reduce significativamente el tiempo que Gemini necesita pasar analizando capturas de pantalla antes de decidir su próximo movimiento.

Ahora, aunque Pokémon podría no ser el punto de referencia de IA más serio, sirve como un ejemplo divertido pero revelador de cómo las diferentes configuraciones pueden sesgar los resultados de estas pruebas. Tome el modelo reciente de Anthrope, el soneto Anthrope 3.7, por ejemplo. En el punto de referencia verificado SWE-Bench, que está destinado a probar la destreza de codificación, obtuvo una precisión del 62.3%. Pero, con un "andamio personalizado" que el antrópico azotó, ese puntaje aumentó al 70.3%.

Y no se detiene allí. Meta tomó uno de sus modelos más nuevos, Llama 4 Maverick, y lo ajustó específicamente para el LM Arena Benchmark. La versión de vainilla del modelo no le fue tan bien en la misma prueba.

Dado que los puntos de referencia de AI, incluido nuestro amigable ejemplo de Pokémon, ya son un poco exitosos, estos ajustes personalizados y los enfoques no estándar hacen que sea aún más complicado establecer comparaciones significativas entre los modelos a medida que llegan al mercado. Parece que comparar manzanas con manzanas podría estar cada vez más difícil cada día.

Artículo relacionado
Top 10 AI Marketing Tools for April 2025 Top 10 AI Marketing Tools for April 2025 Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia's New Strategy to Manage AI Data Scraping Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's Bold Move in the Global AI Chip Race Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
Comentario (0)
0/200
Back to Top
OR