Anthrope usó Pokémon para comparar su nuevo modelo de IA
10 de abril de 2025
AvaHill
41
En un movimiento sorprendente, Anthrope decidió poner a prueba su último modelo de IA, Claude 3.7 Sonnet, con el clásico juego de Game Boy, Pokémon Red. Según una publicación de blog publicada el lunes, la compañía equipó el modelo con lo esencial: la memoria, la capacidad de leer píxeles de pantalla y el poder para presionar botones y moverse alrededor de la pantalla del juego. Esta configuración permitió a Claude 3.7 soneto sumergirse en el mundo de Pokémon y seguir jugando.
Lo que distingue a Claude 3.7 Sonnet es su habilidad para "pensamiento extendido". Similar a otros modelos como O3-Mini de Openai y R1 de Deepseek, puede abordar problemas difíciles al aumentar el poder informático y tomar su dulce tiempo para pensar las cosas.
Esta característica demostró ser un cambio de juego en Pokémon Red. Si bien el soneto Claude 3.0 más antiguo no pudo salir del área de inicio en Pallet Town, Claude 3.7 Sonnet logró derribar a tres líderes de gimnasios y enganchar sus insignias.

Créditos de imagen: antrópico Ahora, Anthrope no derramó los frijoles sobre la cantidad de potencia informática o cuánto tiempo tardó en el soneto Claude 3.7 en alcanzar estos hitos. Acaban de mencionar que el modelo realizó una friolera de 35,000 acciones para enfrentar al último líder del gimnasio, Surge.
La semana pasada, un investigador probó una vista previa temprana de Claude 3.7 Sonnet.
Los resultados fueron sorprendentes. En cuestión de horas, Claude derrotó a Brock. Días después, derrotó a Misty. Progreso de que los modelos más antiguos tenían pocas esperanzas de lograr.
Resulta que el pensamiento extendido es súper efectivo. pic.twitter.com/rspslgj2uf
- Anthrope (@anthrópicai) 25 de febrero de 2025
No pasará mucho tiempo antes de que algún desarrollador inteligente descubra los detalles esenciales.
Si bien Pokémon Red puede parecer una prueba un poco divertida, los juegos se han utilizado para la evaluación comparativa de IA durante siglos. En los últimos meses, hemos visto aparecer un montón de nuevas aplicaciones y plataformas para probar qué tan bien los modelos de IA pueden jugar todo, desde Street Fighter hasta Pictionary.
Artículo relacionado
Debates over AI benchmarking have reached Pokémon
Even the beloved world of Pokémon isn't immune to the drama surrounding AI benchmarks. A recent viral post on X stirred up quite the buzz, claiming that Google's latest Gemini model had outpaced Anthropic's leading Claude model in the classic Pokémon video game trilogy. According to the post, Gemini
Copia de anuncios de Facebook impulsado por IA: Genere anuncios rápidamente
La revolución de la IA en la elaboración de un anuncio de Facebook que copia en el mundo del marketing digital, la capacidad de preparar una copia de anuncios de Facebook rápidamente es esencial. Ingrese la inteligencia artificial (IA), un cambio de juego que está reestructurando cómo abordamos la creación de anuncios. Esta guía D
Generador de rúbrica AI: evaluación de línea racionalizado con enseñanza rápida
En el mundo dinámico de la educación, los maestros siempre están buscando herramientas que puedan simplificar su trabajo mientras aumentan el aprendizaje de los estudiantes. Ingrese el generador de rúbricas AI de la enseñanza de Brisk, un cambio de juego en el ámbito de la evaluación. Esta ingeniosa herramienta ayuda a los educadores a crear rúbricas personalizadas en un complemento, en
comentario (15)
0/200
GeorgeWilliams
11 de abril de 2025 17:22:08 GMT
Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮
0
StephenGreen
12 de abril de 2025 03:40:24 GMT
ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮
0
RogerSanchez
13 de abril de 2025 05:05:35 GMT
포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮
0
HenryTurner
14 de abril de 2025 22:24:40 GMT
Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮
0
JohnGarcia
14 de abril de 2025 19:59:47 GMT
¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮
0
TerryGonzález
12 de abril de 2025 04:11:07 GMT
Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂
0






En un movimiento sorprendente, Anthrope decidió poner a prueba su último modelo de IA, Claude 3.7 Sonnet, con el clásico juego de Game Boy, Pokémon Red. Según una publicación de blog publicada el lunes, la compañía equipó el modelo con lo esencial: la memoria, la capacidad de leer píxeles de pantalla y el poder para presionar botones y moverse alrededor de la pantalla del juego. Esta configuración permitió a Claude 3.7 soneto sumergirse en el mundo de Pokémon y seguir jugando.
Lo que distingue a Claude 3.7 Sonnet es su habilidad para "pensamiento extendido". Similar a otros modelos como O3-Mini de Openai y R1 de Deepseek, puede abordar problemas difíciles al aumentar el poder informático y tomar su dulce tiempo para pensar las cosas.
Esta característica demostró ser un cambio de juego en Pokémon Red. Si bien el soneto Claude 3.0 más antiguo no pudo salir del área de inicio en Pallet Town, Claude 3.7 Sonnet logró derribar a tres líderes de gimnasios y enganchar sus insignias.
La semana pasada, un investigador probó una vista previa temprana de Claude 3.7 Sonnet.
Los resultados fueron sorprendentes. En cuestión de horas, Claude derrotó a Brock. Días después, derrotó a Misty. Progreso de que los modelos más antiguos tenían pocas esperanzas de lograr.
Resulta que el pensamiento extendido es súper efectivo. pic.twitter.com/rspslgj2uf
- Anthrope (@anthrópicai) 25 de febrero de 2025
No pasará mucho tiempo antes de que algún desarrollador inteligente descubra los detalles esenciales.
Si bien Pokémon Red puede parecer una prueba un poco divertida, los juegos se han utilizado para la evaluación comparativa de IA durante siglos. En los últimos meses, hemos visto aparecer un montón de nuevas aplicaciones y plataformas para probar qué tan bien los modelos de IA pueden jugar todo, desde Street Fighter hasta Pictionary.




Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮




ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮




포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮




Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮




¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮




Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂












