opción
Hogar
Noticias
Anthrope usó Pokémon para comparar su nuevo modelo de IA

Anthrope usó Pokémon para comparar su nuevo modelo de IA

10 de abril de 2025
89

En un movimiento sorprendente, Anthrope decidió poner a prueba su último modelo de IA, Claude 3.7 Sonnet, con el clásico juego de Game Boy, Pokémon Red. Según una publicación de blog publicada el lunes, la compañía equipó el modelo con lo esencial: la memoria, la capacidad de leer píxeles de pantalla y el poder para presionar botones y moverse alrededor de la pantalla del juego. Esta configuración permitió a Claude 3.7 soneto sumergirse en el mundo de Pokémon y seguir jugando.

Lo que distingue a Claude 3.7 Sonnet es su habilidad para "pensamiento extendido". Similar a otros modelos como O3-Mini de Openai y R1 de Deepseek, puede abordar problemas difíciles al aumentar el poder informático y tomar su dulce tiempo para pensar las cosas.

Esta característica demostró ser un cambio de juego en Pokémon Red. Si bien el soneto Claude 3.0 más antiguo no pudo salir del área de inicio en Pallet Town, Claude 3.7 Sonnet logró derribar a tres líderes de gimnasios y enganchar sus insignias.

Pokémon antrópico rojo

Créditos de imagen: antrópico
Ahora, Anthrope no derramó los frijoles sobre la cantidad de potencia informática o cuánto tiempo tardó en el soneto Claude 3.7 en alcanzar estos hitos. Acaban de mencionar que el modelo realizó una friolera de 35,000 acciones para enfrentar al último líder del gimnasio, Surge.

La semana pasada, un investigador probó una vista previa temprana de Claude 3.7 Sonnet.

Los resultados fueron sorprendentes. En cuestión de horas, Claude derrotó a Brock. Días después, derrotó a Misty. Progreso de que los modelos más antiguos tenían pocas esperanzas de lograr.

Resulta que el pensamiento extendido es súper efectivo. pic.twitter.com/rspslgj2uf

- Anthrope (@anthrópicai) 25 de febrero de 2025

No pasará mucho tiempo antes de que algún desarrollador inteligente descubra los detalles esenciales.

Si bien Pokémon Red puede parecer una prueba un poco divertida, los juegos se han utilizado para la evaluación comparativa de IA durante siglos. En los últimos meses, hemos visto aparecer un montón de nuevas aplicaciones y plataformas para probar qué tan bien los modelos de IA pueden jugar todo, desde Street Fighter hasta Pictionary.

Artículo relacionado
关于AI基准测试的辩论已达到神奇宝贝 关于AI基准测试的辩论已达到神奇宝贝 即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
Aumenta el Engagement con Reels de Emojis Potenciados por IA para un Crecimiento Viral Aumenta el Engagement con Reels de Emojis Potenciados por IA para un Crecimiento Viral La Guía Definitiva para Crear Reels de Emojis Virales con IA (y Ganar Dinero con Ellos)¿Quieres convertir tu presencia en redes sociales en una máquina de hacer dinero? Aquí va un pequeño secreto: alg
Creación de Guiones Gráficos con ChatGPT: Guía Paso a Paso Creación de Guiones Gráficos con ChatGPT: Guía Paso a Paso Cómo Crear Guiones Gráficos con ChatGPT (Incluso Si No Sabes Dibujar)La creación de guiones gráficos es un cambio radical para cineastas, animadores y desarrolladores de juegos: te ayuda a visualizar
comentario (15)
0/200
GeorgeWilliams
GeorgeWilliams 12 de abril de 2025 00:00:00 GMT

Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮

StephenGreen
StephenGreen 12 de abril de 2025 00:00:00 GMT

ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮

RogerSanchez
RogerSanchez 13 de abril de 2025 00:00:00 GMT

포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮

HenryTurner
HenryTurner 15 de abril de 2025 00:00:00 GMT

Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮

JohnGarcia
JohnGarcia 15 de abril de 2025 00:00:00 GMT

¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮

TerryGonzález
TerryGonzález 12 de abril de 2025 00:00:00 GMT

Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂

Volver arriba
OR