Anthrópico usou Pokémon para comparar seu mais novo modelo de IA
10 de Abril de 2025
AvaHill
41
Em uma jogada surpreendente, a Anthrópica decidiu colocar seu mais recente modelo de IA, Claude 3,7 sonetos, à prova com o clássico jogo Game Boy, Pokémon Red. De acordo com uma postagem de blog lançada na segunda -feira, a empresa elaborou o modelo com o Essentials: Memory, a capacidade de ler pixels de tela e o poder de pressionar botões e se mover pela tela do jogo. Essa configuração permitiu que Claude 3,7 soneto mergulhasse no mundo dos Pokémon e continuasse tocando.
O que diferencia Claude 3,7 sonetos é o seu talento para "Extended Thinking". Semelhante a outros modelos como o O3-Mini do Openai e o R1 de Deepseek, ele pode enfrentar problemas difíceis, aumentando o poder da computação e aproveitando seu tempo para pensar nas coisas.
Esse recurso provou ser um divisor de águas em Pokémon Red. Enquanto o mais antigo soneto Claude 3,0 não conseguiu sair da área de partida em Pallet Town, Claude 3,7 sonetos conseguiu derrubar três líderes de ginástica e conseguir seus crachás.

Créditos da imagem: Antrópico Agora, o Antrópico não derramou o feijão exatamente sobre quanta potência de computação era necessária ou quanto tempo levou para Claude 3,7 sonetos alcançar esses marcos. Eles acabaram de mencionar que o modelo realizou 35.000 ações para enfrentar o último líder da academia, Surge.
Na semana passada, um pesquisador experimentou uma prévia antecipada de Claude 3,7 sonetos.
Os resultados foram impressionantes. Em poucas horas, Claude derrotou Brock. Dias depois, isso aconteceu enevoado. Progresso que os modelos mais antigos tinham pouca esperança de alcançar.
Acontece que o pensamento estendido é super eficaz. pic.twitter.com/rspslgj2uf
- Antrópico (@Antropicai) 25 de fevereiro de 2025
Não demorará muito para que alguns desenvolvedores inteligentes descobrirem os detalhes da questão.
Embora o Pokémon Red possa parecer um teste divertido, os jogos foram realmente usados para o benchmarking de IA há muito tempo. Nos últimos meses, vimos um monte de novos aplicativos e plataformas aparecer para testar o quão bem os modelos de IA podem tocar de tudo, desde o Street Fighter a Pictionary.
Artigo relacionado
Debates sobre o benchmarking da IA chegaram a Pokémon
Até o amado mundo dos Pokémon não é imune ao drama em torno dos benchmarks de IA. Um post viral recente em X provocou um burburinho, alegando que o mais recente modelo Gemini do Google havia ultrapassado o principal modelo de Claude do Anthropic na clássica trilogia de videogame Pokémon. De acordo com o post, Gêmeos
Cópia do anúncio do Facebook orientada pela IA: gerar anúncios rapidamente
A revolução da IA na elaboração de um anúncio do Facebook, copiando o Whirlwind World of Digital Marketing, a capacidade de criar um anúncio do Facebook cópia rapidamente é nada menos que essencial. Entre na inteligência artificial (AI), um divisor de jogos que está reformulando como abordamos a criação de anúncios. Este guia d
Gerador de rubrica de IA: Avaliação de otimização com ensino rápido
No mundo dinâmico da educação, os professores estão sempre à procura de ferramentas que podem simplificar seu trabalho enquanto impulsionam o aprendizado dos alunos. Digite o gerador de rubrica de AI do Brisk Teaching-um divisor de águas no campo da avaliação. Esta ferramenta bacana ajuda os educadores a criar rubricas personalizadas em um snap, pt
Comentários (15)
0/200
GeorgeWilliams
11 de Abril de 2025 à8 17:22:08 GMT
Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮
0
StephenGreen
12 de Abril de 2025 à24 03:40:24 GMT
ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮
0
RogerSanchez
13 de Abril de 2025 à35 05:05:35 GMT
포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮
0
HenryTurner
14 de Abril de 2025 à40 22:24:40 GMT
Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮
0
JohnGarcia
14 de Abril de 2025 à47 19:59:47 GMT
¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮
0
TerryGonzález
12 de Abril de 2025 à7 04:11:07 GMT
Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂
0






Em uma jogada surpreendente, a Anthrópica decidiu colocar seu mais recente modelo de IA, Claude 3,7 sonetos, à prova com o clássico jogo Game Boy, Pokémon Red. De acordo com uma postagem de blog lançada na segunda -feira, a empresa elaborou o modelo com o Essentials: Memory, a capacidade de ler pixels de tela e o poder de pressionar botões e se mover pela tela do jogo. Essa configuração permitiu que Claude 3,7 soneto mergulhasse no mundo dos Pokémon e continuasse tocando.
O que diferencia Claude 3,7 sonetos é o seu talento para "Extended Thinking". Semelhante a outros modelos como o O3-Mini do Openai e o R1 de Deepseek, ele pode enfrentar problemas difíceis, aumentando o poder da computação e aproveitando seu tempo para pensar nas coisas.
Esse recurso provou ser um divisor de águas em Pokémon Red. Enquanto o mais antigo soneto Claude 3,0 não conseguiu sair da área de partida em Pallet Town, Claude 3,7 sonetos conseguiu derrubar três líderes de ginástica e conseguir seus crachás.
Na semana passada, um pesquisador experimentou uma prévia antecipada de Claude 3,7 sonetos.
Os resultados foram impressionantes. Em poucas horas, Claude derrotou Brock. Dias depois, isso aconteceu enevoado. Progresso que os modelos mais antigos tinham pouca esperança de alcançar.
Acontece que o pensamento estendido é super eficaz. pic.twitter.com/rspslgj2uf
- Antrópico (@Antropicai) 25 de fevereiro de 2025
Não demorará muito para que alguns desenvolvedores inteligentes descobrirem os detalhes da questão.
Embora o Pokémon Red possa parecer um teste divertido, os jogos foram realmente usados para o benchmarking de IA há muito tempo. Nos últimos meses, vimos um monte de novos aplicativos e plataformas aparecer para testar o quão bem os modelos de IA podem tocar de tudo, desde o Street Fighter a Pictionary.




Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮




ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮




포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮




Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮




¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮




Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂












