Debates sobre o benchmarking da IA chegaram a Pokémon

Mesmo o amado mundo de Pokémon não está imune ao drama envolvendo benchmarks de IA. Um post viral recente no X causou bastante alvoroço, alegando que o mais recente modelo Gemini do Google superou o modelo Claude líder da Anthropic na trilogia clássica de videogame Pokémon. Segundo o post, o Gemini chegou impressionantemente a Lavender Town em uma transmissão na Twitch de um desenvolvedor, enquanto o Claude estava atrasado em Mount Moon até o final de fevereiro.
O Gemini está literalmente à frente do Claude no momento em Pokémon após chegar a Lavender Town
Apenas 119 visualizações ao vivo, por sinal, uma transmissão incrivelmente subestimada pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 de abril de 2025
No entanto, o que este post convenientemente omitiu foi o fato de que o Gemini tinha uma pequena vantagem injusta. Usuários atentos no Reddit rapidamente apontaram que o desenvolvedor por trás da transmissão do Gemini criou um minimapa personalizado. Essa ferramenta útil auxilia o modelo a reconhecer "tiles" no jogo, como árvores cortáveis, o que reduz significativamente o tempo que o Gemini precisa gastar analisando capturas de tela antes de decidir seu próximo movimento.
Agora, embora Pokémon possa não ser o benchmark de IA mais sério por aí, ele serve como um exemplo divertido, porém revelador, de como diferentes configurações podem distorcer os resultados desses testes. Tome como exemplo o recente modelo da Anthropic, Anthropic 3.7 Sonnet. No benchmark SWE-bench Verified, que testa habilidades de codificação, ele obteve 62,3% de precisão. Mas, com um "scaffold personalizado" que a Anthropic desenvolveu, essa pontuação subiu para 70,3%.
E não para por aí. A Meta pegou um de seus modelos mais novos, Llama 4 Maverick, e o ajustou especificamente para o benchmark LM Arena. A versão padrão do modelo não teve um desempenho tão bom no mesmo teste.
Dado que os benchmarks de IA, incluindo nosso amigável exemplo de Pokémon, já são um pouco incertos, esses ajustes personalizados e abordagens não padronizadas tornam ainda mais difícil fazer comparações significativas entre modelos à medida que chegam ao mercado. Parece que comparar maçãs com maçãs está ficando mais difícil a cada dia.
Artigo relacionado
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas
O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
A Kakao Mobility apresenta o plano de ação para a direção autônoma de nível 4 com IA física
A Kakao Mobility planeja desenvolver tecnologias de direção autônoma de nível 4 internamente, como parte de sua estratégia de IA física.Na conferência World IT Show 2026, realizada no COEX, em Seul,
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
Recomendações de tópicos especiais relacionados
Comentários (9)
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

Mesmo o amado mundo de Pokémon não está imune ao drama envolvendo benchmarks de IA. Um post viral recente no X causou bastante alvoroço, alegando que o mais recente modelo Gemini do Google superou o modelo Claude líder da Anthropic na trilogia clássica de videogame Pokémon. Segundo o post, o Gemini chegou impressionantemente a Lavender Town em uma transmissão na Twitch de um desenvolvedor, enquanto o Claude estava atrasado em Mount Moon até o final de fevereiro.
O Gemini está literalmente à frente do Claude no momento em Pokémon após chegar a Lavender Town
Apenas 119 visualizações ao vivo, por sinal, uma transmissão incrivelmente subestimada pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 de abril de 2025
No entanto, o que este post convenientemente omitiu foi o fato de que o Gemini tinha uma pequena vantagem injusta. Usuários atentos no Reddit rapidamente apontaram que o desenvolvedor por trás da transmissão do Gemini criou um minimapa personalizado. Essa ferramenta útil auxilia o modelo a reconhecer "tiles" no jogo, como árvores cortáveis, o que reduz significativamente o tempo que o Gemini precisa gastar analisando capturas de tela antes de decidir seu próximo movimento.
Agora, embora Pokémon possa não ser o benchmark de IA mais sério por aí, ele serve como um exemplo divertido, porém revelador, de como diferentes configurações podem distorcer os resultados desses testes. Tome como exemplo o recente modelo da Anthropic, Anthropic 3.7 Sonnet. No benchmark SWE-bench Verified, que testa habilidades de codificação, ele obteve 62,3% de precisão. Mas, com um "scaffold personalizado" que a Anthropic desenvolveu, essa pontuação subiu para 70,3%.
E não para por aí. A Meta pegou um de seus modelos mais novos, Llama 4 Maverick, e o ajustou especificamente para o benchmark LM Arena. A versão padrão do modelo não teve um desempenho tão bom no mesmo teste.
Dado que os benchmarks de IA, incluindo nosso amigável exemplo de Pokémon, já são um pouco incertos, esses ajustes personalizados e abordagens não padronizadas tornam ainda mais difícil fazer comparações significativas entre modelos à medida que chegam ao mercado. Parece que comparar maçãs com maçãs está ficando mais difícil a cada dia.
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas
O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯





Lar






