Debates sobre o benchmarking da IA chegaram a Pokémon

Mesmo o amado mundo de Pokémon não está imune ao drama envolvendo benchmarks de IA. Um post viral recente no X causou bastante alvoroço, alegando que o mais recente modelo Gemini do Google superou o modelo Claude líder da Anthropic na trilogia clássica de videogame Pokémon. Segundo o post, o Gemini chegou impressionantemente a Lavender Town em uma transmissão na Twitch de um desenvolvedor, enquanto o Claude estava atrasado em Mount Moon até o final de fevereiro.
O Gemini está literalmente à frente do Claude no momento em Pokémon após chegar a Lavender Town
Apenas 119 visualizações ao vivo, por sinal, uma transmissão incrivelmente subestimada pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 de abril de 2025
No entanto, o que este post convenientemente omitiu foi o fato de que o Gemini tinha uma pequena vantagem injusta. Usuários atentos no Reddit rapidamente apontaram que o desenvolvedor por trás da transmissão do Gemini criou um minimapa personalizado. Essa ferramenta útil auxilia o modelo a reconhecer "tiles" no jogo, como árvores cortáveis, o que reduz significativamente o tempo que o Gemini precisa gastar analisando capturas de tela antes de decidir seu próximo movimento.
Agora, embora Pokémon possa não ser o benchmark de IA mais sério por aí, ele serve como um exemplo divertido, porém revelador, de como diferentes configurações podem distorcer os resultados desses testes. Tome como exemplo o recente modelo da Anthropic, Anthropic 3.7 Sonnet. No benchmark SWE-bench Verified, que testa habilidades de codificação, ele obteve 62,3% de precisão. Mas, com um "scaffold personalizado" que a Anthropic desenvolveu, essa pontuação subiu para 70,3%.
E não para por aí. A Meta pegou um de seus modelos mais novos, Llama 4 Maverick, e o ajustou especificamente para o benchmark LM Arena. A versão padrão do modelo não teve um desempenho tão bom no mesmo teste.
Dado que os benchmarks de IA, incluindo nosso amigável exemplo de Pokémon, já são um pouco incertos, esses ajustes personalizados e abordagens não padronizadas tornam ainda mais difícil fazer comparações significativas entre modelos à medida que chegam ao mercado. Parece que comparar maçãs com maçãs está ficando mais difícil a cada dia.
Artigo relacionado
Salesforce Apresenta Companheiros Digitais de IA no Slack para Rivalizar com o Microsoft Copilot
A Salesforce lançou uma nova estratégia de IA para o local de trabalho, introduzindo “companheiros digitais” especializados integrados às conversas do Slack, revelou a empresa na segunda-feira.A nova
Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas
A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este
Aplicativo Meta AI Introduzirá Nível Premium e Anúncios
O aplicativo de IA da Meta pode em breve apresentar uma assinatura paga, seguindo o exemplo de concorrentes como OpenAI, Google e Microsoft. Durante uma teleconferência de resultados do primeiro trime
Comentários (6)
0/200
DouglasMartínez
6 de Agosto de 2025 à0 18:01:00 WEST
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
0
JasonKing
5 de Maio de 2025 à52 12:38:52 WEST
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
5 de Maio de 2025 à33 00:11:33 WEST
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
WalterThomas
4 de Maio de 2025 à10 16:05:10 WEST
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
AlbertThomas
4 de Maio de 2025 à28 07:38:28 WEST
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
3 de Maio de 2025 à44 20:01:44 WEST
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
Mesmo o amado mundo de Pokémon não está imune ao drama envolvendo benchmarks de IA. Um post viral recente no X causou bastante alvoroço, alegando que o mais recente modelo Gemini do Google superou o modelo Claude líder da Anthropic na trilogia clássica de videogame Pokémon. Segundo o post, o Gemini chegou impressionantemente a Lavender Town em uma transmissão na Twitch de um desenvolvedor, enquanto o Claude estava atrasado em Mount Moon até o final de fevereiro.
O Gemini está literalmente à frente do Claude no momento em Pokémon após chegar a Lavender Town
Apenas 119 visualizações ao vivo, por sinal, uma transmissão incrivelmente subestimada pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 de abril de 2025
No entanto, o que este post convenientemente omitiu foi o fato de que o Gemini tinha uma pequena vantagem injusta. Usuários atentos no Reddit rapidamente apontaram que o desenvolvedor por trás da transmissão do Gemini criou um minimapa personalizado. Essa ferramenta útil auxilia o modelo a reconhecer "tiles" no jogo, como árvores cortáveis, o que reduz significativamente o tempo que o Gemini precisa gastar analisando capturas de tela antes de decidir seu próximo movimento.
Agora, embora Pokémon possa não ser o benchmark de IA mais sério por aí, ele serve como um exemplo divertido, porém revelador, de como diferentes configurações podem distorcer os resultados desses testes. Tome como exemplo o recente modelo da Anthropic, Anthropic 3.7 Sonnet. No benchmark SWE-bench Verified, que testa habilidades de codificação, ele obteve 62,3% de precisão. Mas, com um "scaffold personalizado" que a Anthropic desenvolveu, essa pontuação subiu para 70,3%.
E não para por aí. A Meta pegou um de seus modelos mais novos, Llama 4 Maverick, e o ajustou especificamente para o benchmark LM Arena. A versão padrão do modelo não teve um desempenho tão bom no mesmo teste.
Dado que os benchmarks de IA, incluindo nosso amigável exemplo de Pokémon, já são um pouco incertos, esses ajustes personalizados e abordagens não padronizadas tornam ainda mais difícil fazer comparações significativas entre modelos à medida que chegam ao mercado. Parece que comparar maçãs com maçãs está ficando mais difícil a cada dia.



Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯












