Debates sobre o benchmarking da IA chegaram a Pokémon
3 de Maio de 2025
JonathanDavis
0

Até o amado mundo dos Pokémon não é imune ao drama em torno dos benchmarks de IA. Um post viral recente em X provocou um burburinho, alegando que o mais recente modelo Gemini do Google havia ultrapassado o principal modelo de Claude do Anthropic na clássica trilogia de videogame Pokémon. De acordo com o post, Gêmeos havia chegado impressionantemente a Lavender Town no fluxo de Twitch de um desenvolvedor, enquanto Claude estava para trás em Mount Moon no final de fevereiro.
Gêmeos está literalmente à frente do caixa eletrônico de Claude em Pokemon depois de chegar à cidade de lavanda
119 Vistas ao vivo apenas btw, incrivelmente subestimado stream pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 de abril de 2025
No entanto, o que este post deixou de fora foi o fato de Gemini ter uma vantagem injusta. Os usuários mais experientes no Reddit apontaram rapidamente que o desenvolvedor por trás do Gemini Stream havia criado um mínimo personalizado. Essa ferramenta bacana auxilia o modelo a reconhecer "telhas" no jogo, como árvores de gente corta, que reduzem significativamente o tempo que Gemini precisa gastar analisando capturas de tela antes de decidir sobre seu próximo passo.
Agora, embora o Pokémon possa não ser o benchmark de IA mais grave por aí, ele serve como um exemplo divertido, mas revelador de como diferentes configurações podem distorcer os resultados desses testes. Tomemos o modelo recente do Anthropic, Anthropic 3,7 sonetos, por exemplo. No benchmark verificado do banco do SWE, que visa testar a proeza da codificação, obteve uma precisão de 62,3%. Mas, com um "andaimes personalizados" que o Antrópico aumentou, essa pontuação saltou para 70,3%.
E isso não para por aí. A Meta pegou um de seus modelos mais recentes, o Llama 4 Maverick, e ajustou-o especificamente para a referência da LM Arena. A versão de baunilha do modelo não se saiu tão bem no mesmo teste.
Dado que os benchmarks de IA, incluindo o nosso exemplo amigável de Pokémon, já são um pouco de acertar ou acertar, esses ajustes personalizados e abordagens não padrão apenas tornam ainda mais complicado fazer comparações significativas entre os modelos quando eles atingem o mercado. Parece que comparar maçãs com maçãs pode estar ficando mais difícil a cada dia.
Artigo relacionado
Top 10 AI Marketing Tools for April 2025
Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers
Wikipedia's New Strategy to Manage AI Data Scraping
Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance
Huawei's Bold Move in the Global AI Chip Race
Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
Comentários (0)
0/200






Até o amado mundo dos Pokémon não é imune ao drama em torno dos benchmarks de IA. Um post viral recente em X provocou um burburinho, alegando que o mais recente modelo Gemini do Google havia ultrapassado o principal modelo de Claude do Anthropic na clássica trilogia de videogame Pokémon. De acordo com o post, Gêmeos havia chegado impressionantemente a Lavender Town no fluxo de Twitch de um desenvolvedor, enquanto Claude estava para trás em Mount Moon no final de fevereiro.
Gêmeos está literalmente à frente do caixa eletrônico de Claude em Pokemon depois de chegar à cidade de lavanda
119 Vistas ao vivo apenas btw, incrivelmente subestimado stream pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 de abril de 2025
No entanto, o que este post deixou de fora foi o fato de Gemini ter uma vantagem injusta. Os usuários mais experientes no Reddit apontaram rapidamente que o desenvolvedor por trás do Gemini Stream havia criado um mínimo personalizado. Essa ferramenta bacana auxilia o modelo a reconhecer "telhas" no jogo, como árvores de gente corta, que reduzem significativamente o tempo que Gemini precisa gastar analisando capturas de tela antes de decidir sobre seu próximo passo.
Agora, embora o Pokémon possa não ser o benchmark de IA mais grave por aí, ele serve como um exemplo divertido, mas revelador de como diferentes configurações podem distorcer os resultados desses testes. Tomemos o modelo recente do Anthropic, Anthropic 3,7 sonetos, por exemplo. No benchmark verificado do banco do SWE, que visa testar a proeza da codificação, obteve uma precisão de 62,3%. Mas, com um "andaimes personalizados" que o Antrópico aumentou, essa pontuação saltou para 70,3%.
E isso não para por aí. A Meta pegou um de seus modelos mais recentes, o Llama 4 Maverick, e ajustou-o especificamente para a referência da LM Arena. A versão de baunilha do modelo não se saiu tão bem no mesmo teste.
Dado que os benchmarks de IA, incluindo o nosso exemplo amigável de Pokémon, já são um pouco de acertar ou acertar, esses ajustes personalizados e abordagens não padrão apenas tornam ainda mais complicado fazer comparações significativas entre os modelos quando eles atingem o mercado. Parece que comparar maçãs com maçãs pode estar ficando mais difícil a cada dia.











