Debates sobre o benchmarking da IA chegaram a Pokémon
3 de Maio de 2025
JonathanDavis
0

Até o amado mundo dos Pokémon não é imune ao drama em torno dos benchmarks de IA. Um post viral recente em X provocou um burburinho, alegando que o mais recente modelo Gemini do Google havia ultrapassado o principal modelo de Claude do Anthropic na clássica trilogia de videogame Pokémon. De acordo com o post, Gêmeos havia chegado impressionantemente a Lavender Town no fluxo de Twitch de um desenvolvedor, enquanto Claude estava para trás em Mount Moon no final de fevereiro.
Gêmeos está literalmente à frente do caixa eletrônico de Claude em Pokemon depois de chegar à cidade de lavanda
119 Vistas ao vivo apenas btw, incrivelmente subestimado stream pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 de abril de 2025
No entanto, o que este post deixou de fora foi o fato de Gemini ter uma vantagem injusta. Os usuários mais experientes no Reddit apontaram rapidamente que o desenvolvedor por trás do Gemini Stream havia criado um mínimo personalizado. Essa ferramenta bacana auxilia o modelo a reconhecer "telhas" no jogo, como árvores de gente corta, que reduzem significativamente o tempo que Gemini precisa gastar analisando capturas de tela antes de decidir sobre seu próximo passo.
Agora, embora o Pokémon possa não ser o benchmark de IA mais grave por aí, ele serve como um exemplo divertido, mas revelador de como diferentes configurações podem distorcer os resultados desses testes. Tomemos o modelo recente do Anthropic, Anthropic 3,7 sonetos, por exemplo. No benchmark verificado do banco do SWE, que visa testar a proeza da codificação, obteve uma precisão de 62,3%. Mas, com um "andaimes personalizados" que o Antrópico aumentou, essa pontuação saltou para 70,3%.
E isso não para por aí. A Meta pegou um de seus modelos mais recentes, o Llama 4 Maverick, e ajustou-o especificamente para a referência da LM Arena. A versão de baunilha do modelo não se saiu tão bem no mesmo teste.
Dado que os benchmarks de IA, incluindo o nosso exemplo amigável de Pokémon, já são um pouco de acertar ou acertar, esses ajustes personalizados e abordagens não padrão apenas tornam ainda mais complicado fazer comparações significativas entre os modelos quando eles atingem o mercado. Parece que comparar maçãs com maçãs pode estar ficando mais difícil a cada dia.
Artigo relacionado
Top 10 herramientas de marketing de IA para abril de 2025
La inteligencia artificial (IA) está sacudiendo a las industrias a la izquierda y a la derecha, y el marketing no es una excepción. Desde pequeñas nuevas empresas hasta grandes corporaciones, las empresas recurren cada vez más a las herramientas de marketing de IA para impulsar la visibilidad de su marca e impulsar su crecimiento. Incorporando estas herramientas en su negocio
Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots
La nueva estrategia de Wikipedia para administrar datos de IA raspando Wikipedia, a través de la Fundación Wikimedia, está dando un paso proactivo para gestionar el impacto del raspado de datos de IA en sus servidores. El miércoles, anunciaron una colaboración con Kaggle, una plataforma propiedad de Google y dedicada a la ciencia de datos y
El avance de hardware de IA de Huawei plantea el desafío para el dominio de Nvidia
El audaz movimiento de Huawei en la carrera mundial de chips de IA, Huawei, el gigante tecnológico chino, ha dado un paso adelante significativo que podría sacudir la carrera global de chips de IA. Han introducido un nuevo sistema de computación llamado CloudMatrix 384 SuperNode, que, según los medios locales, supera a TechnO similar
Comentários (0)
0/200






Até o amado mundo dos Pokémon não é imune ao drama em torno dos benchmarks de IA. Um post viral recente em X provocou um burburinho, alegando que o mais recente modelo Gemini do Google havia ultrapassado o principal modelo de Claude do Anthropic na clássica trilogia de videogame Pokémon. De acordo com o post, Gêmeos havia chegado impressionantemente a Lavender Town no fluxo de Twitch de um desenvolvedor, enquanto Claude estava para trás em Mount Moon no final de fevereiro.
Gêmeos está literalmente à frente do caixa eletrônico de Claude em Pokemon depois de chegar à cidade de lavanda
119 Vistas ao vivo apenas btw, incrivelmente subestimado stream pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 de abril de 2025
No entanto, o que este post deixou de fora foi o fato de Gemini ter uma vantagem injusta. Os usuários mais experientes no Reddit apontaram rapidamente que o desenvolvedor por trás do Gemini Stream havia criado um mínimo personalizado. Essa ferramenta bacana auxilia o modelo a reconhecer "telhas" no jogo, como árvores de gente corta, que reduzem significativamente o tempo que Gemini precisa gastar analisando capturas de tela antes de decidir sobre seu próximo passo.
Agora, embora o Pokémon possa não ser o benchmark de IA mais grave por aí, ele serve como um exemplo divertido, mas revelador de como diferentes configurações podem distorcer os resultados desses testes. Tomemos o modelo recente do Anthropic, Anthropic 3,7 sonetos, por exemplo. No benchmark verificado do banco do SWE, que visa testar a proeza da codificação, obteve uma precisão de 62,3%. Mas, com um "andaimes personalizados" que o Antrópico aumentou, essa pontuação saltou para 70,3%.
E isso não para por aí. A Meta pegou um de seus modelos mais recentes, o Llama 4 Maverick, e ajustou-o especificamente para a referência da LM Arena. A versão de baunilha do modelo não se saiu tão bem no mesmo teste.
Dado que os benchmarks de IA, incluindo o nosso exemplo amigável de Pokémon, já são um pouco de acertar ou acertar, esses ajustes personalizados e abordagens não padrão apenas tornam ainda mais complicado fazer comparações significativas entre os modelos quando eles atingem o mercado. Parece que comparar maçãs com maçãs pode estar ficando mais difícil a cada dia.











