Debates sobre o benchmarking da IA chegaram a Pokémon

Até o amado mundo dos Pokémon não é imune ao drama em torno dos benchmarks de IA. Um post viral recente em X provocou um burburinho, alegando que o mais recente modelo Gemini do Google havia ultrapassado o principal modelo de Claude do Anthropic na clássica trilogia de videogame Pokémon. De acordo com o post, Gêmeos havia chegado impressionantemente a Lavender Town no fluxo de Twitch de um desenvolvedor, enquanto Claude estava para trás em Mount Moon no final de fevereiro.
Gêmeos está literalmente à frente do caixa eletrônico de Claude em Pokemon depois de chegar à cidade de lavanda
119 Vistas ao vivo apenas btw, incrivelmente subestimado stream pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 de abril de 2025
No entanto, o que este post deixou de fora foi o fato de Gemini ter uma vantagem injusta. Os usuários mais experientes no Reddit apontaram rapidamente que o desenvolvedor por trás do Gemini Stream havia criado um mínimo personalizado. Essa ferramenta bacana auxilia o modelo a reconhecer "telhas" no jogo, como árvores de gente corta, que reduzem significativamente o tempo que Gemini precisa gastar analisando capturas de tela antes de decidir sobre seu próximo passo.
Agora, embora o Pokémon possa não ser o benchmark de IA mais grave por aí, ele serve como um exemplo divertido, mas revelador de como diferentes configurações podem distorcer os resultados desses testes. Tomemos o modelo recente do Anthropic, Anthropic 3,7 sonetos, por exemplo. No benchmark verificado do banco do SWE, que visa testar a proeza da codificação, obteve uma precisão de 62,3%. Mas, com um "andaimes personalizados" que o Antrópico aumentou, essa pontuação saltou para 70,3%.
E isso não para por aí. A Meta pegou um de seus modelos mais recentes, o Llama 4 Maverick, e ajustou-o especificamente para a referência da LM Arena. A versão de baunilha do modelo não se saiu tão bem no mesmo teste.
Dado que os benchmarks de IA, incluindo o nosso exemplo amigável de Pokémon, já são um pouco de acertar ou acertar, esses ajustes personalizados e abordagens não padrão apenas tornam ainda mais complicado fazer comparações significativas entre os modelos quando eles atingem o mercado. Parece que comparar maçãs com maçãs pode estar ficando mais difícil a cada dia.
Artigo relacionado
xAI đăng các lời nhắc hậu trường của Grok
xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự
Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này
Xin chào mọi người, chào mừng trở lại với bản tin AI của TechCrunch! Nếu bạn chưa đăng ký, bạn có thể đăng ký tại đây để nhận bản tin trực tiếp vào hộp thư đến của bạn mỗi thứ Tư.Chúng tôi đã tạm nghỉ
Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI
NotebookLM Đã Có Mặt Trên Di Động: Trợ Lý Nghiên Cứu AI Giờ Đã Có Trên Android & iOS Phản hồi về NotebookLM đã vượt xa mong đợi—hàng triệu người dùng đã chọn nó làm công cụ kh
Comentários (5)
0/200
JasonKing
5 de Maio de 2025 à0 00:00:00 GMT
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
5 de Maio de 2025 à0 00:00:00 GMT
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
AlbertThomas
4 de Maio de 2025 à0 00:00:00 GMT
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
4 de Maio de 2025 à0 00:00:00 GMT
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
WalterThomas
4 de Maio de 2025 à0 00:00:00 GMT
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
Até o amado mundo dos Pokémon não é imune ao drama em torno dos benchmarks de IA. Um post viral recente em X provocou um burburinho, alegando que o mais recente modelo Gemini do Google havia ultrapassado o principal modelo de Claude do Anthropic na clássica trilogia de videogame Pokémon. De acordo com o post, Gêmeos havia chegado impressionantemente a Lavender Town no fluxo de Twitch de um desenvolvedor, enquanto Claude estava para trás em Mount Moon no final de fevereiro.
Gêmeos está literalmente à frente do caixa eletrônico de Claude em Pokemon depois de chegar à cidade de lavanda
119 Vistas ao vivo apenas btw, incrivelmente subestimado stream pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 de abril de 2025
No entanto, o que este post deixou de fora foi o fato de Gemini ter uma vantagem injusta. Os usuários mais experientes no Reddit apontaram rapidamente que o desenvolvedor por trás do Gemini Stream havia criado um mínimo personalizado. Essa ferramenta bacana auxilia o modelo a reconhecer "telhas" no jogo, como árvores de gente corta, que reduzem significativamente o tempo que Gemini precisa gastar analisando capturas de tela antes de decidir sobre seu próximo passo.
Agora, embora o Pokémon possa não ser o benchmark de IA mais grave por aí, ele serve como um exemplo divertido, mas revelador de como diferentes configurações podem distorcer os resultados desses testes. Tomemos o modelo recente do Anthropic, Anthropic 3,7 sonetos, por exemplo. No benchmark verificado do banco do SWE, que visa testar a proeza da codificação, obteve uma precisão de 62,3%. Mas, com um "andaimes personalizados" que o Antrópico aumentou, essa pontuação saltou para 70,3%.
E isso não para por aí. A Meta pegou um de seus modelos mais recentes, o Llama 4 Maverick, e ajustou-o especificamente para a referência da LM Arena. A versão de baunilha do modelo não se saiu tão bem no mesmo teste.
Dado que os benchmarks de IA, incluindo o nosso exemplo amigável de Pokémon, já são um pouco de acertar ou acertar, esses ajustes personalizados e abordagens não padrão apenas tornam ainda mais complicado fazer comparações significativas entre os modelos quando eles atingem o mercado. Parece que comparar maçãs com maçãs pode estar ficando mais difícil a cada dia.




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯












