Дебаты по сравнению с ИИ достигли покемонов

Даже любимый мир покемонов не застрахован от драмы, связанной с бенчмарками ИИ. Недавний вирусный пост на X вызвал настоящий ажиотаж, утверждая, что последняя модель Google Gemini обогнала ведущую модель Anthropic Claude в классической трилогии видеоигр о покемонах. Согласно посту, Gemini впечатляюще добралась до Лавандового города в прямой трансляции разработчика на Twitch, в то время как Claude отставала, находясь у Горы Луны в конце февраля.
Gemini буквально опережает Claude в покемонах, добравшись до Лавандового города
Кстати, всего 119 живых просмотров, невероятно недооценённая трансляция pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 апреля 2025
Однако этот пост удобно умолчал о том, что у Gemini было небольшое несправедливое преимущество. Проницательные пользователи на Reddit быстро заметили, что разработчик трансляции Gemini создал пользовательскую минимальную карту. Этот удобный инструмент помогает модели распознавать «тайлы» в игре, такие как деревья, которые можно срубить, что значительно сокращает время, необходимое Gemini для анализа скриншотов перед принятием следующего хода.
Хотя покемоны, возможно, и не являются самым серьёзным бенчмарком для ИИ, они служат забавным, но показательным примером того, как различные настройки могут искажать результаты этих тестов. Возьмём, к примеру, последнюю модель Anthropic, Anthropic 3.7 Sonnet. На бенчмарке SWE-bench Verified, который предназначен для тестирования навыков программирования, она показала точность 62,3%. Но с «пользовательским каркасом», созданным Anthropic, этот показатель подскочил до 70,3%.
И на этом дело не заканчивается. Meta взяла одну из своих новых моделей, Llama 4 Maverick, и специально настроила её для бенчмарка LM Arena. Обычная версия модели показала гораздо худшие результаты на том же тесте.
Учитывая, что бенчмарки ИИ, включая наш дружелюбный пример с покемонами, уже сами по себе немного ненадёжны, эти пользовательские доработки и нестандартные подходы только усложняют задачу проведения значимых сравнений между моделями по мере их выхода на рынок. Похоже, сравнивать яблоки с яблоками становится всё труднее с каждым днём.
Связанная статья
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ
Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
Рекомендации по связанным специальным темам
Комментарии (9)
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

Даже любимый мир покемонов не застрахован от драмы, связанной с бенчмарками ИИ. Недавний вирусный пост на X вызвал настоящий ажиотаж, утверждая, что последняя модель Google Gemini обогнала ведущую модель Anthropic Claude в классической трилогии видеоигр о покемонах. Согласно посту, Gemini впечатляюще добралась до Лавандового города в прямой трансляции разработчика на Twitch, в то время как Claude отставала, находясь у Горы Луны в конце февраля.
Gemini буквально опережает Claude в покемонах, добравшись до Лавандового города
Кстати, всего 119 живых просмотров, невероятно недооценённая трансляция pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 апреля 2025
Однако этот пост удобно умолчал о том, что у Gemini было небольшое несправедливое преимущество. Проницательные пользователи на Reddit быстро заметили, что разработчик трансляции Gemini создал пользовательскую минимальную карту. Этот удобный инструмент помогает модели распознавать «тайлы» в игре, такие как деревья, которые можно срубить, что значительно сокращает время, необходимое Gemini для анализа скриншотов перед принятием следующего хода.
Хотя покемоны, возможно, и не являются самым серьёзным бенчмарком для ИИ, они служат забавным, но показательным примером того, как различные настройки могут искажать результаты этих тестов. Возьмём, к примеру, последнюю модель Anthropic, Anthropic 3.7 Sonnet. На бенчмарке SWE-bench Verified, который предназначен для тестирования навыков программирования, она показала точность 62,3%. Но с «пользовательским каркасом», созданным Anthropic, этот показатель подскочил до 70,3%.
И на этом дело не заканчивается. Meta взяла одну из своих новых моделей, Llama 4 Maverick, и специально настроила её для бенчмарка LM Arena. Обычная версия модели показала гораздо худшие результаты на том же тесте.
Учитывая, что бенчмарки ИИ, включая наш дружелюбный пример с покемонами, уже сами по себе немного ненадёжны, эти пользовательские доработки и нестандартные подходы только усложняют задачу проведения значимых сравнений между моделями по мере их выхода на рынок. Похоже, сравнивать яблоки с яблоками становится всё труднее с каждым днём.
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯





Дом






