Дебаты по сравнению с ИИ достигли покемонов
3 мая 2025 г.
JonathanDavis
0

Даже любимый мир покемонов не застрахован от драмы, окружающей тесты ИИ. Недавний вирусный пост на X разжигал настоящий гул, утверждая, что последняя модель Gemini Google опередила ведущую модель Claude Antropic в классической трилогии видеоигр Pokémon. Согласно The Post, Gemini впечатляюще добрался до города Лавендера в потоке Developer's Twitch, в то время как Клод отставал на горе Луны в конце февраля.
Близнецы буквально опережают Клод Атм в Покемоне после достижения в Лавандовом городе
119 Live Views только кстати, невероятно недооцененный Stream Pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 апреля 2025 г.
Тем не менее, этот пост удобно упустил тот факт, что Близнецы имели немного несправедливого преимущества. Опытные пользователи на Reddit быстро отметили, что разработчик, стоящий за потоком Близнецов, создал пользовательский минимум. Этот изящный инструмент помогает модели в распознавании «плиток» в игре, такой как деревья Cuttable, что значительно сокращает время, которое Близнецы должны потратить на анализ скриншотов, прежде чем принять решение о следующем шаге.
Теперь, хотя Pokémon, возможно, не является самым серьезным ориентиром по ИИ, он служит забавным, но показывающим пример того, как различные настройки могут исказить результаты этих тестов. Возьмите, например, недавнюю модель Anpropic, Anpropic 3.7 Sonnet. На проверенном эталонном эталоне SWE-Bench, который предназначен для тестирования мастерства кодирования, он набрал 62,3% точности. Но с «пользовательским каркасом», который антроп поднял, этот счет подскочил до 70,3%.
И это не останавливается на этом. Meta взяла одну из своих более новых моделей, Llama 4 Maverick и точно настроил ее специально для теста LM Arena. Ванильная версия модели не так же хорошо проходила на том же тесте.
Учитывая, что тесты ИИ, в том числе наш дружелюбный пример покемонов, уже немного хит или проют, эти пользовательские настройки и нестандартные подходы просто делают еще более сложным проводить значимые сравнения между моделями, когда они выходят на рынок. Похоже, что сравнение яблок с яблоками может быть сложнее с каждым днем.
Связанная статья
Top 10 AI Marketing Tools for April 2025
Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers
Wikipedia's New Strategy to Manage AI Data Scraping
Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance
Huawei's Bold Move in the Global AI Chip Race
Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
Комментарии (0)






Даже любимый мир покемонов не застрахован от драмы, окружающей тесты ИИ. Недавний вирусный пост на X разжигал настоящий гул, утверждая, что последняя модель Gemini Google опередила ведущую модель Claude Antropic в классической трилогии видеоигр Pokémon. Согласно The Post, Gemini впечатляюще добрался до города Лавендера в потоке Developer's Twitch, в то время как Клод отставал на горе Луны в конце февраля.
Близнецы буквально опережают Клод Атм в Покемоне после достижения в Лавандовом городе
119 Live Views только кстати, невероятно недооцененный Stream Pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 апреля 2025 г.
Тем не менее, этот пост удобно упустил тот факт, что Близнецы имели немного несправедливого преимущества. Опытные пользователи на Reddit быстро отметили, что разработчик, стоящий за потоком Близнецов, создал пользовательский минимум. Этот изящный инструмент помогает модели в распознавании «плиток» в игре, такой как деревья Cuttable, что значительно сокращает время, которое Близнецы должны потратить на анализ скриншотов, прежде чем принять решение о следующем шаге.
Теперь, хотя Pokémon, возможно, не является самым серьезным ориентиром по ИИ, он служит забавным, но показывающим пример того, как различные настройки могут исказить результаты этих тестов. Возьмите, например, недавнюю модель Anpropic, Anpropic 3.7 Sonnet. На проверенном эталонном эталоне SWE-Bench, который предназначен для тестирования мастерства кодирования, он набрал 62,3% точности. Но с «пользовательским каркасом», который антроп поднял, этот счет подскочил до 70,3%.
И это не останавливается на этом. Meta взяла одну из своих более новых моделей, Llama 4 Maverick и точно настроил ее специально для теста LM Arena. Ванильная версия модели не так же хорошо проходила на том же тесте.
Учитывая, что тесты ИИ, в том числе наш дружелюбный пример покемонов, уже немного хит или проют, эти пользовательские настройки и нестандартные подходы просто делают еще более сложным проводить значимые сравнения между моделями, когда они выходят на рынок. Похоже, что сравнение яблок с яблоками может быть сложнее с каждым днем.











