вариант
Дом
Новости
Дебаты по сравнению с ИИ достигли покемонов

Дебаты по сравнению с ИИ достигли покемонов

3 мая 2025 г.
290

Дебаты по сравнению с ИИ достигли покемонов

Даже любимый мир покемонов не застрахован от драмы, связанной с бенчмарками ИИ. Недавний вирусный пост на X вызвал настоящий ажиотаж, утверждая, что последняя модель Google Gemini обогнала ведущую модель Anthropic Claude в классической трилогии видеоигр о покемонах. Согласно посту, Gemini впечатляюще добралась до Лавандового города в прямой трансляции разработчика на Twitch, в то время как Claude отставала, находясь у Горы Луны в конце февраля.

Gemini буквально опережает Claude в покемонах, добравшись до Лавандового города

Кстати, всего 119 живых просмотров, невероятно недооценённая трансляция pic.twitter.com/8AvSovAI4x

— Jush (@Jush21e8) 10 апреля 2025

Однако этот пост удобно умолчал о том, что у Gemini было небольшое несправедливое преимущество. Проницательные пользователи на Reddit быстро заметили, что разработчик трансляции Gemini создал пользовательскую минимальную карту. Этот удобный инструмент помогает модели распознавать «тайлы» в игре, такие как деревья, которые можно срубить, что значительно сокращает время, необходимое Gemini для анализа скриншотов перед принятием следующего хода.

Хотя покемоны, возможно, и не являются самым серьёзным бенчмарком для ИИ, они служат забавным, но показательным примером того, как различные настройки могут искажать результаты этих тестов. Возьмём, к примеру, последнюю модель Anthropic, Anthropic 3.7 Sonnet. На бенчмарке SWE-bench Verified, который предназначен для тестирования навыков программирования, она показала точность 62,3%. Но с «пользовательским каркасом», созданным Anthropic, этот показатель подскочил до 70,3%.

И на этом дело не заканчивается. Meta взяла одну из своих новых моделей, Llama 4 Maverick, и специально настроила её для бенчмарка LM Arena. Обычная версия модели показала гораздо худшие результаты на том же тесте.

Учитывая, что бенчмарки ИИ, включая наш дружелюбный пример с покемонами, уже сами по себе немного ненадёжны, эти пользовательские доработки и нестандартные подходы только усложняют задачу проведения значимых сравнений между моделями по мере их выхода на рынок. Похоже, сравнивать яблоки с яблоками становится всё труднее с каждым днём.

Связанная статья
Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов Во вторник YouTube объявил о расширении доступа к своей технологии обнаружения дипфейков для определенной группы государственных чиновников, политических кандидатов и журналистов. Этот инструмент выяв
Рекомендации по связанным специальным темам
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
код Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом
Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов
xix.ai
Комментарии (9)
0/500
FredAllen
FredAllen 28 марта 2026 г., 9:03:53 GMT+03:00

¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮

CharlesYoung
CharlesYoung 31 октября 2025 г., 19:31:00 GMT+03:00

Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.

BrianWalker
BrianWalker 29 октября 2025 г., 13:30:32 GMT+03:00

ポケモンでベンチマーク比較って...AI開発もここまで来たか🤣 面白いけど、ゲームのプレイデータでモデルの優劣を決めるのって実際どのくらい意味あるんだろう?むしろAI同士に対戦させたら面白そう!

DouglasMartínez
DouglasMartínez 6 августа 2025 г., 20:01:00 GMT+03:00

Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️

JasonKing
JasonKing 5 мая 2025 г., 14:38:52 GMT+03:00

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 5 мая 2025 г., 2:11:33 GMT+03:00

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

OR