вариант
Дом
Новости
Дебаты по сравнению с ИИ достигли покемонов

Дебаты по сравнению с ИИ достигли покемонов

3 мая 2025 г.
122

Дебаты по сравнению с ИИ достигли покемонов

Даже любимый мир покемонов не застрахован от драмы, связанной с бенчмарками ИИ. Недавний вирусный пост на X вызвал настоящий ажиотаж, утверждая, что последняя модель Google Gemini обогнала ведущую модель Anthropic Claude в классической трилогии видеоигр о покемонах. Согласно посту, Gemini впечатляюще добралась до Лавандового города в прямой трансляции разработчика на Twitch, в то время как Claude отставала, находясь у Горы Луны в конце февраля.

Gemini буквально опережает Claude в покемонах, добравшись до Лавандового города

Кстати, всего 119 живых просмотров, невероятно недооценённая трансляция pic.twitter.com/8AvSovAI4x

— Jush (@Jush21e8) 10 апреля 2025

Однако этот пост удобно умолчал о том, что у Gemini было небольшое несправедливое преимущество. Проницательные пользователи на Reddit быстро заметили, что разработчик трансляции Gemini создал пользовательскую минимальную карту. Этот удобный инструмент помогает модели распознавать «тайлы» в игре, такие как деревья, которые можно срубить, что значительно сокращает время, необходимое Gemini для анализа скриншотов перед принятием следующего хода.

Хотя покемоны, возможно, и не являются самым серьёзным бенчмарком для ИИ, они служат забавным, но показательным примером того, как различные настройки могут искажать результаты этих тестов. Возьмём, к примеру, последнюю модель Anthropic, Anthropic 3.7 Sonnet. На бенчмарке SWE-bench Verified, который предназначен для тестирования навыков программирования, она показала точность 62,3%. Но с «пользовательским каркасом», созданным Anthropic, этот показатель подскочил до 70,3%.

И на этом дело не заканчивается. Meta взяла одну из своих новых моделей, Llama 4 Maverick, и специально настроила её для бенчмарка LM Arena. Обычная версия модели показала гораздо худшие результаты на том же тесте.

Учитывая, что бенчмарки ИИ, включая наш дружелюбный пример с покемонами, уже сами по себе немного ненадёжны, эти пользовательские доработки и нестандартные подходы только усложняют задачу проведения значимых сравнений между моделями по мере их выхода на рынок. Похоже, сравнивать яблоки с яблоками становится всё труднее с каждым днём.

Связанная статья
Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot Salesforce запустила новую стратегию ИИ для рабочего места, представив специализированных «цифровых помощников», интегрированных в беседы Slack, сообщила компания в понедельник.Новый инструмент, Agent
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
Приложение Meta AI представит премиум-уровень и рекламу Приложение Meta AI представит премиум-уровень и рекламу Приложение Meta AI вскоре может предложить платную подписку, аналогичную предложениям конкурентов, таких как OpenAI, Google и Microsoft. Во время отчета о доходах за первый квартал 2025 года генеральн
DouglasMartínez
DouglasMartínez 6 августа 2025 г., 20:01:00 GMT+03:00

Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️

JasonKing
JasonKing 5 мая 2025 г., 14:38:52 GMT+03:00

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 5 мая 2025 г., 2:11:33 GMT+03:00

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

WalterThomas
WalterThomas 4 мая 2025 г., 18:05:10 GMT+03:00

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

AlbertThomas
AlbertThomas 4 мая 2025 г., 9:38:28 GMT+03:00

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 3 мая 2025 г., 22:01:44 GMT+03:00

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

Вернуться к вершине
OR