Дом Новости Дебаты по сравнению с ИИ достигли покемонов

Дебаты по сравнению с ИИ достигли покемонов

3 мая 2025 г.
JonathanDavis
0

Дебаты по сравнению с ИИ достигли покемонов

Даже любимый мир покемонов не застрахован от драмы, окружающей тесты ИИ. Недавний вирусный пост на X разжигал настоящий гул, утверждая, что последняя модель Gemini Google опередила ведущую модель Claude Antropic в классической трилогии видеоигр Pokémon. Согласно The Post, Gemini впечатляюще добрался до города Лавендера в потоке Developer's Twitch, в то время как Клод отставал на горе Луны в конце февраля.

Близнецы буквально опережают Клод Атм в Покемоне после достижения в Лавандовом городе

119 Live Views только кстати, невероятно недооцененный Stream Pic.twitter.com/8avsovai4x

- Jush (@jush21e8) 10 апреля 2025 г.

Тем не менее, этот пост удобно упустил тот факт, что Близнецы имели немного несправедливого преимущества. Опытные пользователи на Reddit быстро отметили, что разработчик, стоящий за потоком Близнецов, создал пользовательский минимум. Этот изящный инструмент помогает модели в распознавании «плиток» в игре, такой как деревья Cuttable, что значительно сокращает время, которое Близнецы должны потратить на анализ скриншотов, прежде чем принять решение о следующем шаге.

Теперь, хотя Pokémon, возможно, не является самым серьезным ориентиром по ИИ, он служит забавным, но показывающим пример того, как различные настройки могут исказить результаты этих тестов. Возьмите, например, недавнюю модель Anpropic, Anpropic 3.7 Sonnet. На проверенном эталонном эталоне SWE-Bench, который предназначен для тестирования мастерства кодирования, он набрал 62,3% точности. Но с «пользовательским каркасом», который антроп поднял, этот счет подскочил до 70,3%.

И это не останавливается на этом. Meta взяла одну из своих более новых моделей, Llama 4 Maverick и точно настроил ее специально для теста LM Arena. Ванильная версия модели не так же хорошо проходила на том же тесте.

Учитывая, что тесты ИИ, в том числе наш дружелюбный пример покемонов, уже немного хит или проют, эти пользовательские настройки и нестандартные подходы просто делают еще более сложным проводить значимые сравнения между моделями, когда они выходят на рынок. Похоже, что сравнение яблок с яблоками может быть сложнее с каждым днем.

Связанная статья
Top 10 AI Marketing Tools for April 2025 Top 10 AI Marketing Tools for April 2025 Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia's New Strategy to Manage AI Data Scraping Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's Bold Move in the Global AI Chip Race Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
Лучшие новости
Настройки для дата -центров США могут разблокировать 76 ГВт новой мощности. Прорыв в обнаружении лесных пожаров: как новое созвездие спутников может обнаруживать меньшие лесные пожары раньше ИИ вычисления для потребления мощности нескольких Нью -Йорка к 2026 году, говорит основатель Генеральный директор NVIDIA разъясняет заблуждения о влиянии на рынок DeepSeek NoteBooklm добавляет функцию обнаружения веб -источника Google.org раскрывает гранты на обучение AI за 15 миллионов долларов для государственных работников Пренебрежение этикой ИИ представляет огромные риски: как реализовать ИИ ответственно ИИ может быть ключом к разблокировке более эффективного государственного сектора Великобритании Adobe представляет 10 специализированных агентов искусственного интеллекта: открыть для себя их бизнес -приложения Workhelix использует многолетние исследования для руководства предприятиями в приложении искусственного интеллекта
Более
Back to Top
OR