Дебаты по сравнению с ИИ достигли покемонов

Даже любимый мир покемонов не застрахован от драмы, окружающей тесты ИИ. Недавний вирусный пост на X разжигал настоящий гул, утверждая, что последняя модель Gemini Google опередила ведущую модель Claude Antropic в классической трилогии видеоигр Pokémon. Согласно The Post, Gemini впечатляюще добрался до города Лавендера в потоке Developer's Twitch, в то время как Клод отставал на горе Луны в конце февраля.
Близнецы буквально опережают Клод Атм в Покемоне после достижения в Лавандовом городе
119 Live Views только кстати, невероятно недооцененный Stream Pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 апреля 2025 г.
Тем не менее, этот пост удобно упустил тот факт, что Близнецы имели немного несправедливого преимущества. Опытные пользователи на Reddit быстро отметили, что разработчик, стоящий за потоком Близнецов, создал пользовательский минимум. Этот изящный инструмент помогает модели в распознавании «плиток» в игре, такой как деревья Cuttable, что значительно сокращает время, которое Близнецы должны потратить на анализ скриншотов, прежде чем принять решение о следующем шаге.
Теперь, хотя Pokémon, возможно, не является самым серьезным ориентиром по ИИ, он служит забавным, но показывающим пример того, как различные настройки могут исказить результаты этих тестов. Возьмите, например, недавнюю модель Anpropic, Anpropic 3.7 Sonnet. На проверенном эталонном эталоне SWE-Bench, который предназначен для тестирования мастерства кодирования, он набрал 62,3% точности. Но с «пользовательским каркасом», который антроп поднял, этот счет подскочил до 70,3%.
И это не останавливается на этом. Meta взяла одну из своих более новых моделей, Llama 4 Maverick и точно настроил ее специально для теста LM Arena. Ванильная версия модели не так же хорошо проходила на том же тесте.
Учитывая, что тесты ИИ, в том числе наш дружелюбный пример покемонов, уже немного хит или проют, эти пользовательские настройки и нестандартные подходы просто делают еще более сложным проводить значимые сравнения между моделями, когда они выходят на рынок. Похоже, что сравнение яблок с яблоками может быть сложнее с каждым днем.
Связанная статья
xAI đăng các lời nhắc hậu trường của Grok
xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự
Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này
Xin chào mọi người, chào mừng trở lại với bản tin AI của TechCrunch! Nếu bạn chưa đăng ký, bạn có thể đăng ký tại đây để nhận bản tin trực tiếp vào hộp thư đến của bạn mỗi thứ Tư.Chúng tôi đã tạm nghỉ
Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI
NotebookLM Đã Có Mặt Trên Di Động: Trợ Lý Nghiên Cứu AI Giờ Đã Có Trên Android & iOS Phản hồi về NotebookLM đã vượt xa mong đợi—hàng triệu người dùng đã chọn nó làm công cụ kh
Комментарии (5)
JasonKing
5 мая 2025 г., 0:00:00 GMT
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
5 мая 2025 г., 0:00:00 GMT
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
AlbertThomas
4 мая 2025 г., 0:00:00 GMT
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
4 мая 2025 г., 0:00:00 GMT
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
WalterThomas
4 мая 2025 г., 0:00:00 GMT
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
Даже любимый мир покемонов не застрахован от драмы, окружающей тесты ИИ. Недавний вирусный пост на X разжигал настоящий гул, утверждая, что последняя модель Gemini Google опередила ведущую модель Claude Antropic в классической трилогии видеоигр Pokémon. Согласно The Post, Gemini впечатляюще добрался до города Лавендера в потоке Developer's Twitch, в то время как Клод отставал на горе Луны в конце февраля.
Близнецы буквально опережают Клод Атм в Покемоне после достижения в Лавандовом городе
119 Live Views только кстати, невероятно недооцененный Stream Pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 10 апреля 2025 г.
Тем не менее, этот пост удобно упустил тот факт, что Близнецы имели немного несправедливого преимущества. Опытные пользователи на Reddit быстро отметили, что разработчик, стоящий за потоком Близнецов, создал пользовательский минимум. Этот изящный инструмент помогает модели в распознавании «плиток» в игре, такой как деревья Cuttable, что значительно сокращает время, которое Близнецы должны потратить на анализ скриншотов, прежде чем принять решение о следующем шаге.
Теперь, хотя Pokémon, возможно, не является самым серьезным ориентиром по ИИ, он служит забавным, но показывающим пример того, как различные настройки могут исказить результаты этих тестов. Возьмите, например, недавнюю модель Anpropic, Anpropic 3.7 Sonnet. На проверенном эталонном эталоне SWE-Bench, который предназначен для тестирования мастерства кодирования, он набрал 62,3% точности. Но с «пользовательским каркасом», который антроп поднял, этот счет подскочил до 70,3%.
И это не останавливается на этом. Meta взяла одну из своих более новых моделей, Llama 4 Maverick и точно настроил ее специально для теста LM Arena. Ванильная версия модели не так же хорошо проходила на том же тесте.
Учитывая, что тесты ИИ, в том числе наш дружелюбный пример покемонов, уже немного хит или проют, эти пользовательские настройки и нестандартные подходы просто делают еще более сложным проводить значимые сравнения между моделями, когда они выходят на рынок. Похоже, что сравнение яблок с яблоками может быть сложнее с каждым днем.




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯












