Антропический использовал покемона для сравнения своей новейшей модели искусственного интеллекта
В неожиданном шаге Anthropic решила протестировать свою последнюю модель ИИ, Claude 3.7 Sonnet, на классической игре для Game Boy — Pokémon Red. Согласно посту в блоге, опубликованному в понедельник, компания оснастила модель необходимым: памятью, способностью считывать пиксели экрана и возможностью нажимать кнопки и перемещаться по игровому экрану. Это позволило Claude 3.7 Sonnet погрузиться в мир Pokémon и продолжать играть.
Claude 3.7 Sonnet выделяется своим умением «длительного мышления». Подобно другим моделям, таким как OpenAI o3-mini и DeepSeek R1, она может решать сложные задачи, увеличивая вычислительную мощность и тщательно обдумывая решения.
Эта функция стала переломным моментом в Pokémon Red. Если старая модель Claude 3.0 Sonnet не могла даже выбраться из начальной зоны в Pallet Town, то Claude 3.7 Sonnet сумела победить трех лидеров спортзалов и получить их значки.

Изображение предоставлено: Anthropic Anthropic не раскрыла, сколько именно вычислительной мощности потребовалось или сколько времени ушло на достижение этих результатов. Они лишь упомянули, что модель выполнила колоссальные 35 000 действий, чтобы сразиться с последним лидером спортзала, Surge.На прошлой неделе исследователь опробовал раннюю версию Claude 3.7 Sonnet.
Результаты были поразительными. За несколько часов Claude победил Brock. Спустя дни он разгромил Misty. Прогресс, которого старые модели едва ли могли достичь.
Оказывается, длительное мышление чрезвычайно эффективно. pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 25 февраля 2025
Скоро какой-нибудь сообразительный разработчик разберется в деталях.
Хотя Pokémon Red может показаться просто забавным тестом, игры уже давно используются для тестирования ИИ. За последние несколько месяцев появилось множество новых приложений и платформ для проверки того, как хорошо модели ИИ могут играть в игры, от Street Fighter до Pictionary.
Связанная статья
Дебаты по сравнению с ИИ достигли покемонов
Даже любимый мир покемонов не застрахован от драмы, окружающей тесты ИИ. Недавний вирусный пост на X разжигал настоящий гул, утверждая, что последняя модель Gemini Google опередила ведущую модель Claude Antropic в классической трилогии видеоигр Pokémon. Согласно сообщению, Близнецы
Qodo сотрудничает с Google Cloud для предоставления бесплатных инструментов AI для проверки кода разработчикам
Qodo, израильский стартап в области AI-кодирования, ориентированный на качество кода, начал сотрудничество с Google Cloud для повышения целостности программного обеспечения, созданного AI.По мере рост
DeepMind's AI Secures Gold at 2025 Math Olympiad
ИИ DeepMind достиг потрясающего прорыва в математическом мышлении, завоевав золотую медаль на Международной математической олимпиаде (IMO) 2025 года, всего через год после получения серебра в 2024 год
Комментарии (17)
FrankSanchez
11 августа 2025 г., 20:01:02 GMT+03:00
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
0
PaulSanchez
23 июля 2025 г., 7:59:29 GMT+03:00
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
0
LawrenceLopez
22 апреля 2025 г., 7:33:07 GMT+03:00
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂
0
JeffreyRamirez
20 апреля 2025 г., 11:47:48 GMT+03:00
Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂
0
FrankSmith
17 апреля 2025 г., 17:27:49 GMT+03:00
포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂
0
JoeLee
17 апреля 2025 г., 4:15:28 GMT+03:00
¿Usar Pokémon para probar IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Rojo es genial, pero un poco raro. Es increíble que pueda leer píxeles de la pantalla y recordar cosas, pero ¿realmente atrapa a todos? 🤔 Idea divertida, pero me pregunto qué tan práctico es en la vida real. ¡A atraparlos a todos, verdad? 😂
0
В неожиданном шаге Anthropic решила протестировать свою последнюю модель ИИ, Claude 3.7 Sonnet, на классической игре для Game Boy — Pokémon Red. Согласно посту в блоге, опубликованному в понедельник, компания оснастила модель необходимым: памятью, способностью считывать пиксели экрана и возможностью нажимать кнопки и перемещаться по игровому экрану. Это позволило Claude 3.7 Sonnet погрузиться в мир Pokémon и продолжать играть.
Claude 3.7 Sonnet выделяется своим умением «длительного мышления». Подобно другим моделям, таким как OpenAI o3-mini и DeepSeek R1, она может решать сложные задачи, увеличивая вычислительную мощность и тщательно обдумывая решения.
Эта функция стала переломным моментом в Pokémon Red. Если старая модель Claude 3.0 Sonnet не могла даже выбраться из начальной зоны в Pallet Town, то Claude 3.7 Sonnet сумела победить трех лидеров спортзалов и получить их значки.
На прошлой неделе исследователь опробовал раннюю версию Claude 3.7 Sonnet.
Результаты были поразительными. За несколько часов Claude победил Brock. Спустя дни он разгромил Misty. Прогресс, которого старые модели едва ли могли достичь.
Оказывается, длительное мышление чрезвычайно эффективно. pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 25 февраля 2025
Скоро какой-нибудь сообразительный разработчик разберется в деталях.
Хотя Pokémon Red может показаться просто забавным тестом, игры уже давно используются для тестирования ИИ. За последние несколько месяцев появилось множество новых приложений и платформ для проверки того, как хорошо модели ИИ могут играть в игры, от Street Fighter до Pictionary.



Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄




Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️




Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂




Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂




포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂




¿Usar Pokémon para probar IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Rojo es genial, pero un poco raro. Es increíble que pueda leer píxeles de la pantalla y recordar cosas, pero ¿realmente atrapa a todos? 🤔 Idea divertida, pero me pregunto qué tan práctico es en la vida real. ¡A atraparlos a todos, verdad? 😂












