Anthropic은 Pokémon을 사용하여 최신 AI 모델을 벤치마킹했습니다
놀라운 움직임으로, Anthropic은 최신 AI 모델인 Claude 3.7 Sonnet을 클래식 Game Boy 게임 Pokémon Red로 테스트하기로 결정했습니다. 월요일에 공개된 블로그 포스트에 따르면, 회사는 이 모델에 필수 요소를 장착했습니다: 메모리, 화면 픽셀을 읽는 능력, 버튼을 누르고 게임 화면을 이동하는 능력. 이 설정으로 Claude 3.7 Sonnet은 Pokémon의 세계에 뛰어들어 계속 플레이할 수 있었습니다.
Claude 3.7 Sonnet을 돋보이게 하는 것은 "확장된 사고" 능력입니다. OpenAI의 o3-mini와 DeepSeek의 R1 같은 다른 모델과 유사하게, 이 모델은 컴퓨팅 파워를 높이고 충분한 시간을 들여 문제를 해결할 수 있습니다.
이 기능은 Pokémon Red에서 게임 체인저로 입증되었습니다. 이전 Claude 3.0 Sonnet은 Pallet Town의 시작 지역을 벗어나지 못했지만, Claude 3.7 Sonnet은 세 명의 체육관 리더를 물리치고 그들의 배지를 획득했습니다.

이미지 제공: Anthropic 이제 Anthropic은 Claude 3.7 Sonnet이 이 이정표에 도달하는 데 필요한 컴퓨팅 파워의 양이나 걸린 시간을 구체적으로 밝히지 않았습니다. 그들은 단지 이 모델이 마지막 체육관 리더인 Surge와 대결하기 위해 무려 35,000개의 액션을 수행했다고 언급했습니다.지난주, 한 연구원이 Claude 3.7 Sonnet의 초기 미리보기를 시험해 보았습니다.
결과는 놀라웠습니다. 몇 시간 만에 Claude는 Brock을 물리쳤습니다. 며칠 후에는 Misty를 완파했습니다. 이전 모델들이 거의 달성할 가능성이 없었던 진행이었습니다.
확장된 사고가 매우 효과적임이 밝혀졌습니다. pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025년 2월 25일
곧 어떤 영리한 개발자가 세부 사항을 알아낼 것입니다.
Pokémon Red가 약간 재미있는 테스트처럼 보일 수 있지만, 게임은 실제로 오랫동안 AI 벤치마킹에 사용되어 왔습니다. 지난 몇 달 동안, Street Fighter부터 Pictionary까지 AI 모델이 얼마나 잘 플레이할 수 있는지 테스트하기 위해 수많은 새로운 앱과 플랫폼이 등장했습니다.
관련 기사
AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다
사랑하는 포켓몬의 세계조차도 AI 벤치 마크를 둘러싼 드라마에 면역이되지 않습니다. X의 최근 바이러스 성 게시물은 Google의 최신 Gemini 모델이 Classic Pokémon Video Game Trilogy에서 Anthropic의 주요 클로드 모델을 능가했다고 주장하면서 상당히 화제를 불러 일으켰습니다. 포스트에 따르면, Gemini
AI로 구동되는 색칠공기놀이 책 제작: 종합 가이드
색칠공기놀이 책 디자인은 예술적 표현과 사용자에게 차분한 경험을 결합한 보람 있는 활동입니다. 하지만 이 과정은 노동 집약적일 수 있습니다. 다행히 AI 도구를 사용하면 고품질의 균일한 색칠 페이지를 쉽게 만들 수 있습니다. 이 가이드는 AI를 사용해 색칠공기놀이 책을 제작하는 단계별 접근법을 제공하며, 일관된 스타일과 최적의 효율성을 위한 기술에 초점을
Qodo, Google Cloud와 협력하여 개발자를 위한 무료 AI 코드 리뷰 도구 제공
코드 품질에 초점을 맞춘 이스라엘 기반 AI 코딩 스타트업 Qodo가 Google Cloud와 파트너십을 시작하여 AI로 생성된 소프트웨어의 무결성을 강화했습니다.기업들이 코딩에 AI를 점점 더 많이 의존함에 따라, 강력한 감독 및 품질 보증 도구에 대한 수요가 증가하고 있습니다.Qodo의 CEO Itamar Friedman은 AI로 생성된 코드가 현대 개
의견 (17)
0/200
FrankSanchez
2025년 8월 12일 오전 2시 1분 2초 GMT+09:00
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
0
PaulSanchez
2025년 7월 23일 오후 1시 59분 29초 GMT+09:00
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
0
LawrenceLopez
2025년 4월 22일 오후 1시 33분 7초 GMT+09:00
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂
0
JeffreyRamirez
2025년 4월 20일 오후 5시 47분 48초 GMT+09:00
Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂
0
FrankSmith
2025년 4월 17일 오후 11시 27분 49초 GMT+09:00
포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂
0
JoeLee
2025년 4월 17일 오전 10시 15분 28초 GMT+09:00
¿Usar Pokémon para probar IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Rojo es genial, pero un poco raro. Es increíble que pueda leer píxeles de la pantalla y recordar cosas, pero ¿realmente atrapa a todos? 🤔 Idea divertida, pero me pregunto qué tan práctico es en la vida real. ¡A atraparlos a todos, verdad? 😂
0
놀라운 움직임으로, Anthropic은 최신 AI 모델인 Claude 3.7 Sonnet을 클래식 Game Boy 게임 Pokémon Red로 테스트하기로 결정했습니다. 월요일에 공개된 블로그 포스트에 따르면, 회사는 이 모델에 필수 요소를 장착했습니다: 메모리, 화면 픽셀을 읽는 능력, 버튼을 누르고 게임 화면을 이동하는 능력. 이 설정으로 Claude 3.7 Sonnet은 Pokémon의 세계에 뛰어들어 계속 플레이할 수 있었습니다.
Claude 3.7 Sonnet을 돋보이게 하는 것은 "확장된 사고" 능력입니다. OpenAI의 o3-mini와 DeepSeek의 R1 같은 다른 모델과 유사하게, 이 모델은 컴퓨팅 파워를 높이고 충분한 시간을 들여 문제를 해결할 수 있습니다.
이 기능은 Pokémon Red에서 게임 체인저로 입증되었습니다. 이전 Claude 3.0 Sonnet은 Pallet Town의 시작 지역을 벗어나지 못했지만, Claude 3.7 Sonnet은 세 명의 체육관 리더를 물리치고 그들의 배지를 획득했습니다.
지난주, 한 연구원이 Claude 3.7 Sonnet의 초기 미리보기를 시험해 보았습니다.
결과는 놀라웠습니다. 몇 시간 만에 Claude는 Brock을 물리쳤습니다. 며칠 후에는 Misty를 완파했습니다. 이전 모델들이 거의 달성할 가능성이 없었던 진행이었습니다.
확장된 사고가 매우 효과적임이 밝혀졌습니다. pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025년 2월 25일
곧 어떤 영리한 개발자가 세부 사항을 알아낼 것입니다.
Pokémon Red가 약간 재미있는 테스트처럼 보일 수 있지만, 게임은 실제로 오랫동안 AI 벤치마킹에 사용되어 왔습니다. 지난 몇 달 동안, Street Fighter부터 Pictionary까지 AI 모델이 얼마나 잘 플레이할 수 있는지 테스트하기 위해 수많은 새로운 앱과 플랫폼이 등장했습니다.




Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄




Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️




Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂




Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂




포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂




¿Usar Pokémon para probar IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Rojo es genial, pero un poco raro. Es increíble que pueda leer píxeles de la pantalla y recordar cosas, pero ¿realmente atrapa a todos? 🤔 Idea divertida, pero me pregunto qué tan práctico es en la vida real. ¡A atraparlos a todos, verdad? 😂












