Anthropic은 Pokémon을 사용하여 최신 AI 모델을 벤치마킹했습니다
놀라운 움직임으로, Anthropic은 최신 AI 모델인 Claude 3.7 Sonnet을 클래식 Game Boy 게임 Pokémon Red로 테스트하기로 결정했습니다. 월요일에 공개된 블로그 포스트에 따르면, 회사는 이 모델에 필수 요소를 장착했습니다: 메모리, 화면 픽셀을 읽는 능력, 버튼을 누르고 게임 화면을 이동하는 능력. 이 설정으로 Claude 3.7 Sonnet은 Pokémon의 세계에 뛰어들어 계속 플레이할 수 있었습니다.
Claude 3.7 Sonnet을 돋보이게 하는 것은 "확장된 사고" 능력입니다. OpenAI의 o3-mini와 DeepSeek의 R1 같은 다른 모델과 유사하게, 이 모델은 컴퓨팅 파워를 높이고 충분한 시간을 들여 문제를 해결할 수 있습니다.
이 기능은 Pokémon Red에서 게임 체인저로 입증되었습니다. 이전 Claude 3.0 Sonnet은 Pallet Town의 시작 지역을 벗어나지 못했지만, Claude 3.7 Sonnet은 세 명의 체육관 리더를 물리치고 그들의 배지를 획득했습니다.

이미지 제공: Anthropic 이제 Anthropic은 Claude 3.7 Sonnet이 이 이정표에 도달하는 데 필요한 컴퓨팅 파워의 양이나 걸린 시간을 구체적으로 밝히지 않았습니다. 그들은 단지 이 모델이 마지막 체육관 리더인 Surge와 대결하기 위해 무려 35,000개의 액션을 수행했다고 언급했습니다.지난주, 한 연구원이 Claude 3.7 Sonnet의 초기 미리보기를 시험해 보았습니다.
결과는 놀라웠습니다. 몇 시간 만에 Claude는 Brock을 물리쳤습니다. 며칠 후에는 Misty를 완파했습니다. 이전 모델들이 거의 달성할 가능성이 없었던 진행이었습니다.
확장된 사고가 매우 효과적임이 밝혀졌습니다. pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025년 2월 25일
곧 어떤 영리한 개발자가 세부 사항을 알아낼 것입니다.
Pokémon Red가 약간 재미있는 테스트처럼 보일 수 있지만, 게임은 실제로 오랫동안 AI 벤치마킹에 사용되어 왔습니다. 지난 몇 달 동안, Street Fighter부터 Pictionary까지 AI 모델이 얼마나 잘 플레이할 수 있는지 테스트하기 위해 수많은 새로운 앱과 플랫폼이 등장했습니다.
관련 기사
구글의 제미니 AI가 포켓몬 블루를 정복하다
구글의 AI 이정표: 클래식 포켓몬 어드벤처 정복구글의 가장 진보된 AI 모델이 1996년 게임보이 타이틀인 포켓몬 블루를 완성하는 등 주목할 만한 게임 혁신을 이뤄낸 것으로 보입니다. 순다르 피차이 CEO는 소셜 미디어를 통해 이 성과를 축하했지만, 이 성과에는 중요한 맥락이 있습니다.제미니 플레이 포켓몬 생방송 프로젝트는 사실 소프트웨어 엔지니어인 조엘
AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다
사랑하는 포켓몬의 세계조차도 AI 벤치 마크를 둘러싼 드라마에 면역이되지 않습니다. X의 최근 바이러스 성 게시물은 Google의 최신 Gemini 모델이 Classic Pokémon Video Game Trilogy에서 Anthropic의 주요 클로드 모델을 능가했다고 주장하면서 상당히 화제를 불러 일으켰습니다. 포스트에 따르면, Gemini
더 나은 데이터 인사이트를 위한 AI 기반 그래프 및 시각화를 쉽게 생성하기
최신 데이터 분석에는 복잡한 정보를 직관적으로 시각화할 수 있어야 합니다. AI 기반 그래프 생성 솔루션은 전문가들이 원시 데이터를 매력적인 시각적 스토리로 변환하는 방법에 혁신을 일으키며 필수적인 자산으로 부상했습니다. 이러한 지능형 시스템은 정밀도를 유지하면서 수동 차트 생성을 제거하여 기술 및 비기술 사용자 모두 자동화된 시각화를 통해 실행 가능한 인
의견 (18)
0/200
BillyAdams
2025년 8월 27일 오후 9시 59분 25초 GMT+09:00
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎
0
FrankSanchez
2025년 8월 12일 오전 2시 1분 2초 GMT+09:00
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
0
PaulSanchez
2025년 7월 23일 오후 1시 59분 29초 GMT+09:00
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
0
LawrenceLopez
2025년 4월 22일 오후 1시 33분 7초 GMT+09:00
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂
0
JeffreyRamirez
2025년 4월 20일 오후 5시 47분 48초 GMT+09:00
Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂
0
FrankSmith
2025년 4월 17일 오후 11시 27분 49초 GMT+09:00
포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂
0
놀라운 움직임으로, Anthropic은 최신 AI 모델인 Claude 3.7 Sonnet을 클래식 Game Boy 게임 Pokémon Red로 테스트하기로 결정했습니다. 월요일에 공개된 블로그 포스트에 따르면, 회사는 이 모델에 필수 요소를 장착했습니다: 메모리, 화면 픽셀을 읽는 능력, 버튼을 누르고 게임 화면을 이동하는 능력. 이 설정으로 Claude 3.7 Sonnet은 Pokémon의 세계에 뛰어들어 계속 플레이할 수 있었습니다.
Claude 3.7 Sonnet을 돋보이게 하는 것은 "확장된 사고" 능력입니다. OpenAI의 o3-mini와 DeepSeek의 R1 같은 다른 모델과 유사하게, 이 모델은 컴퓨팅 파워를 높이고 충분한 시간을 들여 문제를 해결할 수 있습니다.
이 기능은 Pokémon Red에서 게임 체인저로 입증되었습니다. 이전 Claude 3.0 Sonnet은 Pallet Town의 시작 지역을 벗어나지 못했지만, Claude 3.7 Sonnet은 세 명의 체육관 리더를 물리치고 그들의 배지를 획득했습니다.
지난주, 한 연구원이 Claude 3.7 Sonnet의 초기 미리보기를 시험해 보았습니다.
결과는 놀라웠습니다. 몇 시간 만에 Claude는 Brock을 물리쳤습니다. 며칠 후에는 Misty를 완파했습니다. 이전 모델들이 거의 달성할 가능성이 없었던 진행이었습니다.
확장된 사고가 매우 효과적임이 밝혀졌습니다. pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025년 2월 25일
곧 어떤 영리한 개발자가 세부 사항을 알아낼 것입니다.
Pokémon Red가 약간 재미있는 테스트처럼 보일 수 있지만, 게임은 실제로 오랫동안 AI 벤치마킹에 사용되어 왔습니다. 지난 몇 달 동안, Street Fighter부터 Pictionary까지 AI 모델이 얼마나 잘 플레이할 수 있는지 테스트하기 위해 수많은 새로운 앱과 플랫폼이 등장했습니다.




Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎




Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄




Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️




Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂




Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂




포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂












