Anthropic은 Pokémon을 사용하여 최신 AI 모델을 벤치마킹했습니다
놀라운 움직임으로, Anthropic은 최신 AI 모델인 Claude 3.7 Sonnet을 클래식 Game Boy 게임 Pokémon Red로 테스트하기로 결정했습니다. 월요일에 공개된 블로그 포스트에 따르면, 회사는 이 모델에 필수 요소를 장착했습니다: 메모리, 화면 픽셀을 읽는 능력, 버튼을 누르고 게임 화면을 이동하는 능력. 이 설정으로 Claude 3.7 Sonnet은 Pokémon의 세계에 뛰어들어 계속 플레이할 수 있었습니다.
Claude 3.7 Sonnet을 돋보이게 하는 것은 "확장된 사고" 능력입니다. OpenAI의 o3-mini와 DeepSeek의 R1 같은 다른 모델과 유사하게, 이 모델은 컴퓨팅 파워를 높이고 충분한 시간을 들여 문제를 해결할 수 있습니다.
이 기능은 Pokémon Red에서 게임 체인저로 입증되었습니다. 이전 Claude 3.0 Sonnet은 Pallet Town의 시작 지역을 벗어나지 못했지만, Claude 3.7 Sonnet은 세 명의 체육관 리더를 물리치고 그들의 배지를 획득했습니다.

이미지 제공: Anthropic 이제 Anthropic은 Claude 3.7 Sonnet이 이 이정표에 도달하는 데 필요한 컴퓨팅 파워의 양이나 걸린 시간을 구체적으로 밝히지 않았습니다. 그들은 단지 이 모델이 마지막 체육관 리더인 Surge와 대결하기 위해 무려 35,000개의 액션을 수행했다고 언급했습니다.지난주, 한 연구원이 Claude 3.7 Sonnet의 초기 미리보기를 시험해 보았습니다.
결과는 놀라웠습니다. 몇 시간 만에 Claude는 Brock을 물리쳤습니다. 며칠 후에는 Misty를 완파했습니다. 이전 모델들이 거의 달성할 가능성이 없었던 진행이었습니다.
확장된 사고가 매우 효과적임이 밝혀졌습니다. pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025년 2월 25일
곧 어떤 영리한 개발자가 세부 사항을 알아낼 것입니다.
Pokémon Red가 약간 재미있는 테스트처럼 보일 수 있지만, 게임은 실제로 오랫동안 AI 벤치마킹에 사용되어 왔습니다. 지난 몇 달 동안, Street Fighter부터 Pictionary까지 AI 모델이 얼마나 잘 플레이할 수 있는지 테스트하기 위해 수많은 새로운 앱과 플랫폼이 등장했습니다.
관련 기사
구글의 제미니 AI가 포켓몬 블루를 정복하다
구글의 AI 이정표: 클래식 포켓몬 어드벤처 정복구글의 가장 진보된 AI 모델이 1996년 게임보이 타이틀인 포켓몬 블루를 완성하는 등 주목할 만한 게임 혁신을 이뤄낸 것으로 보입니다. 순다르 피차이 CEO는 소셜 미디어를 통해 이 성과를 축하했지만, 이 성과에는 중요한 맥락이 있습니다.제미니 플레이 포켓몬 생방송 프로젝트는 사실 소프트웨어 엔지니어인 조엘
AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다
사랑하는 포켓몬의 세계조차도 AI 벤치 마크를 둘러싼 드라마에 면역이되지 않습니다. X의 최근 바이러스 성 게시물은 Google의 최신 Gemini 모델이 Classic Pokémon Video Game Trilogy에서 Anthropic의 주요 클로드 모델을 능가했다고 주장하면서 상당히 화제를 불러 일으켰습니다. 포스트에 따르면, Gemini
Anthropic의 실험용 AI ‘클로드(Claude)’가 전자상거래 테스트에서 협상과 거래를 성공적으로 완료했다
인공지능이 급속도로 발전하는 가운데, 앤트로픽(Anthropic)은 지난 금요일 ‘프로젝트 딜(Project Deal)’이라는 내부 실험을 조용히 시작하며 전자상거래 분야에서 AI의 잠재력을 선보였다. 이 실험에서는 AI 모델 ‘클로드(Claude)’가 실제 금융 거래가 이루어지는 폐쇄형 시장 환경 내에서 구매, 판매, 가격 협상을 자율적으로 수행했다.실험
관련 특별 주제 추천
의견 (19)
0/500
와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂
놀라운 움직임으로, Anthropic은 최신 AI 모델인 Claude 3.7 Sonnet을 클래식 Game Boy 게임 Pokémon Red로 테스트하기로 결정했습니다. 월요일에 공개된 블로그 포스트에 따르면, 회사는 이 모델에 필수 요소를 장착했습니다: 메모리, 화면 픽셀을 읽는 능력, 버튼을 누르고 게임 화면을 이동하는 능력. 이 설정으로 Claude 3.7 Sonnet은 Pokémon의 세계에 뛰어들어 계속 플레이할 수 있었습니다.
Claude 3.7 Sonnet을 돋보이게 하는 것은 "확장된 사고" 능력입니다. OpenAI의 o3-mini와 DeepSeek의 R1 같은 다른 모델과 유사하게, 이 모델은 컴퓨팅 파워를 높이고 충분한 시간을 들여 문제를 해결할 수 있습니다.
이 기능은 Pokémon Red에서 게임 체인저로 입증되었습니다. 이전 Claude 3.0 Sonnet은 Pallet Town의 시작 지역을 벗어나지 못했지만, Claude 3.7 Sonnet은 세 명의 체육관 리더를 물리치고 그들의 배지를 획득했습니다.

지난주, 한 연구원이 Claude 3.7 Sonnet의 초기 미리보기를 시험해 보았습니다.
결과는 놀라웠습니다. 몇 시간 만에 Claude는 Brock을 물리쳤습니다. 며칠 후에는 Misty를 완파했습니다. 이전 모델들이 거의 달성할 가능성이 없었던 진행이었습니다.
확장된 사고가 매우 효과적임이 밝혀졌습니다. pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025년 2월 25일
곧 어떤 영리한 개발자가 세부 사항을 알아낼 것입니다.
Pokémon Red가 약간 재미있는 테스트처럼 보일 수 있지만, 게임은 실제로 오랫동안 AI 벤치마킹에 사용되어 왔습니다. 지난 몇 달 동안, Street Fighter부터 Pictionary까지 AI 모델이 얼마나 잘 플레이할 수 있는지 테스트하기 위해 수많은 새로운 앱과 플랫폼이 등장했습니다.
구글의 제미니 AI가 포켓몬 블루를 정복하다
구글의 AI 이정표: 클래식 포켓몬 어드벤처 정복구글의 가장 진보된 AI 모델이 1996년 게임보이 타이틀인 포켓몬 블루를 완성하는 등 주목할 만한 게임 혁신을 이뤄낸 것으로 보입니다. 순다르 피차이 CEO는 소셜 미디어를 통해 이 성과를 축하했지만, 이 성과에는 중요한 맥락이 있습니다.제미니 플레이 포켓몬 생방송 프로젝트는 사실 소프트웨어 엔지니어인 조엘
AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다
사랑하는 포켓몬의 세계조차도 AI 벤치 마크를 둘러싼 드라마에 면역이되지 않습니다. X의 최근 바이러스 성 게시물은 Google의 최신 Gemini 모델이 Classic Pokémon Video Game Trilogy에서 Anthropic의 주요 클로드 모델을 능가했다고 주장하면서 상당히 화제를 불러 일으켰습니다. 포스트에 따르면, Gemini
Anthropic의 실험용 AI ‘클로드(Claude)’가 전자상거래 테스트에서 협상과 거래를 성공적으로 완료했다
인공지능이 급속도로 발전하는 가운데, 앤트로픽(Anthropic)은 지난 금요일 ‘프로젝트 딜(Project Deal)’이라는 내부 실험을 조용히 시작하며 전자상거래 분야에서 AI의 잠재력을 선보였다. 이 실험에서는 AI 모델 ‘클로드(Claude)’가 실제 금융 거래가 이루어지는 폐쇄형 시장 환경 내에서 구매, 판매, 가격 협상을 자율적으로 수행했다.실험
와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂





집






