Anthropic은 Pokémon을 사용하여 최신 AI 모델을 벤치마킹했습니다
놀라운 움직임으로 Anthropic은 최신 AI 모델 인 Claude 3.7 Sonnet을 클래식 게임 보이 게임 인 Pokémon Red와 함께 테스트에 넣기로 결정했습니다. 월요일에 발표 된 블로그 게시물에 따르면이 회사는 Memory : Memory, 화면 픽셀을 읽는 기능 및 버튼을 누르고 게임 화면 주위를 이동하는 전원을 사용하여 모델을 키트했습니다. 이 설정을 통해 Claude 3.7 Sonnet은 Pokémon의 세계로 뛰어 들어 계속 연주 할 수있었습니다.
Claude 3.7 Sonnet을 차별화하는 것은 "확장 된 사고"에 대한 요령입니다. OpenAi의 O3-Mini 및 DeepSeek의 R1과 같은 다른 모델과 마찬가지로 컴퓨팅 성능을 크랭크하고 좋은 시간을 보내서 사물을 생각하여 어려운 문제를 해결할 수 있습니다.
이 기능은 Pokémon Red의 게임 체인저로 판명되었습니다. 오래된 Claude 3.0 Sonnet은 Pallet Town의 시작 지역에서 벗어날 수 없었지만 Claude 3.7 Sonnet은 3 명의 체육관 리더를 쓰러 뜨리고 배지를 잡았습니다.

이미지 크레딧 : 의인성 이제 Anthropic은 Claude 3.7 Sonnet이 이러한 이정표에 도달하는 데 얼마나 많은 컴퓨팅 전력이 필요한지 또는 얼마나 오래 걸렸는지 정확히 콩을 쏟지 않았습니다. 그들은이 모델이 마지막 체육관 지도자 인 Surge와 대결하기 위해 무려 35,000 개의 행동을 수행했다고 언급했습니다.
지난주 한 연구원이 Claude 3.7 Sonnet의 초기 미리보기를 시도했습니다.
결과는 눈에 띄었다. 몇 시간 안에 Claude는 Brock을 물리 쳤다. 며칠 후, 그것은 안개가 자욱했습니다. 구형 모델이 달성 할 희망이 거의 없다는 진보.
확장 된 사고는 매우 효과적입니다. pic.twitter.com/rspslgj2uf
- 2025 년 2 월 25 일 인기 (@anthropoai)
일부 영리한 개발자가 끔찍한 세부 사항을 알아 내기까지는 그리 오래 걸리지 않습니다.
Pokémon Red는 약간의 재미있는 테스트처럼 보일지 모르지만 게임은 실제로 AI 벤치마킹에 사용되었습니다. 지난 몇 개월 동안, 우리는 AI 모델이 스트리트 전투기에서 칸막이에 이르기까지 모든 것을 얼마나 잘 재생할 수 있는지 테스트하기 위해 많은 새로운 앱과 플랫폼이 팝업되는 것을 보았습니다.
관련 기사
Дебаты по сравнению с ИИ достигли покемонов
Даже любимый мир покемонов не застрахован от драмы, окружающей тесты ИИ. Недавний вирусный пост на X разжигал настоящий гул, утверждая, что последняя модель Gemini Google опередила ведущую модель Claude Antropic в классической трилогии видеоигр Pokémon. Согласно сообщению, Близнецы
Fireflies.ai와 Microsoft Planner로 회의 노트 자동화 간소화
회의 노트 및 작업 관리 자동화에 대한 궁극의 가이드다시 수동으로 회의 내용을 기록할 필요가 없다고 상상해보세요. 작업 항목을 급하게 적거나, 잊혀진 작업 없이—단지 몇 번의 클릭으로 몇 시간의 지루한 작업을 간소화할 수 있습니다. 이 가이드는 Fireflies.ai, Make.com, Excel, Microsoft Planner를 결합한 강력한 워크플로를
AI로 구동되는 이모지 릴로 바이럴 성장을 위한 참여도 향상
AI로 바이럴 이모지 릴을 만드는 궁극의 가이드 (그리고 이를 통해 돈을 버는 방법)소셜 미디어 존재감을 돈 버는 기계로 바꾸고 싶으신가요? 여기 작은 비밀이 있습니다: 가장 바이럴한 콘텐츠는 또한 가장 단순합니다. 중독성 있는 이모지 릴에 대해 이야기하는 중입니다. 그리고 가장 좋은 점은? AI 도구를 사용해 쉽게 만들 수 있다는 것입니다.이모지 릴이 소
의견 (15)
0/200
GeorgeWilliams
2025년 4월 12일 오전 12시 0분 0초 GMT
Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮
0
StephenGreen
2025년 4월 12일 오전 12시 0분 0초 GMT
ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮
0
RogerSanchez
2025년 4월 13일 오전 12시 0분 0초 GMT
포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮
0
HenryTurner
2025년 4월 15일 오전 12시 0분 0초 GMT
Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮
0
JohnGarcia
2025년 4월 15일 오전 12시 0분 0초 GMT
¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮
0
TerryGonzález
2025년 4월 12일 오전 12시 0분 0초 GMT
Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂
0
놀라운 움직임으로 Anthropic은 최신 AI 모델 인 Claude 3.7 Sonnet을 클래식 게임 보이 게임 인 Pokémon Red와 함께 테스트에 넣기로 결정했습니다. 월요일에 발표 된 블로그 게시물에 따르면이 회사는 Memory : Memory, 화면 픽셀을 읽는 기능 및 버튼을 누르고 게임 화면 주위를 이동하는 전원을 사용하여 모델을 키트했습니다. 이 설정을 통해 Claude 3.7 Sonnet은 Pokémon의 세계로 뛰어 들어 계속 연주 할 수있었습니다.
Claude 3.7 Sonnet을 차별화하는 것은 "확장 된 사고"에 대한 요령입니다. OpenAi의 O3-Mini 및 DeepSeek의 R1과 같은 다른 모델과 마찬가지로 컴퓨팅 성능을 크랭크하고 좋은 시간을 보내서 사물을 생각하여 어려운 문제를 해결할 수 있습니다.
이 기능은 Pokémon Red의 게임 체인저로 판명되었습니다. 오래된 Claude 3.0 Sonnet은 Pallet Town의 시작 지역에서 벗어날 수 없었지만 Claude 3.7 Sonnet은 3 명의 체육관 리더를 쓰러 뜨리고 배지를 잡았습니다.
지난주 한 연구원이 Claude 3.7 Sonnet의 초기 미리보기를 시도했습니다.
결과는 눈에 띄었다. 몇 시간 안에 Claude는 Brock을 물리 쳤다. 며칠 후, 그것은 안개가 자욱했습니다. 구형 모델이 달성 할 희망이 거의 없다는 진보.
확장 된 사고는 매우 효과적입니다. pic.twitter.com/rspslgj2uf
- 2025 년 2 월 25 일 인기 (@anthropoai)
일부 영리한 개발자가 끔찍한 세부 사항을 알아 내기까지는 그리 오래 걸리지 않습니다.
Pokémon Red는 약간의 재미있는 테스트처럼 보일지 모르지만 게임은 실제로 AI 벤치마킹에 사용되었습니다. 지난 몇 개월 동안, 우리는 AI 모델이 스트리트 전투기에서 칸막이에 이르기까지 모든 것을 얼마나 잘 재생할 수 있는지 테스트하기 위해 많은 새로운 앱과 플랫폼이 팝업되는 것을 보았습니다.




Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮




ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮




포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮




Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮




¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮




Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂












