옵션
소식 Anthropic은 Pokémon을 사용하여 최신 AI 모델을 벤치마킹했습니다

Anthropic은 Pokémon을 사용하여 최신 AI 모델을 벤치마킹했습니다

출시일 출시일 2025년 4월 10일
작가 작가 AvaHill
보기 보기 41

놀라운 움직임으로 Anthropic은 최신 AI 모델 인 Claude 3.7 Sonnet을 클래식 게임 보이 게임 인 Pokémon Red와 함께 테스트에 넣기로 결정했습니다. 월요일에 발표 된 블로그 게시물에 따르면이 회사는 Memory : Memory, 화면 픽셀을 읽는 기능 및 버튼을 누르고 게임 화면 주위를 이동하는 전원을 사용하여 모델을 키트했습니다. 이 설정을 통해 Claude 3.7 Sonnet은 Pokémon의 세계로 뛰어 들어 계속 연주 할 수있었습니다.

Claude 3.7 Sonnet을 차별화하는 것은 "확장 된 사고"에 대한 요령입니다. OpenAi의 O3-Mini 및 DeepSeek의 R1과 같은 다른 모델과 마찬가지로 컴퓨팅 성능을 크랭크하고 좋은 시간을 보내서 사물을 생각하여 어려운 문제를 해결할 수 있습니다.

이 기능은 Pokémon Red의 게임 체인저로 판명되었습니다. 오래된 Claude 3.0 Sonnet은 Pallet Town의 시작 지역에서 벗어날 수 없었지만 Claude 3.7 Sonnet은 3 명의 체육관 리더를 쓰러 뜨리고 배지를 잡았습니다.

인류 포켓몬 레드

이미지 크레딧 : 의인성
이제 Anthropic은 Claude 3.7 Sonnet이 이러한 이정표에 도달하는 데 얼마나 많은 컴퓨팅 전력이 필요한지 또는 얼마나 오래 걸렸는지 정확히 콩을 쏟지 않았습니다. 그들은이 모델이 마지막 체육관 지도자 인 Surge와 대결하기 위해 무려 35,000 개의 행동을 수행했다고 언급했습니다.

지난주 한 연구원이 Claude 3.7 Sonnet의 초기 미리보기를 시도했습니다.

결과는 눈에 띄었다. 몇 시간 안에 Claude는 Brock을 물리 쳤다. 며칠 후, 그것은 안개가 자욱했습니다. 구형 모델이 달성 할 희망이 거의 없다는 진보.

확장 된 사고는 매우 효과적입니다. pic.twitter.com/rspslgj2uf

- 2025 년 2 월 25 일 인기 (@anthropoai)

일부 영리한 개발자가 끔찍한 세부 사항을 알아 내기까지는 그리 오래 걸리지 않습니다.

Pokémon Red는 약간의 재미있는 테스트처럼 보일지 모르지만 게임은 실제로 AI 벤치마킹에 사용되었습니다. 지난 몇 개월 동안, 우리는 AI 모델이 스트리트 전투기에서 칸막이에 이르기까지 모든 것을 얼마나 잘 재생할 수 있는지 테스트하기 위해 많은 새로운 앱과 플랫폼이 팝업되는 것을 보았습니다.

관련 기사
Debates over AI benchmarking have reached Pokémon Debates over AI benchmarking have reached Pokémon Even the beloved world of Pokémon isn't immune to the drama surrounding AI benchmarks. A recent viral post on X stirred up quite the buzz, claiming that Google's latest Gemini model had outpaced Anthropic's leading Claude model in the classic Pokémon video game trilogy. According to the post, Gemini
AI 중심 Facebook 광고 사본 : 광고를 빠르게 생성합니다 AI 중심 Facebook 광고 사본 : 광고를 빠르게 생성합니다 Facebook 광고를 공예하는 데있어 AI의 혁명은 디지털 마케팅의 회오리 바람 세계를 만들어냅니다. 우리가 광고 생성에 접근하는 방법을 재구성하는 게임 체인저 인 인공 지능 (AI)을 입력하십시오. 이 가이드 d
AI Rubric Generator : 활발한 교육으로 평가 간소화 AI Rubric Generator : 활발한 교육으로 평가 간소화 역동적 인 교육 세계에서 교사는 항상 학생 학습을 강화하면서 자신의 작업을 단순화 할 수있는 도구를 찾고 있습니다. 활발한 교육의 AI Rubric Generator-평가 영역의 게임 체인저를 입력하십시오. 이 멋진 도구는 교육자들이 개인화 된 루 브릭을 세우는 데 도움이됩니다.
의견 (15)
0/200
GeorgeWilliams
GeorgeWilliams 2025년 4월 11일 오후 5시 22분 8초 GMT

Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮

StephenGreen
StephenGreen 2025년 4월 12일 오전 3시 40분 24초 GMT

ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮

RogerSanchez
RogerSanchez 2025년 4월 13일 오전 5시 5분 35초 GMT

포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮

HenryTurner
HenryTurner 2025년 4월 14일 오후 10시 24분 40초 GMT

Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮

JohnGarcia
JohnGarcia 2025년 4월 14일 오후 7시 59분 47초 GMT

¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮

TerryGonzález
TerryGonzález 2025년 4월 12일 오전 4시 11분 7초 GMT

Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂

위로 돌아갑니다
OR