옵션
뉴스
AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

2025년 5월 3일
122

AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

포켓몬의 사랑받는 세계조차 AI 벤치마크를 둘러싼 드라마에서 자유롭지 않습니다. 최근 X에서 화제가 된 게시물이 큰 반향을 일으켰는데, 이 게시물은 Google의 최신 Gemini 모델이 클래식 포켓몬 비디오 게임 3부작에서 Anthropic의 선두 Claude 모델을 앞질렀다고 주장했습니다. 게시물에 따르면, Gemini는 개발자의 Twitch 스트리밍에서 인상적으로 라벤더 타운에 도달했으며, Claude는 2월 말 기준으로 마운트 문에서 뒤처져 있었습니다.

Gemini는 포켓몬에서 라벤더 타운에 도달한 후 현재 Claude를 앞서고 있음

참고로 생방송 조회수는 119명뿐, 엄청나게 저평가된 스트리밍임 pic.twitter.com/8AvSovAI4x

— Jush (@Jush21e8) 2025년 4월 10일

그러나 이 게시물이 편리하게 생략한 사실은 Gemini가 약간 불공정한 이점을 가지고 있었다는 점입니다. Reddit의 예리한 사용자들은 Gemini 스트리밍을 담당한 개발자가 맞춤형 미니맵을 제작했다고 빠르게 지적했습니다. 이 멋진 도구는 모델이 게임 내 "타일", 예를 들어 자를 수 있는 나무와 같은 것을 인식하는 데 도움을 주며, Gemini가 다음 행동을 결정하기 전에 스크린샷을 분석하는 데 필요한 시간을 크게 줄여줍니다.

이제, 포켓몬이 가장 진지한 AI 벤치마크는 아닐지라도, 이러한 테스트의 결과가 서로 다른 설정에 의해 어떻게 왜곡될 수 있는지를 보여주는 재미있으면서도 의미 있는 예시로 작용합니다. 예를 들어, Anthropic의 최근 모델인 Anthropic 3.7 Sonnet을 살펴보면, 코딩 능력을 테스트하기 위한 SWE-bench Verified 벤치마크에서 62.3%의 정확도를 기록했습니다. 하지만 Anthropic이 제작한 "맞춤형 스캐폴드"를 사용했을 때 그 점수는 70.3%로 뛰어올랐습니다.

여기서 그치지 않습니다. Meta는 최신 모델 중 하나인 Llama 4 Maverick을 LM Arena 벤치마크에 맞춰 특별히 미세 조정했습니다. 이 모델의 기본 버전은 동일한 테스트에서 거의 좋은 성적을 내지 못했습니다.

AI 벤치마크, 우리의 친근한 포켓몬 예시를 포함하여, 이미 다소 불확실한 상황에서 이러한 맞춤형 조정과 비표준 접근 방식은 모델 간의 의미 있는 비교를 더욱 어렵게 만듭니다. 사과와 사과를 비교하는 일이 날이 갈수록 어려워지고 있는 것 같습니다.

관련 기사
"닷 AI 컴패니언 앱, 폐쇄 발표, 개인화 서비스 중단" 금요일 개발자의 발표에 따르면 개인적인 친구이자 친구의 역할을 하도록 설계된 AI 컴패니언 애플리케이션인 Dot이 운영을 중단할 예정입니다. 닷을 개발한 스타트업인 뉴 컴퓨터는 웹사이트를 통해 10월 5일까지 서비스를 계속 이용할 수 있으며, 사용자들이 개인 데이터를 내보낼 수 있는 시간을 제공한다고 밝혔습니다.이 앱은 올해 초 공동 창업자인 샘 휘트모어와
앤트로픽, AI로 생성된 도서 불법 복제에 대한 법적 소송 해결 앤트로픽, AI로 생성된 도서 불법 복제에 대한 법적 소송 해결 앤트로픽은 미국 작가들과의 저작권 분쟁에서 잠재적으로 비용이 많이 드는 재판을 피할 수 있는 집단 소송 합의안에 동의하며 합의에 도달했습니다. 이번 화요일에 법원 문서로 제출된 이 합의는 AI 회사가 불법 복제된 문학 작품을 사용하여 클로드 모델을 훈련시켰다는 주장에서 비롯되었습니다.합의 세부 사항은 기밀로 유지되지만, 이 사건은 저자 Andrea Bart
Figma, 모든 사용자에게 AI 기반 앱 빌더 도구 공개 Figma, 모든 사용자에게 AI 기반 앱 빌더 도구 공개 올해 초에 공개된 혁신적인 즉석 앱 개발 플랫폼인 피그마 메이크가 공식적으로 베타 버전을 종료하고 모든 사용자에게 출시되었습니다. 이 획기적인 도구는 Google의 Gemini 코드 어시스트, Microsoft의 GitHub 코파일럿과 같은 AI 기반 코딩 어시스턴트 대열에 합류하여 크리에이터가 기존의 프로그래밍 전문 지식 없이도 자연어 설명을 기능적인 프
의견 (6)
0/200
DouglasMartínez
DouglasMartínez 2025년 8월 7일 오전 2시 1분 0초 GMT+09:00

Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️

JasonKing
JasonKing 2025년 5월 5일 오후 8시 38분 52초 GMT+09:00

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 2025년 5월 5일 오전 8시 11분 33초 GMT+09:00

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

WalterThomas
WalterThomas 2025년 5월 5일 오전 12시 5분 10초 GMT+09:00

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

AlbertThomas
AlbertThomas 2025년 5월 4일 오후 3시 38분 28초 GMT+09:00

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 2025년 5월 4일 오전 4시 1분 44초 GMT+09:00

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

위로 돌아갑니다
OR