옵션
뉴스
AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

2025년 5월 3일
122

AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

포켓몬의 사랑받는 세계조차 AI 벤치마크를 둘러싼 드라마에서 자유롭지 않습니다. 최근 X에서 화제가 된 게시물이 큰 반향을 일으켰는데, 이 게시물은 Google의 최신 Gemini 모델이 클래식 포켓몬 비디오 게임 3부작에서 Anthropic의 선두 Claude 모델을 앞질렀다고 주장했습니다. 게시물에 따르면, Gemini는 개발자의 Twitch 스트리밍에서 인상적으로 라벤더 타운에 도달했으며, Claude는 2월 말 기준으로 마운트 문에서 뒤처져 있었습니다.

Gemini는 포켓몬에서 라벤더 타운에 도달한 후 현재 Claude를 앞서고 있음

참고로 생방송 조회수는 119명뿐, 엄청나게 저평가된 스트리밍임 pic.twitter.com/8AvSovAI4x

— Jush (@Jush21e8) 2025년 4월 10일

그러나 이 게시물이 편리하게 생략한 사실은 Gemini가 약간 불공정한 이점을 가지고 있었다는 점입니다. Reddit의 예리한 사용자들은 Gemini 스트리밍을 담당한 개발자가 맞춤형 미니맵을 제작했다고 빠르게 지적했습니다. 이 멋진 도구는 모델이 게임 내 "타일", 예를 들어 자를 수 있는 나무와 같은 것을 인식하는 데 도움을 주며, Gemini가 다음 행동을 결정하기 전에 스크린샷을 분석하는 데 필요한 시간을 크게 줄여줍니다.

이제, 포켓몬이 가장 진지한 AI 벤치마크는 아닐지라도, 이러한 테스트의 결과가 서로 다른 설정에 의해 어떻게 왜곡될 수 있는지를 보여주는 재미있으면서도 의미 있는 예시로 작용합니다. 예를 들어, Anthropic의 최근 모델인 Anthropic 3.7 Sonnet을 살펴보면, 코딩 능력을 테스트하기 위한 SWE-bench Verified 벤치마크에서 62.3%의 정확도를 기록했습니다. 하지만 Anthropic이 제작한 "맞춤형 스캐폴드"를 사용했을 때 그 점수는 70.3%로 뛰어올랐습니다.

여기서 그치지 않습니다. Meta는 최신 모델 중 하나인 Llama 4 Maverick을 LM Arena 벤치마크에 맞춰 특별히 미세 조정했습니다. 이 모델의 기본 버전은 동일한 테스트에서 거의 좋은 성적을 내지 못했습니다.

AI 벤치마크, 우리의 친근한 포켓몬 예시를 포함하여, 이미 다소 불확실한 상황에서 이러한 맞춤형 조정과 비표준 접근 방식은 모델 간의 의미 있는 비교를 더욱 어렵게 만듭니다. 사과와 사과를 비교하는 일이 날이 갈수록 어려워지고 있는 것 같습니다.

관련 기사
Salesforce, Slack에서 Microsoft Copilot과 경쟁하는 AI 디지털 팀메이트 공개 Salesforce, Slack에서 Microsoft Copilot과 경쟁하는 AI 디지털 팀메이트 공개 Salesforce는 새로운 직장 AI 전략을 공개하며 월요일, Slack 대화에 통합된 전문화된 “디지털 팀메이트”를 소개했습니다.새 도구인 Slack의 Agentforce는 기업이 직장 대화를 검색하고, 회사 데이터에 접근하며, 직원들이 매일 사용하는 메시징 플랫폼 내에서 작업을 실행하는 작업별 AI 에이전트를 만들고 배포할 수 있게 합니다.“전문화된
Oracle의 400억 달러 Nvidia 칩 투자로 텍사스 AI 데이터센터 강화 Oracle의 400억 달러 Nvidia 칩 투자로 텍사스 AI 데이터센터 강화 Oracle은 Financial Times에 따르면 OpenAI가 개발한 텍사스 주요 신규 데이터센터를 지원하기 위해 Nvidia 칩에 약 400억 달러를 투자할 예정입니다. 이는 지금까지 가장 큰 칩 인수 거래 중 하나로, AI 컴퓨팅 자원에 대한 급증하는 수요를 보여줍니다.텍사스 애빌린에 위치한 이 시설은 미국 최초의 “Stargate” 데이터센터입니다
Meta AI 앱, 프리미엄 티어 및 광고 도입 Meta AI 앱, 프리미엄 티어 및 광고 도입 Meta의 AI 앱은 OpenAI, Google, Microsoft와 같은 경쟁사의 제품과 유사하게 유료 구독 서비스를 곧 선보일 예정입니다. 2025년 1분기 실적 발표에서 Meta CEO Mark Zuckerberg는 프리미엄 서비스 계획을 밝히며, 이를 통해 사용자가 Meta AI에서 향상된 컴퓨팅 파워나 추가 기능을 이용할 수 있다고 전했습니다.Ch
의견 (6)
0/200
DouglasMartínez
DouglasMartínez 2025년 8월 7일 오전 2시 1분 0초 GMT+09:00

Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️

JasonKing
JasonKing 2025년 5월 5일 오후 8시 38분 52초 GMT+09:00

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 2025년 5월 5일 오전 8시 11분 33초 GMT+09:00

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

WalterThomas
WalterThomas 2025년 5월 5일 오전 12시 5분 10초 GMT+09:00

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

AlbertThomas
AlbertThomas 2025년 5월 4일 오후 3시 38분 28초 GMT+09:00

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 2025년 5월 4일 오전 4시 1분 44초 GMT+09:00

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

위로 돌아갑니다
OR