AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

포켓몬의 사랑받는 세계조차 AI 벤치마크를 둘러싼 드라마에서 자유롭지 않습니다. 최근 X에서 화제가 된 게시물이 큰 반향을 일으켰는데, 이 게시물은 Google의 최신 Gemini 모델이 클래식 포켓몬 비디오 게임 3부작에서 Anthropic의 선두 Claude 모델을 앞질렀다고 주장했습니다. 게시물에 따르면, Gemini는 개발자의 Twitch 스트리밍에서 인상적으로 라벤더 타운에 도달했으며, Claude는 2월 말 기준으로 마운트 문에서 뒤처져 있었습니다.
Gemini는 포켓몬에서 라벤더 타운에 도달한 후 현재 Claude를 앞서고 있음
참고로 생방송 조회수는 119명뿐, 엄청나게 저평가된 스트리밍임 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025년 4월 10일
그러나 이 게시물이 편리하게 생략한 사실은 Gemini가 약간 불공정한 이점을 가지고 있었다는 점입니다. Reddit의 예리한 사용자들은 Gemini 스트리밍을 담당한 개발자가 맞춤형 미니맵을 제작했다고 빠르게 지적했습니다. 이 멋진 도구는 모델이 게임 내 "타일", 예를 들어 자를 수 있는 나무와 같은 것을 인식하는 데 도움을 주며, Gemini가 다음 행동을 결정하기 전에 스크린샷을 분석하는 데 필요한 시간을 크게 줄여줍니다.
이제, 포켓몬이 가장 진지한 AI 벤치마크는 아닐지라도, 이러한 테스트의 결과가 서로 다른 설정에 의해 어떻게 왜곡될 수 있는지를 보여주는 재미있으면서도 의미 있는 예시로 작용합니다. 예를 들어, Anthropic의 최근 모델인 Anthropic 3.7 Sonnet을 살펴보면, 코딩 능력을 테스트하기 위한 SWE-bench Verified 벤치마크에서 62.3%의 정확도를 기록했습니다. 하지만 Anthropic이 제작한 "맞춤형 스캐폴드"를 사용했을 때 그 점수는 70.3%로 뛰어올랐습니다.
여기서 그치지 않습니다. Meta는 최신 모델 중 하나인 Llama 4 Maverick을 LM Arena 벤치마크에 맞춰 특별히 미세 조정했습니다. 이 모델의 기본 버전은 동일한 테스트에서 거의 좋은 성적을 내지 못했습니다.
AI 벤치마크, 우리의 친근한 포켓몬 예시를 포함하여, 이미 다소 불확실한 상황에서 이러한 맞춤형 조정과 비표준 접근 방식은 모델 간의 의미 있는 비교를 더욱 어렵게 만듭니다. 사과와 사과를 비교하는 일이 날이 갈수록 어려워지고 있는 것 같습니다.
관련 기사
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
유튜브, 정치인·공직자·언론인을 대상으로 AI 딥페이크 탐지 기능 확대
화요일, 유튜브는 딥페이크 탐지 기술을 일부 정부 관계자, 정치 후보자 및 언론인 대상으로 확대한다고 발표했다. 이 도구는 AI로 생성된 유사 영상을 식별하며, 시범 운영 참여자들은 유튜브 정책을 위반한다고 판단되는 무단 콘텐츠의 삭제를 요청할 수 있다.이 탐지 시스템은 초기 테스트 단계를 거친 후, 작년 유튜브 파트너 프로그램에 가입된 약 400만 명의
진정한 차이: 한 가지가 아니라 다른 것
때로는 어떤 것이 한 가지 의미만 가진 것이 아니라 또 다른 의미도 지닐 때가 있습니다. “이것뿐만 아니라 저것도 있다”는 표현은 AI가 생성한 글에서 너무나 흔해져서, 이제는 단순히 합성 콘텐츠라는 암시를 넘어 거의 확실한 증거가 되었습니다.그래서 기업 커뮤니케이션에서 이 문장 구조가 급증했다는 배런스(Barron's)의 보고서를 접했을 때, 나는 단순히
관련 특별 주제 추천
의견 (9)
0/500
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

포켓몬의 사랑받는 세계조차 AI 벤치마크를 둘러싼 드라마에서 자유롭지 않습니다. 최근 X에서 화제가 된 게시물이 큰 반향을 일으켰는데, 이 게시물은 Google의 최신 Gemini 모델이 클래식 포켓몬 비디오 게임 3부작에서 Anthropic의 선두 Claude 모델을 앞질렀다고 주장했습니다. 게시물에 따르면, Gemini는 개발자의 Twitch 스트리밍에서 인상적으로 라벤더 타운에 도달했으며, Claude는 2월 말 기준으로 마운트 문에서 뒤처져 있었습니다.
Gemini는 포켓몬에서 라벤더 타운에 도달한 후 현재 Claude를 앞서고 있음
참고로 생방송 조회수는 119명뿐, 엄청나게 저평가된 스트리밍임 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025년 4월 10일
그러나 이 게시물이 편리하게 생략한 사실은 Gemini가 약간 불공정한 이점을 가지고 있었다는 점입니다. Reddit의 예리한 사용자들은 Gemini 스트리밍을 담당한 개발자가 맞춤형 미니맵을 제작했다고 빠르게 지적했습니다. 이 멋진 도구는 모델이 게임 내 "타일", 예를 들어 자를 수 있는 나무와 같은 것을 인식하는 데 도움을 주며, Gemini가 다음 행동을 결정하기 전에 스크린샷을 분석하는 데 필요한 시간을 크게 줄여줍니다.
이제, 포켓몬이 가장 진지한 AI 벤치마크는 아닐지라도, 이러한 테스트의 결과가 서로 다른 설정에 의해 어떻게 왜곡될 수 있는지를 보여주는 재미있으면서도 의미 있는 예시로 작용합니다. 예를 들어, Anthropic의 최근 모델인 Anthropic 3.7 Sonnet을 살펴보면, 코딩 능력을 테스트하기 위한 SWE-bench Verified 벤치마크에서 62.3%의 정확도를 기록했습니다. 하지만 Anthropic이 제작한 "맞춤형 스캐폴드"를 사용했을 때 그 점수는 70.3%로 뛰어올랐습니다.
여기서 그치지 않습니다. Meta는 최신 모델 중 하나인 Llama 4 Maverick을 LM Arena 벤치마크에 맞춰 특별히 미세 조정했습니다. 이 모델의 기본 버전은 동일한 테스트에서 거의 좋은 성적을 내지 못했습니다.
AI 벤치마크, 우리의 친근한 포켓몬 예시를 포함하여, 이미 다소 불확실한 상황에서 이러한 맞춤형 조정과 비표준 접근 방식은 모델 간의 의미 있는 비교를 더욱 어렵게 만듭니다. 사과와 사과를 비교하는 일이 날이 갈수록 어려워지고 있는 것 같습니다.
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
유튜브, 정치인·공직자·언론인을 대상으로 AI 딥페이크 탐지 기능 확대
화요일, 유튜브는 딥페이크 탐지 기술을 일부 정부 관계자, 정치 후보자 및 언론인 대상으로 확대한다고 발표했다. 이 도구는 AI로 생성된 유사 영상을 식별하며, 시범 운영 참여자들은 유튜브 정책을 위반한다고 판단되는 무단 콘텐츠의 삭제를 요청할 수 있다.이 탐지 시스템은 초기 테스트 단계를 거친 후, 작년 유튜브 파트너 프로그램에 가입된 약 400만 명의
진정한 차이: 한 가지가 아니라 다른 것
때로는 어떤 것이 한 가지 의미만 가진 것이 아니라 또 다른 의미도 지닐 때가 있습니다. “이것뿐만 아니라 저것도 있다”는 표현은 AI가 생성한 글에서 너무나 흔해져서, 이제는 단순히 합성 콘텐츠라는 암시를 넘어 거의 확실한 증거가 되었습니다.그래서 기업 커뮤니케이션에서 이 문장 구조가 급증했다는 배런스(Barron's)의 보고서를 접했을 때, 나는 단순히
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯





집






