AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

포켓몬의 사랑받는 세계조차 AI 벤치마크를 둘러싼 드라마에서 자유롭지 않습니다. 최근 X에서 화제가 된 게시물이 큰 반향을 일으켰는데, 이 게시물은 Google의 최신 Gemini 모델이 클래식 포켓몬 비디오 게임 3부작에서 Anthropic의 선두 Claude 모델을 앞질렀다고 주장했습니다. 게시물에 따르면, Gemini는 개발자의 Twitch 스트리밍에서 인상적으로 라벤더 타운에 도달했으며, Claude는 2월 말 기준으로 마운트 문에서 뒤처져 있었습니다.
Gemini는 포켓몬에서 라벤더 타운에 도달한 후 현재 Claude를 앞서고 있음
참고로 생방송 조회수는 119명뿐, 엄청나게 저평가된 스트리밍임 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025년 4월 10일
그러나 이 게시물이 편리하게 생략한 사실은 Gemini가 약간 불공정한 이점을 가지고 있었다는 점입니다. Reddit의 예리한 사용자들은 Gemini 스트리밍을 담당한 개발자가 맞춤형 미니맵을 제작했다고 빠르게 지적했습니다. 이 멋진 도구는 모델이 게임 내 "타일", 예를 들어 자를 수 있는 나무와 같은 것을 인식하는 데 도움을 주며, Gemini가 다음 행동을 결정하기 전에 스크린샷을 분석하는 데 필요한 시간을 크게 줄여줍니다.
이제, 포켓몬이 가장 진지한 AI 벤치마크는 아닐지라도, 이러한 테스트의 결과가 서로 다른 설정에 의해 어떻게 왜곡될 수 있는지를 보여주는 재미있으면서도 의미 있는 예시로 작용합니다. 예를 들어, Anthropic의 최근 모델인 Anthropic 3.7 Sonnet을 살펴보면, 코딩 능력을 테스트하기 위한 SWE-bench Verified 벤치마크에서 62.3%의 정확도를 기록했습니다. 하지만 Anthropic이 제작한 "맞춤형 스캐폴드"를 사용했을 때 그 점수는 70.3%로 뛰어올랐습니다.
여기서 그치지 않습니다. Meta는 최신 모델 중 하나인 Llama 4 Maverick을 LM Arena 벤치마크에 맞춰 특별히 미세 조정했습니다. 이 모델의 기본 버전은 동일한 테스트에서 거의 좋은 성적을 내지 못했습니다.
AI 벤치마크, 우리의 친근한 포켓몬 예시를 포함하여, 이미 다소 불확실한 상황에서 이러한 맞춤형 조정과 비표준 접근 방식은 모델 간의 의미 있는 비교를 더욱 어렵게 만듭니다. 사과와 사과를 비교하는 일이 날이 갈수록 어려워지고 있는 것 같습니다.
관련 기사
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
카카오 모빌리티, 물리적 AI를 위한 레벨 4 자율주행 로드맵 제시
카카오모빌리티는 물리적 AI 전략의 일환으로 레벨 4 자율주행 기술을 자체 개발할 계획이다.서울 코엑스에서 열린 '2026 월드 IT 쇼' 컨퍼런스에서 카카오모빌리티의 김진규 부사장 겸 피지컬 AI 사업본부장은 로드맵을 발표했다. 그의 발표는 피지컬 AI 시대의 모빌리티 플랫폼을 기반으로 한 자율주행 서비스에 중점을 두었다.연합뉴스에 따르면, '아이디어
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
관련 특별 주제 추천
의견 (9)
0/500
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

포켓몬의 사랑받는 세계조차 AI 벤치마크를 둘러싼 드라마에서 자유롭지 않습니다. 최근 X에서 화제가 된 게시물이 큰 반향을 일으켰는데, 이 게시물은 Google의 최신 Gemini 모델이 클래식 포켓몬 비디오 게임 3부작에서 Anthropic의 선두 Claude 모델을 앞질렀다고 주장했습니다. 게시물에 따르면, Gemini는 개발자의 Twitch 스트리밍에서 인상적으로 라벤더 타운에 도달했으며, Claude는 2월 말 기준으로 마운트 문에서 뒤처져 있었습니다.
Gemini는 포켓몬에서 라벤더 타운에 도달한 후 현재 Claude를 앞서고 있음
참고로 생방송 조회수는 119명뿐, 엄청나게 저평가된 스트리밍임 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025년 4월 10일
그러나 이 게시물이 편리하게 생략한 사실은 Gemini가 약간 불공정한 이점을 가지고 있었다는 점입니다. Reddit의 예리한 사용자들은 Gemini 스트리밍을 담당한 개발자가 맞춤형 미니맵을 제작했다고 빠르게 지적했습니다. 이 멋진 도구는 모델이 게임 내 "타일", 예를 들어 자를 수 있는 나무와 같은 것을 인식하는 데 도움을 주며, Gemini가 다음 행동을 결정하기 전에 스크린샷을 분석하는 데 필요한 시간을 크게 줄여줍니다.
이제, 포켓몬이 가장 진지한 AI 벤치마크는 아닐지라도, 이러한 테스트의 결과가 서로 다른 설정에 의해 어떻게 왜곡될 수 있는지를 보여주는 재미있으면서도 의미 있는 예시로 작용합니다. 예를 들어, Anthropic의 최근 모델인 Anthropic 3.7 Sonnet을 살펴보면, 코딩 능력을 테스트하기 위한 SWE-bench Verified 벤치마크에서 62.3%의 정확도를 기록했습니다. 하지만 Anthropic이 제작한 "맞춤형 스캐폴드"를 사용했을 때 그 점수는 70.3%로 뛰어올랐습니다.
여기서 그치지 않습니다. Meta는 최신 모델 중 하나인 Llama 4 Maverick을 LM Arena 벤치마크에 맞춰 특별히 미세 조정했습니다. 이 모델의 기본 버전은 동일한 테스트에서 거의 좋은 성적을 내지 못했습니다.
AI 벤치마크, 우리의 친근한 포켓몬 예시를 포함하여, 이미 다소 불확실한 상황에서 이러한 맞춤형 조정과 비표준 접근 방식은 모델 간의 의미 있는 비교를 더욱 어렵게 만듭니다. 사과와 사과를 비교하는 일이 날이 갈수록 어려워지고 있는 것 같습니다.
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯





집






