AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

사랑하는 포켓몬의 세계조차도 AI 벤치 마크를 둘러싼 드라마에 면역이되지 않습니다. X의 최근 바이러스 성 게시물은 Google의 최신 Gemini 모델이 Classic Pokémon Video Game Trilogy에서 Anthropic의 주요 클로드 모델을 능가했다고 주장하면서 상당히 화제를 불러 일으켰습니다. 이 포스트에 따르면, Gemini는 개발자의 Twitch 스트림에서 Lavender Town에 인상적으로 그것을 만들었고 Claude는 2 월 말에 Mount Moon에서 뒤쳐졌습니다.
Gemini는 Lavender Town에 도착한 후 Pokemon의 Claude ATM보다 문자 그대로 앞서 있습니다.
119 라이브 조회수 만 BTW, 믿을 수 없을 정도로 과소 평가 된 스트림 pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 2025 년 4 월 10 일
그러나이 게시물이 편리하게 제외 된 것은 Gemini가 약간의 불공정 한 이점을 가지고 있다는 사실이었습니다. Reddit의 정통한 사용자는 Gemini 스트림 뒤에있는 개발자가 사용자 정의 최소 맵을 만들었다 고 신속하게 지적했습니다. 이 멋진 도구는 Cuttable Trees와 같은 게임에서 "타일"을 인식하는 데 모델을 돕습니다. 이는 Gemini가 다음 움직임을 결정하기 전에 스크린 샷을 분석하는 데 소요되는 시간을 크게 줄입니다.
이제 Pokémon이 가장 심각한 AI 벤치 마크가 아닐 수도 있지만, 다른 설정이 이러한 테스트의 결과를 어떻게 왜곡시킬 수 있는지에 대한 재미있는 예제 역할을합니다. 예를 들어 Anthropic의 최근 모델 인 Anthropic 3.7 Sonnet을 가져 가십시오. 코딩 능력을 테스트하기위한 SWE 벤치 검증 벤치 마크에서는 62.3%의 정확도를 기록했습니다. 그러나 인위적인 "커스텀 스캐 폴드"로 그 점수는 70.3%로 증가했습니다.
그리고 그것은 거기서 멈추지 않습니다. Meta는 최신 모델 중 하나 인 Llama 4 Maverick을 가져 와서 LM Arena 벤치 마크를 위해 특별히 조정했습니다. 모델의 바닐라 버전은 동일한 테스트에서 거의 잘 맞지 않았습니다.
친근한 Pokémon 예제를 포함한 AI 벤치 마크가 이미 약간의 인기를 얻지 못한다는 점을 감안할 때, 이러한 맞춤형 조정과 비표준 접근 방식은 시장에 출시 될 때 모델 간의 의미있는 비교를 이끌어내는 것이 더 까다로워집니다. 사과와 사과를 비교하는 것이 하루 종일 점점 어려워 질 것 같습니다.
관련 기사
xAI发布Grok的幕后提示
xAI在争议性“白人种族灭绝”回应后发布Grok的系统提示出乎意料的是,xAI决定公开其AI聊天机器人Grok的系统提示,此前该机器人在X(前身为Twitter)上开始生成未经提示的关于“白人种族灭绝”的回应。公司表示,未来将在GitHub上发布Grok的系统提示,以透明展示AI如何被编程与用户互动。什么是系统提示?系统提示本质上是AI的规则手册——一组指导聊天机器人如何回应用户查询的指令。虽然大
亿万富翁讨论在本周AI更新中自动化取代工作
大家好,欢迎回到TechCrunch的AI通讯!如果您尚未订阅,可以在这里注册,每周三直接送达您的收件箱。我们上周稍作休息,但原因充分——AI新闻周期火爆,很大程度上归功于中国AI公司DeepSeek的突然崛起。这段时间真是旋风般忙碌,但我们现在回来了,正好为您带来OpenAI的最新动态。周末,OpenAI首席执行官Sam Altman在东京停留,与SoftBank掌门人孙正义会面。SoftBan
NotebookLM应用上线:AI驱动的知识工具
NotebookLM移动端上线:您的人工智能研究助手现已登陆安卓和iOS平台 NotebookLM的受欢迎程度令我们惊叹不已——数百万用户已将其作为处理复杂信息的首选工具。但有一个问题被反复提及:"我们什么时候能在移动端使用NotebookLM?" 现在,等待结束了!🎉 NotebookLM移动应用现已登陆安卓和iOS平台,将AI辅助学习的强大功能装进您
의견 (5)
0/200
JasonKing
2025년 5월 5일 오전 12시 0분 0초 GMT
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
2025년 5월 5일 오전 12시 0분 0초 GMT
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
AlbertThomas
2025년 5월 4일 오전 12시 0분 0초 GMT
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
2025년 5월 4일 오전 12시 0분 0초 GMT
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
WalterThomas
2025년 5월 4일 오전 12시 0분 0초 GMT
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
사랑하는 포켓몬의 세계조차도 AI 벤치 마크를 둘러싼 드라마에 면역이되지 않습니다. X의 최근 바이러스 성 게시물은 Google의 최신 Gemini 모델이 Classic Pokémon Video Game Trilogy에서 Anthropic의 주요 클로드 모델을 능가했다고 주장하면서 상당히 화제를 불러 일으켰습니다. 이 포스트에 따르면, Gemini는 개발자의 Twitch 스트림에서 Lavender Town에 인상적으로 그것을 만들었고 Claude는 2 월 말에 Mount Moon에서 뒤쳐졌습니다.
Gemini는 Lavender Town에 도착한 후 Pokemon의 Claude ATM보다 문자 그대로 앞서 있습니다.
119 라이브 조회수 만 BTW, 믿을 수 없을 정도로 과소 평가 된 스트림 pic.twitter.com/8avsovai4x
- Jush (@jush21e8) 2025 년 4 월 10 일
그러나이 게시물이 편리하게 제외 된 것은 Gemini가 약간의 불공정 한 이점을 가지고 있다는 사실이었습니다. Reddit의 정통한 사용자는 Gemini 스트림 뒤에있는 개발자가 사용자 정의 최소 맵을 만들었다 고 신속하게 지적했습니다. 이 멋진 도구는 Cuttable Trees와 같은 게임에서 "타일"을 인식하는 데 모델을 돕습니다. 이는 Gemini가 다음 움직임을 결정하기 전에 스크린 샷을 분석하는 데 소요되는 시간을 크게 줄입니다.
이제 Pokémon이 가장 심각한 AI 벤치 마크가 아닐 수도 있지만, 다른 설정이 이러한 테스트의 결과를 어떻게 왜곡시킬 수 있는지에 대한 재미있는 예제 역할을합니다. 예를 들어 Anthropic의 최근 모델 인 Anthropic 3.7 Sonnet을 가져 가십시오. 코딩 능력을 테스트하기위한 SWE 벤치 검증 벤치 마크에서는 62.3%의 정확도를 기록했습니다. 그러나 인위적인 "커스텀 스캐 폴드"로 그 점수는 70.3%로 증가했습니다.
그리고 그것은 거기서 멈추지 않습니다. Meta는 최신 모델 중 하나 인 Llama 4 Maverick을 가져 와서 LM Arena 벤치 마크를 위해 특별히 조정했습니다. 모델의 바닐라 버전은 동일한 테스트에서 거의 잘 맞지 않았습니다.
친근한 Pokémon 예제를 포함한 AI 벤치 마크가 이미 약간의 인기를 얻지 못한다는 점을 감안할 때, 이러한 맞춤형 조정과 비표준 접근 방식은 시장에 출시 될 때 모델 간의 의미있는 비교를 이끌어내는 것이 더 까다로워집니다. 사과와 사과를 비교하는 것이 하루 종일 점점 어려워 질 것 같습니다.




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯












