एआई बेंचमार्किंग पर बहस पोकेमोन तक पहुंच गई है

यहां तक कि पोकेमोन की प्यारी दुनिया एआई बेंचमार्क के आसपास के नाटक के लिए प्रतिरक्षा नहीं है। एक्स पर हाल ही में एक वायरल पोस्ट ने काफी चर्चा की, यह दावा करते हुए कि Google के नवीनतम मिथुन मॉडल ने क्लासिक पोकेमॉन वीडियो गेम ट्रिलॉजी में एन्थ्रोपिक के प्रमुख क्लाउड मॉडल को पछाड़ दिया था। पोस्ट के अनुसार, मिथुन ने प्रभावशाली रूप से एक डेवलपर की चिकोटी स्ट्रीम में लैवेंडर टाउन में इसे बनाया था, जबकि क्लाउड फरवरी के अंत तक माउंट मून में पिछड़ रहा था।
मिथुन शाब्दिक रूप से लैवेंडर टाउन तक पहुंचने के बाद पोकेमॉन में क्लाउड एटीएम से आगे है
119 लाइव दृश्य केवल btw, अविश्वसनीय रूप से अंडररेटेड स्ट्रीम pic.twitter.com/8avsovai4x
- जुश (@jush21e8) 10 अप्रैल, 2025
हालांकि, इस पोस्ट को आसानी से छोड़ दिया गया था, यह तथ्य था कि मिथुन को अनुचित लाभ था। Reddit पर Savvy उपयोगकर्ताओं ने जल्दी से बताया कि मिथुन स्ट्रीम के पीछे डेवलपर ने एक कस्टम न्यूनतम को तैयार किया था। यह निफ्टी टूल खेल में "टाइल्स" को पहचानने में मॉडल को सहायता करता है, जैसे कि कटेबल पेड़, जो कि मिथुन को अपने अगले कदम पर निर्णय लेने से पहले स्क्रीनशॉट का विश्लेषण करने के लिए खर्च करने के लिए काफी समय में कटौती करता है।
अब, जबकि पोकेमोन वहां से बाहर सबसे गंभीर एआई बेंचमार्क नहीं हो सकता है, यह एक मजेदार के रूप में काम करता है, अभी तक यह बता रहा है कि इन परीक्षणों के परिणामों को कैसे अलग किया जा सकता है। उदाहरण के लिए, एन्थ्रोपिक के हालिया मॉडल, एन्थ्रोपिक 3.7 सॉनेट को लें। SWE-Bench सत्यापित बेंचमार्क पर, जो कोडिंग कौशल का परीक्षण करने के लिए है, इसने 62.3% सटीकता का स्कोर किया। लेकिन, एक "कस्टम पाड़" के साथ जो एंथ्रोपिक को मार दिया, वह स्कोर 70.3%तक कूद गया।
और यह वहाँ नहीं रुकता। मेटा ने अपने नए मॉडलों में से एक, लामा 4 मावेरिक को लिया, और इसे विशेष रूप से एलएम एरिना बेंचमार्क के लिए ठीक किया। मॉडल के वेनिला संस्करण ने उसी परीक्षण पर लगभग किराया नहीं किया।
यह देखते हुए कि एआई बेंचमार्क, जिसमें हमारे अनुकूल पोकेमॉन उदाहरण शामिल हैं, पहले से ही थोड़ा हिट-या-मिस हैं, ये कस्टम ट्वीक्स और गैर-मानक दृष्टिकोण बस इसे मॉडल के बीच सार्थक तुलना करने के लिए भी मुश्किल बनाते हैं क्योंकि वे बाजार में हिट करते हैं। ऐसा लगता है कि सेब की तुलना सेब से तुलना करने से दिन में कठिन हो सकता है।
संबंधित लेख
xAI发布Grok的幕后提示
xAI在争议性“白人种族灭绝”回应后发布Grok的系统提示出乎意料的是,xAI决定公开其AI聊天机器人Grok的系统提示,此前该机器人在X(前身为Twitter)上开始生成未经提示的关于“白人种族灭绝”的回应。公司表示,未来将在GitHub上发布Grok的系统提示,以透明展示AI如何被编程与用户互动。什么是系统提示?系统提示本质上是AI的规则手册——一组指导聊天机器人如何回应用户查询的指令。虽然大
亿万富翁讨论在本周AI更新中自动化取代工作
大家好,欢迎回到TechCrunch的AI通讯!如果您尚未订阅,可以在这里注册,每周三直接送达您的收件箱。我们上周稍作休息,但原因充分——AI新闻周期火爆,很大程度上归功于中国AI公司DeepSeek的突然崛起。这段时间真是旋风般忙碌,但我们现在回来了,正好为您带来OpenAI的最新动态。周末,OpenAI首席执行官Sam Altman在东京停留,与SoftBank掌门人孙正义会面。SoftBan
NotebookLM应用上线:AI驱动的知识工具
NotebookLM移动端上线:您的人工智能研究助手现已登陆安卓和iOS平台 NotebookLM的受欢迎程度令我们惊叹不已——数百万用户已将其作为处理复杂信息的首选工具。但有一个问题被反复提及:"我们什么时候能在移动端使用NotebookLM?" 现在,等待结束了!🎉 NotebookLM移动应用现已登陆安卓和iOS平台,将AI辅助学习的强大功能装进您
सूचना (5)
0/200
JasonKing
5 मई 2025 12:00:00 पूर्वाह्न GMT
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
5 मई 2025 12:00:00 पूर्वाह्न GMT
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
AlbertThomas
4 मई 2025 12:00:00 पूर्वाह्न GMT
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
4 मई 2025 12:00:00 पूर्वाह्न GMT
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
WalterThomas
4 मई 2025 12:00:00 पूर्वाह्न GMT
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
यहां तक कि पोकेमोन की प्यारी दुनिया एआई बेंचमार्क के आसपास के नाटक के लिए प्रतिरक्षा नहीं है। एक्स पर हाल ही में एक वायरल पोस्ट ने काफी चर्चा की, यह दावा करते हुए कि Google के नवीनतम मिथुन मॉडल ने क्लासिक पोकेमॉन वीडियो गेम ट्रिलॉजी में एन्थ्रोपिक के प्रमुख क्लाउड मॉडल को पछाड़ दिया था। पोस्ट के अनुसार, मिथुन ने प्रभावशाली रूप से एक डेवलपर की चिकोटी स्ट्रीम में लैवेंडर टाउन में इसे बनाया था, जबकि क्लाउड फरवरी के अंत तक माउंट मून में पिछड़ रहा था।
मिथुन शाब्दिक रूप से लैवेंडर टाउन तक पहुंचने के बाद पोकेमॉन में क्लाउड एटीएम से आगे है
119 लाइव दृश्य केवल btw, अविश्वसनीय रूप से अंडररेटेड स्ट्रीम pic.twitter.com/8avsovai4x
- जुश (@jush21e8) 10 अप्रैल, 2025
हालांकि, इस पोस्ट को आसानी से छोड़ दिया गया था, यह तथ्य था कि मिथुन को अनुचित लाभ था। Reddit पर Savvy उपयोगकर्ताओं ने जल्दी से बताया कि मिथुन स्ट्रीम के पीछे डेवलपर ने एक कस्टम न्यूनतम को तैयार किया था। यह निफ्टी टूल खेल में "टाइल्स" को पहचानने में मॉडल को सहायता करता है, जैसे कि कटेबल पेड़, जो कि मिथुन को अपने अगले कदम पर निर्णय लेने से पहले स्क्रीनशॉट का विश्लेषण करने के लिए खर्च करने के लिए काफी समय में कटौती करता है।
अब, जबकि पोकेमोन वहां से बाहर सबसे गंभीर एआई बेंचमार्क नहीं हो सकता है, यह एक मजेदार के रूप में काम करता है, अभी तक यह बता रहा है कि इन परीक्षणों के परिणामों को कैसे अलग किया जा सकता है। उदाहरण के लिए, एन्थ्रोपिक के हालिया मॉडल, एन्थ्रोपिक 3.7 सॉनेट को लें। SWE-Bench सत्यापित बेंचमार्क पर, जो कोडिंग कौशल का परीक्षण करने के लिए है, इसने 62.3% सटीकता का स्कोर किया। लेकिन, एक "कस्टम पाड़" के साथ जो एंथ्रोपिक को मार दिया, वह स्कोर 70.3%तक कूद गया।
और यह वहाँ नहीं रुकता। मेटा ने अपने नए मॉडलों में से एक, लामा 4 मावेरिक को लिया, और इसे विशेष रूप से एलएम एरिना बेंचमार्क के लिए ठीक किया। मॉडल के वेनिला संस्करण ने उसी परीक्षण पर लगभग किराया नहीं किया।
यह देखते हुए कि एआई बेंचमार्क, जिसमें हमारे अनुकूल पोकेमॉन उदाहरण शामिल हैं, पहले से ही थोड़ा हिट-या-मिस हैं, ये कस्टम ट्वीक्स और गैर-मानक दृष्टिकोण बस इसे मॉडल के बीच सार्थक तुलना करने के लिए भी मुश्किल बनाते हैं क्योंकि वे बाजार में हिट करते हैं। ऐसा लगता है कि सेब की तुलना सेब से तुलना करने से दिन में कठिन हो सकता है।




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯












