घर समाचार एआई बेंचमार्किंग पर बहस पोकेमोन तक पहुंच गई है

एआई बेंचमार्किंग पर बहस पोकेमोन तक पहुंच गई है

3 मई 2025
JonathanDavis
0

एआई बेंचमार्किंग पर बहस पोकेमोन तक पहुंच गई है

यहां तक ​​कि पोकेमोन की प्यारी दुनिया एआई बेंचमार्क के आसपास के नाटक के लिए प्रतिरक्षा नहीं है। एक्स पर हाल ही में एक वायरल पोस्ट ने काफी चर्चा की, यह दावा करते हुए कि Google के नवीनतम मिथुन मॉडल ने क्लासिक पोकेमॉन वीडियो गेम ट्रिलॉजी में एन्थ्रोपिक के प्रमुख क्लाउड मॉडल को पछाड़ दिया था। पोस्ट के अनुसार, मिथुन ने प्रभावशाली रूप से एक डेवलपर की चिकोटी स्ट्रीम में लैवेंडर टाउन में इसे बनाया था, जबकि क्लाउड फरवरी के अंत तक माउंट मून में पिछड़ रहा था।

मिथुन शाब्दिक रूप से लैवेंडर टाउन तक पहुंचने के बाद पोकेमॉन में क्लाउड एटीएम से आगे है

119 लाइव दृश्य केवल btw, अविश्वसनीय रूप से अंडररेटेड स्ट्रीम pic.twitter.com/8avsovai4x

- जुश (@jush21e8) 10 अप्रैल, 2025

हालांकि, इस पोस्ट को आसानी से छोड़ दिया गया था, यह तथ्य था कि मिथुन को अनुचित लाभ था। Reddit पर Savvy उपयोगकर्ताओं ने जल्दी से बताया कि मिथुन स्ट्रीम के पीछे डेवलपर ने एक कस्टम न्यूनतम को तैयार किया था। यह निफ्टी टूल खेल में "टाइल्स" को पहचानने में मॉडल को सहायता करता है, जैसे कि कटेबल पेड़, जो कि मिथुन को अपने अगले कदम पर निर्णय लेने से पहले स्क्रीनशॉट का विश्लेषण करने के लिए खर्च करने के लिए काफी समय में कटौती करता है।

अब, जबकि पोकेमोन वहां से बाहर सबसे गंभीर एआई बेंचमार्क नहीं हो सकता है, यह एक मजेदार के रूप में काम करता है, अभी तक यह बता रहा है कि इन परीक्षणों के परिणामों को कैसे अलग किया जा सकता है। उदाहरण के लिए, एन्थ्रोपिक के हालिया मॉडल, एन्थ्रोपिक 3.7 सॉनेट को लें। SWE-Bench सत्यापित बेंचमार्क पर, जो कोडिंग कौशल का परीक्षण करने के लिए है, इसने 62.3% सटीकता का स्कोर किया। लेकिन, एक "कस्टम पाड़" के साथ जो एंथ्रोपिक को मार दिया, वह स्कोर 70.3%तक कूद गया।

और यह वहाँ नहीं रुकता। मेटा ने अपने नए मॉडलों में से एक, लामा 4 मावेरिक को लिया, और इसे विशेष रूप से एलएम एरिना बेंचमार्क के लिए ठीक किया। मॉडल के वेनिला संस्करण ने उसी परीक्षण पर लगभग किराया नहीं किया।

यह देखते हुए कि एआई बेंचमार्क, जिसमें हमारे अनुकूल पोकेमॉन उदाहरण शामिल हैं, पहले से ही थोड़ा हिट-या-मिस हैं, ये कस्टम ट्वीक्स और गैर-मानक दृष्टिकोण बस इसे मॉडल के बीच सार्थक तुलना करने के लिए भी मुश्किल बनाते हैं क्योंकि वे बाजार में हिट करते हैं। ऐसा लगता है कि सेब की तुलना सेब से तुलना करने से दिन में कठिन हो सकता है।

संबंधित लेख
Top 10 AI Marketing Tools for April 2025 Top 10 AI Marketing Tools for April 2025 Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia's New Strategy to Manage AI Data Scraping Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's Bold Move in the Global AI Chip Race Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
सूचना (0)
शीर्ष समाचार
यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं वाइल्डफायर डिटेक्शन में एक सफलता: कैसे उपग्रहों का एक नया नक्षत्र पहले छोटे जंगल की आग का पता लगा सकता है एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है Google.org Unveils $15M AI Training Grants for Government Workers एआई नैतिकता की उपेक्षा करना भारी जोखिम पैदा करता है: एआई को जिम्मेदारी से कैसे लागू किया जाए AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है Adobe 10 विशिष्ट AI एजेंटों का अनावरण करता है: उनके व्यावसायिक अनुप्रयोगों की खोज करें AI एप्लिकेशन में उद्यमों का मार्गदर्शन करने के लिए Workhelix अनुसंधान के वर्षों का लाभ उठाता है
अधिक
Back to Top
OR