घर समाचार एआई बेंचमार्किंग पर बहस पोकेमोन तक पहुंच गई है

एआई बेंचमार्किंग पर बहस पोकेमोन तक पहुंच गई है

3 मई 2025
JonathanDavis
0

एआई बेंचमार्किंग पर बहस पोकेमोन तक पहुंच गई है

यहां तक ​​कि पोकेमोन की प्यारी दुनिया एआई बेंचमार्क के आसपास के नाटक के लिए प्रतिरक्षा नहीं है। एक्स पर हाल ही में एक वायरल पोस्ट ने काफी चर्चा की, यह दावा करते हुए कि Google के नवीनतम मिथुन मॉडल ने क्लासिक पोकेमॉन वीडियो गेम ट्रिलॉजी में एन्थ्रोपिक के प्रमुख क्लाउड मॉडल को पछाड़ दिया था। पोस्ट के अनुसार, मिथुन ने प्रभावशाली रूप से एक डेवलपर की चिकोटी स्ट्रीम में लैवेंडर टाउन में इसे बनाया था, जबकि क्लाउड फरवरी के अंत तक माउंट मून में पिछड़ रहा था।

मिथुन शाब्दिक रूप से लैवेंडर टाउन तक पहुंचने के बाद पोकेमॉन में क्लाउड एटीएम से आगे है

119 लाइव दृश्य केवल btw, अविश्वसनीय रूप से अंडररेटेड स्ट्रीम pic.twitter.com/8avsovai4x

- जुश (@jush21e8) 10 अप्रैल, 2025

हालांकि, इस पोस्ट को आसानी से छोड़ दिया गया था, यह तथ्य था कि मिथुन को अनुचित लाभ था। Reddit पर Savvy उपयोगकर्ताओं ने जल्दी से बताया कि मिथुन स्ट्रीम के पीछे डेवलपर ने एक कस्टम न्यूनतम को तैयार किया था। यह निफ्टी टूल खेल में "टाइल्स" को पहचानने में मॉडल को सहायता करता है, जैसे कि कटेबल पेड़, जो कि मिथुन को अपने अगले कदम पर निर्णय लेने से पहले स्क्रीनशॉट का विश्लेषण करने के लिए खर्च करने के लिए काफी समय में कटौती करता है।

अब, जबकि पोकेमोन वहां से बाहर सबसे गंभीर एआई बेंचमार्क नहीं हो सकता है, यह एक मजेदार के रूप में काम करता है, अभी तक यह बता रहा है कि इन परीक्षणों के परिणामों को कैसे अलग किया जा सकता है। उदाहरण के लिए, एन्थ्रोपिक के हालिया मॉडल, एन्थ्रोपिक 3.7 सॉनेट को लें। SWE-Bench सत्यापित बेंचमार्क पर, जो कोडिंग कौशल का परीक्षण करने के लिए है, इसने 62.3% सटीकता का स्कोर किया। लेकिन, एक "कस्टम पाड़" के साथ जो एंथ्रोपिक को मार दिया, वह स्कोर 70.3%तक कूद गया।

और यह वहाँ नहीं रुकता। मेटा ने अपने नए मॉडलों में से एक, लामा 4 मावेरिक को लिया, और इसे विशेष रूप से एलएम एरिना बेंचमार्क के लिए ठीक किया। मॉडल के वेनिला संस्करण ने उसी परीक्षण पर लगभग किराया नहीं किया।

यह देखते हुए कि एआई बेंचमार्क, जिसमें हमारे अनुकूल पोकेमॉन उदाहरण शामिल हैं, पहले से ही थोड़ा हिट-या-मिस हैं, ये कस्टम ट्वीक्स और गैर-मानक दृष्टिकोण बस इसे मॉडल के बीच सार्थक तुलना करने के लिए भी मुश्किल बनाते हैं क्योंकि वे बाजार में हिट करते हैं। ऐसा लगता है कि सेब की तुलना सेब से तुलना करने से दिन में कठिन हो सकता है।

संबंधित लेख
2025年4月のトップ10 AIマーケティングツール 2025年4月のトップ10 AIマーケティングツール 人工知能(AI)は左右に産業を揺さぶっていますが、マーケティングも例外ではありません。小規模なスタートアップから大企業まで、企業はAIマーケティングツールにますます目を向けて、ブランドの可視性を高め、成長を促進しています。これらのツールをビジネスに組み込む
ウィキペディアはAI開発者にボットスクレーパーをかわすためにデータを提供しています ウィキペディアはAI開発者にボットスクレーパーをかわすためにデータを提供しています Wikimedia Foundationを通じて、Wikipediaを削除するAIデータを管理するウィキペディアの新しい戦略は、サーバー上のAIデータスクレイピングの影響を管理するための積極的なステップを踏み出しています。水曜日に、彼らはGoogleが所有し、データサイエンスと専用のプラットフォームであるKaggleとのコラボレーションを発表しました。
HuaweiのAIハードウェアのブレークスルーは、Nvidiaの支配に挑戦します HuaweiのAIハードウェアのブレークスルーは、Nvidiaの支配に挑戦します 中国のハイテク大手であるグローバルAIチップレースHuaweiにおけるHuaweiの大胆な動きは、グローバルAIチップレースを揺るがす可能性のある大きな前進を遂げました。彼らは、The CloudMatrix 384 Supernodeという新しいコンピューティングシステムを導入しました。これは、地元のメディアによると、同様のテクノを上回ります
सूचना (0)
शीर्ष समाचार
यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं वाइल्डफायर डिटेक्शन में एक सफलता: कैसे उपग्रहों का एक नया नक्षत्र पहले छोटे जंगल की आग का पता लगा सकता है एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है Google.org Unveils $15M AI Training Grants for Government Workers एआई नैतिकता की उपेक्षा करना भारी जोखिम पैदा करता है: एआई को जिम्मेदारी से कैसे लागू किया जाए AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है Adobe 10 विशिष्ट AI एजेंटों का अनावरण करता है: उनके व्यावसायिक अनुप्रयोगों की खोज करें AI एप्लिकेशन में उद्यमों का मार्गदर्शन करने के लिए Workhelix अनुसंधान के वर्षों का लाभ उठाता है
अधिक
Back to Top
OR