एआई बेंचमार्किंग पर बहस पोकेमोन तक पहुंच गई है
3 मई 2025
JonathanDavis
0

यहां तक कि पोकेमोन की प्यारी दुनिया एआई बेंचमार्क के आसपास के नाटक के लिए प्रतिरक्षा नहीं है। एक्स पर हाल ही में एक वायरल पोस्ट ने काफी चर्चा की, यह दावा करते हुए कि Google के नवीनतम मिथुन मॉडल ने क्लासिक पोकेमॉन वीडियो गेम ट्रिलॉजी में एन्थ्रोपिक के प्रमुख क्लाउड मॉडल को पछाड़ दिया था। पोस्ट के अनुसार, मिथुन ने प्रभावशाली रूप से एक डेवलपर की चिकोटी स्ट्रीम में लैवेंडर टाउन में इसे बनाया था, जबकि क्लाउड फरवरी के अंत तक माउंट मून में पिछड़ रहा था।
मिथुन शाब्दिक रूप से लैवेंडर टाउन तक पहुंचने के बाद पोकेमॉन में क्लाउड एटीएम से आगे है
119 लाइव दृश्य केवल btw, अविश्वसनीय रूप से अंडररेटेड स्ट्रीम pic.twitter.com/8avsovai4x
- जुश (@jush21e8) 10 अप्रैल, 2025
हालांकि, इस पोस्ट को आसानी से छोड़ दिया गया था, यह तथ्य था कि मिथुन को अनुचित लाभ था। Reddit पर Savvy उपयोगकर्ताओं ने जल्दी से बताया कि मिथुन स्ट्रीम के पीछे डेवलपर ने एक कस्टम न्यूनतम को तैयार किया था। यह निफ्टी टूल खेल में "टाइल्स" को पहचानने में मॉडल को सहायता करता है, जैसे कि कटेबल पेड़, जो कि मिथुन को अपने अगले कदम पर निर्णय लेने से पहले स्क्रीनशॉट का विश्लेषण करने के लिए खर्च करने के लिए काफी समय में कटौती करता है।
अब, जबकि पोकेमोन वहां से बाहर सबसे गंभीर एआई बेंचमार्क नहीं हो सकता है, यह एक मजेदार के रूप में काम करता है, अभी तक यह बता रहा है कि इन परीक्षणों के परिणामों को कैसे अलग किया जा सकता है। उदाहरण के लिए, एन्थ्रोपिक के हालिया मॉडल, एन्थ्रोपिक 3.7 सॉनेट को लें। SWE-Bench सत्यापित बेंचमार्क पर, जो कोडिंग कौशल का परीक्षण करने के लिए है, इसने 62.3% सटीकता का स्कोर किया। लेकिन, एक "कस्टम पाड़" के साथ जो एंथ्रोपिक को मार दिया, वह स्कोर 70.3%तक कूद गया।
और यह वहाँ नहीं रुकता। मेटा ने अपने नए मॉडलों में से एक, लामा 4 मावेरिक को लिया, और इसे विशेष रूप से एलएम एरिना बेंचमार्क के लिए ठीक किया। मॉडल के वेनिला संस्करण ने उसी परीक्षण पर लगभग किराया नहीं किया।
यह देखते हुए कि एआई बेंचमार्क, जिसमें हमारे अनुकूल पोकेमॉन उदाहरण शामिल हैं, पहले से ही थोड़ा हिट-या-मिस हैं, ये कस्टम ट्वीक्स और गैर-मानक दृष्टिकोण बस इसे मॉडल के बीच सार्थक तुलना करने के लिए भी मुश्किल बनाते हैं क्योंकि वे बाजार में हिट करते हैं। ऐसा लगता है कि सेब की तुलना सेब से तुलना करने से दिन में कठिन हो सकता है।
संबंधित लेख
2025年4月のトップ10 AIマーケティングツール
人工知能(AI)は左右に産業を揺さぶっていますが、マーケティングも例外ではありません。小規模なスタートアップから大企業まで、企業はAIマーケティングツールにますます目を向けて、ブランドの可視性を高め、成長を促進しています。これらのツールをビジネスに組み込む
ウィキペディアはAI開発者にボットスクレーパーをかわすためにデータを提供しています
Wikimedia Foundationを通じて、Wikipediaを削除するAIデータを管理するウィキペディアの新しい戦略は、サーバー上のAIデータスクレイピングの影響を管理するための積極的なステップを踏み出しています。水曜日に、彼らはGoogleが所有し、データサイエンスと専用のプラットフォームであるKaggleとのコラボレーションを発表しました。
HuaweiのAIハードウェアのブレークスルーは、Nvidiaの支配に挑戦します
中国のハイテク大手であるグローバルAIチップレースHuaweiにおけるHuaweiの大胆な動きは、グローバルAIチップレースを揺るがす可能性のある大きな前進を遂げました。彼らは、The CloudMatrix 384 Supernodeという新しいコンピューティングシステムを導入しました。これは、地元のメディアによると、同様のテクノを上回ります
सूचना (0)
0/200






यहां तक कि पोकेमोन की प्यारी दुनिया एआई बेंचमार्क के आसपास के नाटक के लिए प्रतिरक्षा नहीं है। एक्स पर हाल ही में एक वायरल पोस्ट ने काफी चर्चा की, यह दावा करते हुए कि Google के नवीनतम मिथुन मॉडल ने क्लासिक पोकेमॉन वीडियो गेम ट्रिलॉजी में एन्थ्रोपिक के प्रमुख क्लाउड मॉडल को पछाड़ दिया था। पोस्ट के अनुसार, मिथुन ने प्रभावशाली रूप से एक डेवलपर की चिकोटी स्ट्रीम में लैवेंडर टाउन में इसे बनाया था, जबकि क्लाउड फरवरी के अंत तक माउंट मून में पिछड़ रहा था।
मिथुन शाब्दिक रूप से लैवेंडर टाउन तक पहुंचने के बाद पोकेमॉन में क्लाउड एटीएम से आगे है
119 लाइव दृश्य केवल btw, अविश्वसनीय रूप से अंडररेटेड स्ट्रीम pic.twitter.com/8avsovai4x
- जुश (@jush21e8) 10 अप्रैल, 2025
हालांकि, इस पोस्ट को आसानी से छोड़ दिया गया था, यह तथ्य था कि मिथुन को अनुचित लाभ था। Reddit पर Savvy उपयोगकर्ताओं ने जल्दी से बताया कि मिथुन स्ट्रीम के पीछे डेवलपर ने एक कस्टम न्यूनतम को तैयार किया था। यह निफ्टी टूल खेल में "टाइल्स" को पहचानने में मॉडल को सहायता करता है, जैसे कि कटेबल पेड़, जो कि मिथुन को अपने अगले कदम पर निर्णय लेने से पहले स्क्रीनशॉट का विश्लेषण करने के लिए खर्च करने के लिए काफी समय में कटौती करता है।
अब, जबकि पोकेमोन वहां से बाहर सबसे गंभीर एआई बेंचमार्क नहीं हो सकता है, यह एक मजेदार के रूप में काम करता है, अभी तक यह बता रहा है कि इन परीक्षणों के परिणामों को कैसे अलग किया जा सकता है। उदाहरण के लिए, एन्थ्रोपिक के हालिया मॉडल, एन्थ्रोपिक 3.7 सॉनेट को लें। SWE-Bench सत्यापित बेंचमार्क पर, जो कोडिंग कौशल का परीक्षण करने के लिए है, इसने 62.3% सटीकता का स्कोर किया। लेकिन, एक "कस्टम पाड़" के साथ जो एंथ्रोपिक को मार दिया, वह स्कोर 70.3%तक कूद गया।
और यह वहाँ नहीं रुकता। मेटा ने अपने नए मॉडलों में से एक, लामा 4 मावेरिक को लिया, और इसे विशेष रूप से एलएम एरिना बेंचमार्क के लिए ठीक किया। मॉडल के वेनिला संस्करण ने उसी परीक्षण पर लगभग किराया नहीं किया।
यह देखते हुए कि एआई बेंचमार्क, जिसमें हमारे अनुकूल पोकेमॉन उदाहरण शामिल हैं, पहले से ही थोड़ा हिट-या-मिस हैं, ये कस्टम ट्वीक्स और गैर-मानक दृष्टिकोण बस इसे मॉडल के बीच सार्थक तुलना करने के लिए भी मुश्किल बनाते हैं क्योंकि वे बाजार में हिट करते हैं। ऐसा लगता है कि सेब की तुलना सेब से तुलना करने से दिन में कठिन हो सकता है।











