घर समाचार विशेषज्ञ भीड़ -भाड़ वाले एआई बेंचमार्क में गंभीर खामियों को उजागर करते हैं

विशेषज्ञ भीड़ -भाड़ वाले एआई बेंचमार्क में गंभीर खामियों को उजागर करते हैं

25 अप्रैल 2025
JamesWalker
6

एआई लैब्स तेजी से अपने नवीनतम मॉडलों की क्षमताओं का मूल्यांकन करने के लिए चैटबोट एरिना जैसे भीड़ -भाड़ वाले बेंचमार्किंग प्लेटफार्मों की ओर रुख कर रहे हैं। फिर भी, कुछ विशेषज्ञों का तर्क है कि यह विधि महत्वपूर्ण नैतिक और शैक्षणिक चिंताओं को बढ़ाती है।

हाल के वर्षों में, Openai, Google और Meta जैसे प्रमुख खिलाड़ियों ने ऐसे प्लेटफॉर्म का उपयोग किया है जो उपयोगकर्ताओं को अपने आगामी मॉडल के प्रदर्शन का आकलन करने के लिए संलग्न करते हैं। इन प्लेटफार्मों पर एक उच्च स्कोर को अक्सर प्रयोगशालाओं द्वारा उनके मॉडल की उन्नति के लिए एक वसीयतनामा के रूप में हाइलाइट किया जाता है। हालांकि, यह दृष्टिकोण इसके आलोचकों के बिना नहीं है।

भीड़ -भाड़ वाले बेंचमार्किंग की आलोचना

एमिली बेंडर, वाशिंगटन विश्वविद्यालय में एक भाषाविज्ञान प्रोफेसर और "द एआई कॉन" के सह-लेखक, इस तरह के बेंचमार्क, विशेष रूप से चैटबॉट एरिना की वैधता के बारे में चिंताओं को आवाज देते हैं। इस मंच में स्वयंसेवकों को दो अनाम मॉडलों से प्रतिक्रियाओं की तुलना करना और उनके पसंदीदा को चुनना शामिल है। बेंडर का तर्क है कि एक बेंचमार्क प्रभावी होने के लिए, इसे कुछ विशिष्ट मापना चाहिए और निर्माण वैधता का प्रदर्शन करना चाहिए, जिसका अर्थ है कि माप का मूल्यांकन किए जा रहे निर्माण को सही ढंग से प्रतिबिंबित करना चाहिए। वह कहती है कि चैटबॉट एरिना में इस बात के सबूतों का अभाव है कि किसी अन्य आउटपुट के लिए उपयोगकर्ता की प्राथमिकताएं किसी भी परिभाषित मानदंडों के साथ वास्तव में सहसंबंधित हैं।

AI फर्म लेसन के सह-संस्थापक और वितरित AI रिसर्च इंस्टीट्यूट के एक साथी Asmelash Teka Hadgu का सुझाव है कि इन बेंचमार्क को AI Labs द्वारा अपने मॉडलों के बारे में अतिरंजित दावे करने के लिए शोषण किया जा रहा है। उन्होंने मेटा के लामा 4 मावेरिक मॉडल के साथ एक हालिया घटना का हवाला दिया, जहां मेटा ने चैटबॉट एरिना पर अच्छा प्रदर्शन करने के लिए एक संस्करण को ठीक किया, लेकिन इसके बजाय कम प्रभावी संस्करण जारी करने के लिए चुना। हेडगु बेंचमार्क के लिए गतिशील होने के लिए वकालत करता है, कई स्वतंत्र संस्थाओं में वितरित किया जाता है, और अपने काम में इन मॉडलों का उपयोग करने वाले पेशेवरों द्वारा शिक्षा और स्वास्थ्य सेवा जैसे क्षेत्रों में विशिष्ट उपयोग के मामलों के अनुरूप होता है।

उचित मुआवजे और व्यापक मूल्यांकन विधियों के लिए कॉल

एस्पेन इंस्टीट्यूट के इमर्जेंट एंड इंटेलिजेंट टेक्नोलॉजीज पहल के पूर्व नेता हेडगु और क्रिस्टीन ग्लोरिया का तर्क है कि मूल्यांकनकर्ताओं को उनके काम के लिए मुआवजा दिया जाना चाहिए, अक्सर शोषणकारी डेटा लेबलिंग उद्योग के लिए समानताएं खींचते हैं। ग्लोरिया ने क्राउडसोर्स बेंचमार्किंग को मूल्यवान माना, नागरिक विज्ञान पहल के समान, लेकिन इस बात पर जोर दिया कि बेंचमार्क मूल्यांकन के लिए एकमात्र मीट्रिक नहीं होना चाहिए, विशेष रूप से उद्योग नवाचार की तीव्र गति को देखते हुए।

ग्रे स्वान एआई के सीईओ मैट फ्रेड्रिकसन, जो क्राउडसोर्स्ड रेड टीमिंग अभियानों का संचालन करता है, नए कौशल को सीखने और अभ्यास करने के लिए स्वयंसेवकों के लिए ऐसे प्लेटफार्मों की अपील को स्वीकार करता है। हालांकि, वह इस बात पर जोर देता है कि सार्वजनिक बेंचमार्क भुगतान, निजी आकलन द्वारा प्रदान किए गए अधिक गहन मूल्यांकन को बदल नहीं सकते हैं। फ्रेडरिकसन का सुझाव है कि डेवलपर्स को आंतरिक बेंचमार्क, एल्गोरिथम रेड टीमों और अनुबंधित विशेषज्ञों पर भी भरोसा करना चाहिए जो अधिक ओपन-एंडेड और डोमेन-विशिष्ट अंतर्दृष्टि प्रदान कर सकते हैं।

बेंचमार्किंग पर उद्योग के दृष्टिकोण

एलेक्स एटला, मॉडल मार्केटप्लेस ओपनरॉटर के सीईओ, और वी-लिन चियांग, यूसी बर्कले में एआई डॉक्टरेट छात्र और लमरेना के संस्थापकों में से एक (जो चैटबॉट एरिना का प्रबंधन करता है), सहमत हैं कि अकेले परीक्षण और बेंचमार्किंग अपर्याप्त हैं। चियांग ने जोर देकर कहा कि Lmarena का लक्ष्य अलग -अलग AI मॉडल के बारे में सामुदायिक वरीयताओं के लिए एक भरोसेमंद, खुली जगह प्रदान करना है।

मावेरिक बेंचमार्क के आसपास के विवाद को संबोधित करते हुए, चियांग स्पष्ट करता है कि इस तरह की घटनाएं चैटबॉट एरिना के डिजाइन में खामियों के कारण नहीं हैं, बल्कि प्रयोगशालाओं द्वारा अपनी नीतियों की गलत व्याख्या करते हैं। Lmarena ने निष्पक्ष और प्रतिलिपि प्रस्तुत करने योग्य मूल्यांकन सुनिश्चित करने के लिए अपनी नीतियों को अपडेट किया है। चियांग ने कहा कि मंच का समुदाय केवल स्वयंसेवकों या परीक्षकों का एक समूह नहीं है, बल्कि एक संलग्न समूह है जो एआई मॉडल पर सामूहिक प्रतिक्रिया प्रदान करता है।

कॉल ऑफ ड्यूटी: मोबाइल- सभी वर्किंग रिडीम कोड जनवरी 2025

क्राउडसोर्स्ड बेंचमार्किंग प्लेटफार्मों के उपयोग के आसपास चल रही बहस एआई मॉडल मूल्यांकन के लिए अधिक बारीक दृष्टिकोण की आवश्यकता पर प्रकाश डालती है, एक जो सटीकता और निष्पक्षता दोनों को सुनिश्चित करने के लिए कठोर, पेशेवर आकलन के साथ सार्वजनिक इनपुट को जोड़ती है।

संबंधित लेख
एंथ्रोपिक लॉन्च कार्यक्रम एआई 'मॉडल कल्याण' का अध्ययन करने के लिए एंथ्रोपिक लॉन्च कार्यक्रम एआई 'मॉडल कल्याण' का अध्ययन करने के लिए क्या भविष्य एआई सचेत हो सकता है? यह सवाल कि क्या भविष्य के एआईएस दुनिया को एक तरह से मनुष्यों के समान अनुभव कर सकता है, पेचीदा है, फिर भी काफी हद तक अनुत्तरित है। जबकि कोई निश्चित सबूत नहीं है कि वे करेंगे, एआई लैब एंथ्रोपिक संभावना को एकमुश्त खारिज नहीं कर रहा है। गुरुवार को, एंथ्रो
लेस-अप स्कर्ट ट्रेंड्स: स्टाइलिंग टिप्स और आउटफिट आइडियाज टू रॉक उन्हें लेस-अप स्कर्ट ट्रेंड्स: स्टाइलिंग टिप्स और आउटफिट आइडियाज टू रॉक उन्हें लेस-अप स्कर्ट एक गर्म प्रवृत्ति बन गई है, जो स्त्रीत्व के एक डैश के साथ एक बोल्ड किनारे का विलय करती है। ये स्कर्ट, अपनी आंख को पकड़ने वाले लेस-अप विवरण के लिए जाने जाते हैं, फैशन प्रेमियों के लिए एक गो-टू हैं जो अपनी अलमारी को मसाला देने के लिए देख रहे हैं। चाहे आप एक नाटकीय बयान के लिए जा रहे हों या शैली का एक सूक्ष्म संकेत, जीआर के लिए हो रहा है
व्यावहारिक एआई: विकास में उत्साह और संदेह के बीच एक संतुलन व्यावहारिक एआई: विकास में उत्साह और संदेह के बीच एक संतुलन कृत्रिम बुद्धिमत्ता की कभी-कभी विकसित होने वाली दुनिया में, .NET और C# इकोसिस्टम के भीतर काम करने वाले डेवलपर्स के लिए एक संतुलित परिप्रेक्ष्य बनाए रखना आवश्यक है। जबकि एआई की क्षमता रोमांचकारी है, संदेह की एक खुराक इसके व्यावहारिक और प्रभावी एकीकरण को सुनिश्चित करती है। यह लेख एक व्यावहारिक अप्राप्य लेता है
सूचना (0)
शीर्ष समाचार
AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है IPhone और iPad पर LiDAR का उपयोग करने के लिए 8 अभिनव तरीके प्रकट हुए "समूह एआई के इको प्रभाव को कम करने के लिए स्विफ्ट उपायों का आग्रह करते हैं" Google.org Unveils $15M AI Training Grants for Government Workers 7 कारण किंडल एक महान खरीद रहे हैं, यहां तक ​​कि डाउनलोड के बिना भी टेलि, एक वाईसी फिटकिरी, एआई वॉयस एजेंटों के लिए पूर्व-बीज फंडिंग सुरक्षित करता है Nvidia नेक्स्ट-जेन GPUs का अनावरण किया: ब्लैकवेल अल्ट्रा, वेरा रुबिन, फेनमैन चुपके पीक: एडोब की नवीनतम परियोजनाओं में उन्नत एआई एजेंट हैं टिंडर उपयोगकर्ता की गिरावट के बीच एआई मैचिंग की खोज करता है

अपने ऑनलाइन डेटा गोपनीयता को पुनः प्राप्त करने के लिए 5 आसान कदम - आज शुरू करें

अधिक
OR