विशेषज्ञ भीड़ -भाड़ वाले एआई बेंचमार्क में गंभीर खामियों को उजागर करते हैं
25 अप्रैल 2025
JamesWalker
6
एआई लैब्स तेजी से अपने नवीनतम मॉडलों की क्षमताओं का मूल्यांकन करने के लिए चैटबोट एरिना जैसे भीड़ -भाड़ वाले बेंचमार्किंग प्लेटफार्मों की ओर रुख कर रहे हैं। फिर भी, कुछ विशेषज्ञों का तर्क है कि यह विधि महत्वपूर्ण नैतिक और शैक्षणिक चिंताओं को बढ़ाती है।
हाल के वर्षों में, Openai, Google और Meta जैसे प्रमुख खिलाड़ियों ने ऐसे प्लेटफॉर्म का उपयोग किया है जो उपयोगकर्ताओं को अपने आगामी मॉडल के प्रदर्शन का आकलन करने के लिए संलग्न करते हैं। इन प्लेटफार्मों पर एक उच्च स्कोर को अक्सर प्रयोगशालाओं द्वारा उनके मॉडल की उन्नति के लिए एक वसीयतनामा के रूप में हाइलाइट किया जाता है। हालांकि, यह दृष्टिकोण इसके आलोचकों के बिना नहीं है।
भीड़ -भाड़ वाले बेंचमार्किंग की आलोचना
एमिली बेंडर, वाशिंगटन विश्वविद्यालय में एक भाषाविज्ञान प्रोफेसर और "द एआई कॉन" के सह-लेखक, इस तरह के बेंचमार्क, विशेष रूप से चैटबॉट एरिना की वैधता के बारे में चिंताओं को आवाज देते हैं। इस मंच में स्वयंसेवकों को दो अनाम मॉडलों से प्रतिक्रियाओं की तुलना करना और उनके पसंदीदा को चुनना शामिल है। बेंडर का तर्क है कि एक बेंचमार्क प्रभावी होने के लिए, इसे कुछ विशिष्ट मापना चाहिए और निर्माण वैधता का प्रदर्शन करना चाहिए, जिसका अर्थ है कि माप का मूल्यांकन किए जा रहे निर्माण को सही ढंग से प्रतिबिंबित करना चाहिए। वह कहती है कि चैटबॉट एरिना में इस बात के सबूतों का अभाव है कि किसी अन्य आउटपुट के लिए उपयोगकर्ता की प्राथमिकताएं किसी भी परिभाषित मानदंडों के साथ वास्तव में सहसंबंधित हैं।
AI फर्म लेसन के सह-संस्थापक और वितरित AI रिसर्च इंस्टीट्यूट के एक साथी Asmelash Teka Hadgu का सुझाव है कि इन बेंचमार्क को AI Labs द्वारा अपने मॉडलों के बारे में अतिरंजित दावे करने के लिए शोषण किया जा रहा है। उन्होंने मेटा के लामा 4 मावेरिक मॉडल के साथ एक हालिया घटना का हवाला दिया, जहां मेटा ने चैटबॉट एरिना पर अच्छा प्रदर्शन करने के लिए एक संस्करण को ठीक किया, लेकिन इसके बजाय कम प्रभावी संस्करण जारी करने के लिए चुना। हेडगु बेंचमार्क के लिए गतिशील होने के लिए वकालत करता है, कई स्वतंत्र संस्थाओं में वितरित किया जाता है, और अपने काम में इन मॉडलों का उपयोग करने वाले पेशेवरों द्वारा शिक्षा और स्वास्थ्य सेवा जैसे क्षेत्रों में विशिष्ट उपयोग के मामलों के अनुरूप होता है।
उचित मुआवजे और व्यापक मूल्यांकन विधियों के लिए कॉल
एस्पेन इंस्टीट्यूट के इमर्जेंट एंड इंटेलिजेंट टेक्नोलॉजीज पहल के पूर्व नेता हेडगु और क्रिस्टीन ग्लोरिया का तर्क है कि मूल्यांकनकर्ताओं को उनके काम के लिए मुआवजा दिया जाना चाहिए, अक्सर शोषणकारी डेटा लेबलिंग उद्योग के लिए समानताएं खींचते हैं। ग्लोरिया ने क्राउडसोर्स बेंचमार्किंग को मूल्यवान माना, नागरिक विज्ञान पहल के समान, लेकिन इस बात पर जोर दिया कि बेंचमार्क मूल्यांकन के लिए एकमात्र मीट्रिक नहीं होना चाहिए, विशेष रूप से उद्योग नवाचार की तीव्र गति को देखते हुए।
ग्रे स्वान एआई के सीईओ मैट फ्रेड्रिकसन, जो क्राउडसोर्स्ड रेड टीमिंग अभियानों का संचालन करता है, नए कौशल को सीखने और अभ्यास करने के लिए स्वयंसेवकों के लिए ऐसे प्लेटफार्मों की अपील को स्वीकार करता है। हालांकि, वह इस बात पर जोर देता है कि सार्वजनिक बेंचमार्क भुगतान, निजी आकलन द्वारा प्रदान किए गए अधिक गहन मूल्यांकन को बदल नहीं सकते हैं। फ्रेडरिकसन का सुझाव है कि डेवलपर्स को आंतरिक बेंचमार्क, एल्गोरिथम रेड टीमों और अनुबंधित विशेषज्ञों पर भी भरोसा करना चाहिए जो अधिक ओपन-एंडेड और डोमेन-विशिष्ट अंतर्दृष्टि प्रदान कर सकते हैं।
बेंचमार्किंग पर उद्योग के दृष्टिकोण
एलेक्स एटला, मॉडल मार्केटप्लेस ओपनरॉटर के सीईओ, और वी-लिन चियांग, यूसी बर्कले में एआई डॉक्टरेट छात्र और लमरेना के संस्थापकों में से एक (जो चैटबॉट एरिना का प्रबंधन करता है), सहमत हैं कि अकेले परीक्षण और बेंचमार्किंग अपर्याप्त हैं। चियांग ने जोर देकर कहा कि Lmarena का लक्ष्य अलग -अलग AI मॉडल के बारे में सामुदायिक वरीयताओं के लिए एक भरोसेमंद, खुली जगह प्रदान करना है।
मावेरिक बेंचमार्क के आसपास के विवाद को संबोधित करते हुए, चियांग स्पष्ट करता है कि इस तरह की घटनाएं चैटबॉट एरिना के डिजाइन में खामियों के कारण नहीं हैं, बल्कि प्रयोगशालाओं द्वारा अपनी नीतियों की गलत व्याख्या करते हैं। Lmarena ने निष्पक्ष और प्रतिलिपि प्रस्तुत करने योग्य मूल्यांकन सुनिश्चित करने के लिए अपनी नीतियों को अपडेट किया है। चियांग ने कहा कि मंच का समुदाय केवल स्वयंसेवकों या परीक्षकों का एक समूह नहीं है, बल्कि एक संलग्न समूह है जो एआई मॉडल पर सामूहिक प्रतिक्रिया प्रदान करता है।

क्राउडसोर्स्ड बेंचमार्किंग प्लेटफार्मों के उपयोग के आसपास चल रही बहस एआई मॉडल मूल्यांकन के लिए अधिक बारीक दृष्टिकोण की आवश्यकता पर प्रकाश डालती है, एक जो सटीकता और निष्पक्षता दोनों को सुनिश्चित करने के लिए कठोर, पेशेवर आकलन के साथ सार्वजनिक इनपुट को जोड़ती है।
संबंधित लेख
एंथ्रोपिक लॉन्च कार्यक्रम एआई 'मॉडल कल्याण' का अध्ययन करने के लिए
क्या भविष्य एआई सचेत हो सकता है? यह सवाल कि क्या भविष्य के एआईएस दुनिया को एक तरह से मनुष्यों के समान अनुभव कर सकता है, पेचीदा है, फिर भी काफी हद तक अनुत्तरित है। जबकि कोई निश्चित सबूत नहीं है कि वे करेंगे, एआई लैब एंथ्रोपिक संभावना को एकमुश्त खारिज नहीं कर रहा है। गुरुवार को, एंथ्रो
लेस-अप स्कर्ट ट्रेंड्स: स्टाइलिंग टिप्स और आउटफिट आइडियाज टू रॉक उन्हें
लेस-अप स्कर्ट एक गर्म प्रवृत्ति बन गई है, जो स्त्रीत्व के एक डैश के साथ एक बोल्ड किनारे का विलय करती है। ये स्कर्ट, अपनी आंख को पकड़ने वाले लेस-अप विवरण के लिए जाने जाते हैं, फैशन प्रेमियों के लिए एक गो-टू हैं जो अपनी अलमारी को मसाला देने के लिए देख रहे हैं। चाहे आप एक नाटकीय बयान के लिए जा रहे हों या शैली का एक सूक्ष्म संकेत, जीआर के लिए हो रहा है
व्यावहारिक एआई: विकास में उत्साह और संदेह के बीच एक संतुलन
कृत्रिम बुद्धिमत्ता की कभी-कभी विकसित होने वाली दुनिया में, .NET और C# इकोसिस्टम के भीतर काम करने वाले डेवलपर्स के लिए एक संतुलित परिप्रेक्ष्य बनाए रखना आवश्यक है। जबकि एआई की क्षमता रोमांचकारी है, संदेह की एक खुराक इसके व्यावहारिक और प्रभावी एकीकरण को सुनिश्चित करती है। यह लेख एक व्यावहारिक अप्राप्य लेता है
सूचना (0)
0/200






एआई लैब्स तेजी से अपने नवीनतम मॉडलों की क्षमताओं का मूल्यांकन करने के लिए चैटबोट एरिना जैसे भीड़ -भाड़ वाले बेंचमार्किंग प्लेटफार्मों की ओर रुख कर रहे हैं। फिर भी, कुछ विशेषज्ञों का तर्क है कि यह विधि महत्वपूर्ण नैतिक और शैक्षणिक चिंताओं को बढ़ाती है।
हाल के वर्षों में, Openai, Google और Meta जैसे प्रमुख खिलाड़ियों ने ऐसे प्लेटफॉर्म का उपयोग किया है जो उपयोगकर्ताओं को अपने आगामी मॉडल के प्रदर्शन का आकलन करने के लिए संलग्न करते हैं। इन प्लेटफार्मों पर एक उच्च स्कोर को अक्सर प्रयोगशालाओं द्वारा उनके मॉडल की उन्नति के लिए एक वसीयतनामा के रूप में हाइलाइट किया जाता है। हालांकि, यह दृष्टिकोण इसके आलोचकों के बिना नहीं है।
भीड़ -भाड़ वाले बेंचमार्किंग की आलोचना
एमिली बेंडर, वाशिंगटन विश्वविद्यालय में एक भाषाविज्ञान प्रोफेसर और "द एआई कॉन" के सह-लेखक, इस तरह के बेंचमार्क, विशेष रूप से चैटबॉट एरिना की वैधता के बारे में चिंताओं को आवाज देते हैं। इस मंच में स्वयंसेवकों को दो अनाम मॉडलों से प्रतिक्रियाओं की तुलना करना और उनके पसंदीदा को चुनना शामिल है। बेंडर का तर्क है कि एक बेंचमार्क प्रभावी होने के लिए, इसे कुछ विशिष्ट मापना चाहिए और निर्माण वैधता का प्रदर्शन करना चाहिए, जिसका अर्थ है कि माप का मूल्यांकन किए जा रहे निर्माण को सही ढंग से प्रतिबिंबित करना चाहिए। वह कहती है कि चैटबॉट एरिना में इस बात के सबूतों का अभाव है कि किसी अन्य आउटपुट के लिए उपयोगकर्ता की प्राथमिकताएं किसी भी परिभाषित मानदंडों के साथ वास्तव में सहसंबंधित हैं।
AI फर्म लेसन के सह-संस्थापक और वितरित AI रिसर्च इंस्टीट्यूट के एक साथी Asmelash Teka Hadgu का सुझाव है कि इन बेंचमार्क को AI Labs द्वारा अपने मॉडलों के बारे में अतिरंजित दावे करने के लिए शोषण किया जा रहा है। उन्होंने मेटा के लामा 4 मावेरिक मॉडल के साथ एक हालिया घटना का हवाला दिया, जहां मेटा ने चैटबॉट एरिना पर अच्छा प्रदर्शन करने के लिए एक संस्करण को ठीक किया, लेकिन इसके बजाय कम प्रभावी संस्करण जारी करने के लिए चुना। हेडगु बेंचमार्क के लिए गतिशील होने के लिए वकालत करता है, कई स्वतंत्र संस्थाओं में वितरित किया जाता है, और अपने काम में इन मॉडलों का उपयोग करने वाले पेशेवरों द्वारा शिक्षा और स्वास्थ्य सेवा जैसे क्षेत्रों में विशिष्ट उपयोग के मामलों के अनुरूप होता है।
उचित मुआवजे और व्यापक मूल्यांकन विधियों के लिए कॉल
एस्पेन इंस्टीट्यूट के इमर्जेंट एंड इंटेलिजेंट टेक्नोलॉजीज पहल के पूर्व नेता हेडगु और क्रिस्टीन ग्लोरिया का तर्क है कि मूल्यांकनकर्ताओं को उनके काम के लिए मुआवजा दिया जाना चाहिए, अक्सर शोषणकारी डेटा लेबलिंग उद्योग के लिए समानताएं खींचते हैं। ग्लोरिया ने क्राउडसोर्स बेंचमार्किंग को मूल्यवान माना, नागरिक विज्ञान पहल के समान, लेकिन इस बात पर जोर दिया कि बेंचमार्क मूल्यांकन के लिए एकमात्र मीट्रिक नहीं होना चाहिए, विशेष रूप से उद्योग नवाचार की तीव्र गति को देखते हुए।
ग्रे स्वान एआई के सीईओ मैट फ्रेड्रिकसन, जो क्राउडसोर्स्ड रेड टीमिंग अभियानों का संचालन करता है, नए कौशल को सीखने और अभ्यास करने के लिए स्वयंसेवकों के लिए ऐसे प्लेटफार्मों की अपील को स्वीकार करता है। हालांकि, वह इस बात पर जोर देता है कि सार्वजनिक बेंचमार्क भुगतान, निजी आकलन द्वारा प्रदान किए गए अधिक गहन मूल्यांकन को बदल नहीं सकते हैं। फ्रेडरिकसन का सुझाव है कि डेवलपर्स को आंतरिक बेंचमार्क, एल्गोरिथम रेड टीमों और अनुबंधित विशेषज्ञों पर भी भरोसा करना चाहिए जो अधिक ओपन-एंडेड और डोमेन-विशिष्ट अंतर्दृष्टि प्रदान कर सकते हैं।
बेंचमार्किंग पर उद्योग के दृष्टिकोण
एलेक्स एटला, मॉडल मार्केटप्लेस ओपनरॉटर के सीईओ, और वी-लिन चियांग, यूसी बर्कले में एआई डॉक्टरेट छात्र और लमरेना के संस्थापकों में से एक (जो चैटबॉट एरिना का प्रबंधन करता है), सहमत हैं कि अकेले परीक्षण और बेंचमार्किंग अपर्याप्त हैं। चियांग ने जोर देकर कहा कि Lmarena का लक्ष्य अलग -अलग AI मॉडल के बारे में सामुदायिक वरीयताओं के लिए एक भरोसेमंद, खुली जगह प्रदान करना है।
मावेरिक बेंचमार्क के आसपास के विवाद को संबोधित करते हुए, चियांग स्पष्ट करता है कि इस तरह की घटनाएं चैटबॉट एरिना के डिजाइन में खामियों के कारण नहीं हैं, बल्कि प्रयोगशालाओं द्वारा अपनी नीतियों की गलत व्याख्या करते हैं। Lmarena ने निष्पक्ष और प्रतिलिपि प्रस्तुत करने योग्य मूल्यांकन सुनिश्चित करने के लिए अपनी नीतियों को अपडेट किया है। चियांग ने कहा कि मंच का समुदाय केवल स्वयंसेवकों या परीक्षकों का एक समूह नहीं है, बल्कि एक संलग्न समूह है जो एआई मॉडल पर सामूहिक प्रतिक्रिया प्रदान करता है।
क्राउडसोर्स्ड बेंचमार्किंग प्लेटफार्मों के उपयोग के आसपास चल रही बहस एआई मॉडल मूल्यांकन के लिए अधिक बारीक दृष्टिकोण की आवश्यकता पर प्रकाश डालती है, एक जो सटीकता और निष्पक्षता दोनों को सुनिश्चित करने के लिए कठोर, पेशेवर आकलन के साथ सार्वजनिक इनपुट को जोड़ती है।



अपने ऑनलाइन डेटा गोपनीयता को पुनः प्राप्त करने के लिए 5 आसान कदम - आज शुरू करें









