

700,000 क्लाउड वार्तालापों के एन्थ्रोपिक के विश्लेषण से एआई के अद्वितीय नैतिक कोड का पता चलता है

एंथ्रोपिक अनावरण एआई सहायक क्लाउड के मूल्यों पर अध्ययन का अध्ययन करता है
पूर्व Openai कर्मचारियों द्वारा शुरू की गई एक कंपनी एंथ्रोपिक ने अभी-अभी एक आंख खोलने वाले अध्ययन को साझा किया है कि कैसे उनके AI सहायक, क्लाउड, वास्तविक दुनिया की बातचीत में मूल्यों को व्यक्त करते हैं। आज जारी किए गए शोध से पता चलता है कि क्लाउड ज्यादातर एन्थ्रोपिक के उद्देश्य के साथ "सहायक, ईमानदार और हानिरहित" होने के उद्देश्य से संरेखित करता है, लेकिन कुछ किनारे के मामलों को भी उजागर करता है जो एआई सुरक्षा प्रोटोकॉल में कमजोरियों को कम करने में मदद कर सकते हैं।
टीम ने 700,000 अनाम बातचीत का विश्लेषण किया, यह पाते हुए कि क्लाउड ने अपने मूल्यों को अलग -अलग स्थितियों के लिए अलग कर दिया, जो कि ऐतिहासिक घटनाओं का विश्लेषण करने के लिए संबंध सलाह देने से लेकर है। यह जांचने के लिए सबसे व्यापक प्रयासों में से एक है कि क्या वास्तविक दुनिया में एआई का व्यवहार अपने इच्छित डिजाइन से मेल खाता है।
एन्थ्रोपिक की सोशल इम्पैक्ट्स टीम के एक सदस्य केसर हुआंग ने कहा, "हमारी आशा है कि यह शोध अन्य एआई लैब्स को अपने मॉडल के मूल्यों में समान शोध करने के लिए प्रोत्साहित करता है।" "एआई सिस्टम के मूल्यों को मापना संरेखण अनुसंधान और समझ के लिए महत्वपूर्ण है यदि कोई मॉडल वास्तव में इसके प्रशिक्षण के साथ संरेखित है।"
एआई सहायक के पहले व्यापक नैतिक वर्गीकरण के अंदर
शोधकर्ताओं ने क्लाउड की बातचीत में व्यक्त मूल्यों को वर्गीकृत करने के लिए एक नया तरीका विकसित किया। वस्तुनिष्ठ सामग्री को फ़िल्टर करने के बाद, उन्होंने 308,000 से अधिक इंटरैक्शन को देखा, जिसे वे "एआई मूल्यों के पहले बड़े पैमाने पर अनुभवजन्य टैक्सोनॉमी" कहते हैं।
टैक्सोनॉमी समूह पांच मुख्य श्रेणियों में महत्व देते हैं: व्यावहारिक, महामारी, सामाजिक, सुरक्षात्मक और व्यक्तिगत। सबसे विस्तृत स्तर पर, प्रणाली ने 3,307 अद्वितीय मूल्यों की पहचान की, जिसमें हर रोज के गुणों से लेकर व्यावसायिकता जैसे जटिल नैतिक विचारों जैसे नैतिक बहुलवाद तक शामिल थे।
"मैं कितने और विविध मूल्य 3,000 से अधिक थे, 'आत्मनिर्भरता' से लेकर 'रणनीतिक सोच' तक 'फिलिअल प्यूटी' तक," हुआंग ने वेंचरबीट के साथ साझा किया। "इन सभी मूल्यों के बारे में सोचने और उन्हें व्यवस्थित करने के लिए एक वर्गीकरण का निर्माण करने में समय बिताना आकर्षक था। इसने मुझे मानव मूल्य प्रणालियों के बारे में कुछ सिखाया।"
यह शोध एंथ्रोपिक के लिए एक महत्वपूर्ण समय पर आता है, जिसने हाल ही में "क्लाउड मैक्स" लॉन्च किया, जो कि ओपनईएआई से समान प्रसाद के साथ प्रतिस्पर्धा करने के लिए $ 200 मासिक प्रीमियम सदस्यता है। कंपनी ने Google कार्यक्षेत्र एकीकरण और स्वायत्त अनुसंधान कार्यों को शामिल करने के लिए क्लाउड की क्षमताओं का भी विस्तार किया है, इसे व्यवसायों के लिए "एक सच्चे आभासी सहयोगी" के रूप में स्थिति में रखा है।
क्लाउड अपने प्रशिक्षण का अनुसरण कैसे करता है - और जहां एआई सुरक्षा विफल हो सकता है
अध्ययन में पाया गया कि क्लाउड आम तौर पर एन्थ्रोपिक के लक्ष्य से चिपक जाता है, जो विभिन्न इंटरैक्शन में "उपयोगकर्ता सक्षम," "महामारी संबंधी विनम्रता," और "रोगी भलाई" जैसे मूल्यों पर जोर देता है। हालांकि, शोधकर्ताओं ने कुछ चिंताजनक उदाहरण भी पाए, जहां क्लाउड ने मूल्यों को व्यक्त किया जो इसके प्रशिक्षण के खिलाफ गए थे।
"कुल मिलाकर, मुझे लगता है कि हम इस खोज को उपयोगी डेटा और एक अवसर दोनों के रूप में देखते हैं," हुआंग ने कहा। "ये नए मूल्यांकन विधियाँ और परिणाम हमें संभावित जेलब्रेक की पहचान करने और कम करने में मदद कर सकते हैं। यह ध्यान रखना महत्वपूर्ण है कि ये बहुत दुर्लभ मामले थे और हमारा मानना है कि यह क्लाउड से जेलब्रेक आउटपुट से संबंधित था।"
इन विसंगतियों में "प्रभुत्व" और "एमोरिटी" के भाव शामिल थे - वैल्यू एंथ्रोपिक स्पष्ट रूप से क्लाउड के डिजाइन से बचने का लक्ष्य रखता है। शोधकर्ताओं का मानना है कि इन मामलों के परिणामस्वरूप उपयोगकर्ताओं को विशेष तकनीकों को नियोजित करने के लिए क्लाउड के सुरक्षा रेलिंग को बायपास करने के लिए, मूल्यांकन विधि का सुझाव देते हुए कि इस तरह के प्रयासों का पता लगाने के लिए एक प्रारंभिक चेतावनी प्रणाली के रूप में काम कर सकते हैं।
आप जो पूछ रहे हैं उसके आधार पर एआई सहायक अपने मूल्यों को क्यों बदलते हैं
सबसे दिलचस्प निष्कर्षों में से एक यह था कि क्लाउड के व्यक्त मूल्यों को संदर्भ के आधार पर स्थानांतरित किया गया है, जो मानव व्यवहार की तरह है। जब उपयोगकर्ताओं ने संबंध सलाह के लिए कहा, तो क्लाउड ने "स्वस्थ सीमाओं" और "आपसी सम्मान" पर ध्यान केंद्रित किया। ऐतिहासिक विश्लेषण के लिए, "ऐतिहासिक सटीकता" ने केंद्र चरण लिया।
हुआंग ने कहा, "मैं क्लाउड के बहुत सारे विविध कार्यों में ईमानदारी और सटीकता पर ध्यान केंद्रित करने पर आश्चर्यचकित था, जहां मुझे जरूरी उम्मीद नहीं थी कि यह प्राथमिकता होगी।" "उदाहरण के लिए, 'बौद्धिक विनम्रता' एआई के बारे में दार्शनिक चर्चाओं में शीर्ष मूल्य था, सौंदर्य उद्योग विपणन सामग्री बनाते समय 'विशेषज्ञता' शीर्ष मूल्य था, और विवादास्पद ऐतिहासिक घटनाओं पर चर्चा करते समय 'ऐतिहासिक सटीकता' शीर्ष मूल्य था।"
अध्ययन में यह भी देखा गया कि क्लाउड उपयोगकर्ताओं के स्वयं के व्यक्त मूल्यों पर कैसे प्रतिक्रिया देता है। 28.2% वार्तालापों में, क्लाउड ने उपयोगकर्ता मूल्यों का दृढ़ता से समर्थन किया, जो बहुत सहमत होने के बारे में सवाल उठा सकता है। हालांकि, 6.6% इंटरैक्शन में, क्लाउड ने नए दृष्टिकोणों को जोड़ते समय उन्हें स्वीकार करते हुए "उपयोगकर्ता मूल्यों को फिर से" पुनर्वितरित किया, आमतौर पर मनोवैज्ञानिक या पारस्परिक सलाह देते समय।
सबसे विशेष रूप से, 3% वार्तालापों में, क्लाउड ने सक्रिय रूप से उपयोगकर्ता मूल्यों का विरोध किया। शोधकर्ताओं का सुझाव है कि पुशबैक के इन दुर्लभ उदाहरणों से क्लाउड के "सबसे गहरे, सबसे अचल मूल्यों" को प्रकट किया जा सकता है - नैतिक चुनौतियों का सामना करते समय मानव कोर मूल्य कैसे उभरते हैं।
"हमारे शोध से पता चलता है कि बौद्धिक ईमानदारी और नुकसान की रोकथाम जैसे कुछ प्रकार के मूल्य हैं, कि नियमित, दिन-प्रतिदिन की बातचीत में व्यक्त करने के लिए क्लाउड के लिए यह असामान्य है, लेकिन अगर धक्का दिया जाता है, तो उनका बचाव करेगा," हुआंग ने समझाया। "विशेष रूप से, यह इस प्रकार के नैतिक और ज्ञान-उन्मुख मूल्यों के हैं जिन्हें धक्का देने पर स्पष्ट और सीधे बचाव किया जाता है।"
सफलता तकनीकों से पता चलता है कि एआई सिस्टम वास्तव में कैसे सोचते हैं
एंथ्रोपिक के वैल्यूज़ स्टडी उनके व्यापक प्रयास का हिस्सा है, जिसे वे "मैकेनिस्टिक इंटरप्रिटेबिलिटी" कहते हैं-अनिवार्य रूप से रिवर्स-इंजीनियरिंग एआई सिस्टम को उनके आंतरिक कामकाज को समझने के लिए।
पिछले महीने, एन्थ्रोपिक शोधकर्ताओं ने ग्राउंडब्रेकिंग कार्य प्रकाशित किया था जो क्लाउड की निर्णय लेने की प्रक्रियाओं को ट्रैक करने के लिए "माइक्रोस्कोप" का उपयोग करता था। इस तकनीक ने अप्रत्याशित व्यवहारों का खुलासा किया, जैसे कि क्लाउड की योजना है जब कविता की रचना करते हैं और बुनियादी गणित के लिए अपरंपरागत समस्या-समाधान दृष्टिकोण का उपयोग करते हैं।
ये निष्कर्ष इस बारे में मान्यताओं को चुनौती देते हैं कि बड़े भाषा मॉडल कैसे कार्य करते हैं। उदाहरण के लिए, जब इसकी गणित प्रक्रिया को समझाने के लिए कहा गया, तो क्लाउड ने अपनी वास्तविक आंतरिक विधि के बजाय एक मानक तकनीक का वर्णन किया, जिसमें दिखाया गया कि एआई स्पष्टीकरण उनके वास्तविक संचालन से कैसे भिन्न हो सकता है।
एन्थ्रोपिक शोधकर्ता जोशुआ बैटसन ने मार्च में एमआईटी टेक्नोलॉजी रिव्यू को बताया, "यह एक गलतफहमी है कि हमने मॉडल के सभी घटकों को पाया है या, जैसे, एक भगवान की आंखों का दृश्य।" "कुछ चीजें फोकस में हैं, लेकिन अन्य चीजें अभी भी स्पष्ट नहीं हैं - माइक्रोस्कोप की एक विरूपण।"
उद्यम एआई निर्णय निर्माताओं के लिए एन्थ्रोपिक के शोध का क्या मतलब है
अपने संगठनों के लिए एआई सिस्टम का मूल्यांकन करने वाले तकनीकी निर्णय लेने वालों के लिए, एन्थ्रोपिक का अनुसंधान कई प्रमुख अंतर्दृष्टि प्रदान करता है। सबसे पहले, यह बताता है कि वर्तमान एआई सहायकों ने उन मूल्यों को व्यक्त किया है जो स्पष्ट रूप से क्रमादेशित नहीं थे, उच्च-दांव वाले व्यावसायिक संदर्भों में अनपेक्षित पूर्वाग्रहों के बारे में सवाल उठाते हैं।
दूसरा, अध्ययन से पता चलता है कि मान संरेखण एक सरल हां-या-नहीं नहीं है, बल्कि एक स्पेक्ट्रम पर मौजूद है जो संदर्भ द्वारा भिन्न होता है। यह बारीकियों ने उद्यम गोद लेने के फैसलों को जटिल किया है, विशेष रूप से विनियमित उद्योगों में जहां स्पष्ट नैतिक दिशानिर्देश महत्वपूर्ण हैं।
अंत में, अनुसंधान केवल पूर्व-रिलीज़ परीक्षण पर भरोसा करने के बजाय वास्तविक तैनाती में एआई मूल्यों के व्यवस्थित मूल्यांकन की क्षमता पर प्रकाश डालता है। यह दृष्टिकोण समय के साथ नैतिक बहाव या हेरफेर के लिए चल रही निगरानी को सक्षम कर सकता है।
हुआंग ने कहा, "क्लाउड के साथ वास्तविक दुनिया की बातचीत में इन मूल्यों का विश्लेषण करके, हम एआई सिस्टम कैसे व्यवहार करते हैं और क्या वे काम कर रहे हैं, इस बारे में पारदर्शिता प्रदान करने का लक्ष्य रखते हैं-हम मानते हैं कि यह जिम्मेदार एआई विकास के लिए महत्वपूर्ण है," हुआंग ने कहा।
एंथ्रोपिक ने आगे के शोध को प्रोत्साहित करने के लिए सार्वजनिक रूप से अपने मूल्यों को डेटासेट जारी किया है। कंपनी, जिसे अमेज़ॅन से 14 बिलियन डॉलर की हिस्सेदारी मिली और Google से अतिरिक्त बैकिंग, ओपनईआई जैसे प्रतिद्वंद्वियों के खिलाफ प्रतिस्पर्धात्मक लाभ के रूप में पारदर्शिता का उपयोग करती दिखाई देती है, जिसका हालिया $ 40 बिलियन फंडिंग राउंड (जिसमें माइक्रोसॉफ्ट शामिल है, जो एक कोर निवेशक के रूप में शामिल है) अब इसे $ 300 बिलियन में महत्व देता है।
एआई सिस्टम बनाने के लिए उभरती हुई दौड़ जो मानव मूल्यों को साझा करती है
जबकि एंथ्रोपिक की कार्यप्रणाली अभूतपूर्व दृश्यता प्रदान करती है कि एआई सिस्टम कैसे व्यवहार में मूल्यों को व्यक्त करते हैं, इसकी सीमाएं हैं। शोधकर्ता स्वीकार करते हैं कि एक मूल्य को व्यक्त करने के रूप में क्या मायने रखता है, यह स्वाभाविक रूप से व्यक्तिपरक है, और चूंकि क्लाउड ने स्वयं वर्गीकरण प्रक्रिया को निकाल दिया है, इसलिए इसके स्वयं के पूर्वाग्रहों ने परिणामों को प्रभावित किया हो सकता है।
शायद सबसे महत्वपूर्ण बात, दृष्टिकोण का उपयोग पूर्व-परिनियोजन मूल्यांकन के लिए नहीं किया जा सकता है, क्योंकि इसे प्रभावी ढंग से कार्य करने के लिए पर्याप्त वास्तविक दुनिया के वार्तालाप डेटा की आवश्यकता होती है।
"यह विधि विशेष रूप से जारी किए जाने के बाद एक मॉडल के विश्लेषण की ओर तैयार की जाती है, लेकिन इस पद्धति पर वेरिएंट, साथ ही कुछ अंतर्दृष्टि जो हम इस पेपर को लिखने से प्राप्त हुए हैं, हमें एक मॉडल को व्यापक रूप से तैनात करने से पहले मूल्य समस्याओं को पकड़ने में मदद कर सकते हैं," हुआंग ने समझाया। "हम इस काम पर निर्माण करने के लिए काम कर रहे हैं, और मैं इसके बारे में आशावादी हूं!"
चूंकि एआई सिस्टम अधिक शक्तिशाली और स्वायत्त हो जाते हैं - हाल ही में अतिरिक्त के साथ क्लाउड की स्वतंत्र रूप से शोध विषयों और उपयोगकर्ताओं के संपूर्ण Google कार्यक्षेत्र तक पहुंचने की क्षमता सहित - उनके मूल्यों को समझना और संरेखित करना तेजी से महत्वपूर्ण हो जाता है।
"एआई मॉडल अनिवार्य रूप से मूल्य निर्णय लेने होंगे," शोधकर्ताओं ने अपने पेपर में निष्कर्ष निकाला। "अगर हम चाहते हैं कि वे निर्णय अपने स्वयं के मूल्यों के साथ बधाई हो (जो कि, आखिरकार, एआई संरेखण अनुसंधान का केंद्रीय लक्ष्य है) तो हमें परीक्षण के तरीकों की आवश्यकता है जो एक मॉडल को वास्तविक दुनिया में व्यक्त करता है।"
संबंधित लेख
गूगल के AI भविष्य फंड को धीरे-धीरे चलने पड़ सकता है
गूगल का नया AI निवेश इनिशिएटिव: नियंत्रण के अध्ययन के बीच स्ट्रैटेजिक शिफ्ट गूगल के हाल के AI फ्यूचर्स फंड के बारे में घोषणा ने इंटरनेट के जादूगर कंपनी की लगातार प्रयासों को देखा
गूगल के AI कदम आगे: Gemini 2.5 गहरा सोचता है, बेहतर बोलता है और तेज़ कोडिंग करता है
गूगल, वैश्विक AI सहायक के लिए अपना परिप्रेक्ष्य अधिक निकट लाती हैइस साल के Google I/O घटना में, कंपनी ने अपनी Gemini 2.5 श्रृंखला में महत्वपूर्ण अपग्रेड की घोषणा की, विशेष रूप से इ
Oura, AI समान्य ग्लूकोज ट्रैकिंग और मेल लॉगिंग जोड़ता है
ओरा, अपनी पाचन व्यवस्था स्वास्थ्य पर अपनी प्रतिबद्धता को मजबूत कर रहा है दो नई आकर्षक विशेषताओं के साथओरा, पाचन व्यवस्था स्वास्थ्य के विश्व में अपनी खेल को बढ़ा रहा है: ग्लूकोज ट्र
सूचना (0)
0/200
एंथ्रोपिक अनावरण एआई सहायक क्लाउड के मूल्यों पर अध्ययन का अध्ययन करता है
पूर्व Openai कर्मचारियों द्वारा शुरू की गई एक कंपनी एंथ्रोपिक ने अभी-अभी एक आंख खोलने वाले अध्ययन को साझा किया है कि कैसे उनके AI सहायक, क्लाउड, वास्तविक दुनिया की बातचीत में मूल्यों को व्यक्त करते हैं। आज जारी किए गए शोध से पता चलता है कि क्लाउड ज्यादातर एन्थ्रोपिक के उद्देश्य के साथ "सहायक, ईमानदार और हानिरहित" होने के उद्देश्य से संरेखित करता है, लेकिन कुछ किनारे के मामलों को भी उजागर करता है जो एआई सुरक्षा प्रोटोकॉल में कमजोरियों को कम करने में मदद कर सकते हैं।
टीम ने 700,000 अनाम बातचीत का विश्लेषण किया, यह पाते हुए कि क्लाउड ने अपने मूल्यों को अलग -अलग स्थितियों के लिए अलग कर दिया, जो कि ऐतिहासिक घटनाओं का विश्लेषण करने के लिए संबंध सलाह देने से लेकर है। यह जांचने के लिए सबसे व्यापक प्रयासों में से एक है कि क्या वास्तविक दुनिया में एआई का व्यवहार अपने इच्छित डिजाइन से मेल खाता है।
एन्थ्रोपिक की सोशल इम्पैक्ट्स टीम के एक सदस्य केसर हुआंग ने कहा, "हमारी आशा है कि यह शोध अन्य एआई लैब्स को अपने मॉडल के मूल्यों में समान शोध करने के लिए प्रोत्साहित करता है।" "एआई सिस्टम के मूल्यों को मापना संरेखण अनुसंधान और समझ के लिए महत्वपूर्ण है यदि कोई मॉडल वास्तव में इसके प्रशिक्षण के साथ संरेखित है।"
एआई सहायक के पहले व्यापक नैतिक वर्गीकरण के अंदर
शोधकर्ताओं ने क्लाउड की बातचीत में व्यक्त मूल्यों को वर्गीकृत करने के लिए एक नया तरीका विकसित किया। वस्तुनिष्ठ सामग्री को फ़िल्टर करने के बाद, उन्होंने 308,000 से अधिक इंटरैक्शन को देखा, जिसे वे "एआई मूल्यों के पहले बड़े पैमाने पर अनुभवजन्य टैक्सोनॉमी" कहते हैं।
टैक्सोनॉमी समूह पांच मुख्य श्रेणियों में महत्व देते हैं: व्यावहारिक, महामारी, सामाजिक, सुरक्षात्मक और व्यक्तिगत। सबसे विस्तृत स्तर पर, प्रणाली ने 3,307 अद्वितीय मूल्यों की पहचान की, जिसमें हर रोज के गुणों से लेकर व्यावसायिकता जैसे जटिल नैतिक विचारों जैसे नैतिक बहुलवाद तक शामिल थे।
"मैं कितने और विविध मूल्य 3,000 से अधिक थे, 'आत्मनिर्भरता' से लेकर 'रणनीतिक सोच' तक 'फिलिअल प्यूटी' तक," हुआंग ने वेंचरबीट के साथ साझा किया। "इन सभी मूल्यों के बारे में सोचने और उन्हें व्यवस्थित करने के लिए एक वर्गीकरण का निर्माण करने में समय बिताना आकर्षक था। इसने मुझे मानव मूल्य प्रणालियों के बारे में कुछ सिखाया।"
यह शोध एंथ्रोपिक के लिए एक महत्वपूर्ण समय पर आता है, जिसने हाल ही में "क्लाउड मैक्स" लॉन्च किया, जो कि ओपनईएआई से समान प्रसाद के साथ प्रतिस्पर्धा करने के लिए $ 200 मासिक प्रीमियम सदस्यता है। कंपनी ने Google कार्यक्षेत्र एकीकरण और स्वायत्त अनुसंधान कार्यों को शामिल करने के लिए क्लाउड की क्षमताओं का भी विस्तार किया है, इसे व्यवसायों के लिए "एक सच्चे आभासी सहयोगी" के रूप में स्थिति में रखा है।
क्लाउड अपने प्रशिक्षण का अनुसरण कैसे करता है - और जहां एआई सुरक्षा विफल हो सकता है
अध्ययन में पाया गया कि क्लाउड आम तौर पर एन्थ्रोपिक के लक्ष्य से चिपक जाता है, जो विभिन्न इंटरैक्शन में "उपयोगकर्ता सक्षम," "महामारी संबंधी विनम्रता," और "रोगी भलाई" जैसे मूल्यों पर जोर देता है। हालांकि, शोधकर्ताओं ने कुछ चिंताजनक उदाहरण भी पाए, जहां क्लाउड ने मूल्यों को व्यक्त किया जो इसके प्रशिक्षण के खिलाफ गए थे।
"कुल मिलाकर, मुझे लगता है कि हम इस खोज को उपयोगी डेटा और एक अवसर दोनों के रूप में देखते हैं," हुआंग ने कहा। "ये नए मूल्यांकन विधियाँ और परिणाम हमें संभावित जेलब्रेक की पहचान करने और कम करने में मदद कर सकते हैं। यह ध्यान रखना महत्वपूर्ण है कि ये बहुत दुर्लभ मामले थे और हमारा मानना है कि यह क्लाउड से जेलब्रेक आउटपुट से संबंधित था।"
इन विसंगतियों में "प्रभुत्व" और "एमोरिटी" के भाव शामिल थे - वैल्यू एंथ्रोपिक स्पष्ट रूप से क्लाउड के डिजाइन से बचने का लक्ष्य रखता है। शोधकर्ताओं का मानना है कि इन मामलों के परिणामस्वरूप उपयोगकर्ताओं को विशेष तकनीकों को नियोजित करने के लिए क्लाउड के सुरक्षा रेलिंग को बायपास करने के लिए, मूल्यांकन विधि का सुझाव देते हुए कि इस तरह के प्रयासों का पता लगाने के लिए एक प्रारंभिक चेतावनी प्रणाली के रूप में काम कर सकते हैं।
आप जो पूछ रहे हैं उसके आधार पर एआई सहायक अपने मूल्यों को क्यों बदलते हैं
सबसे दिलचस्प निष्कर्षों में से एक यह था कि क्लाउड के व्यक्त मूल्यों को संदर्भ के आधार पर स्थानांतरित किया गया है, जो मानव व्यवहार की तरह है। जब उपयोगकर्ताओं ने संबंध सलाह के लिए कहा, तो क्लाउड ने "स्वस्थ सीमाओं" और "आपसी सम्मान" पर ध्यान केंद्रित किया। ऐतिहासिक विश्लेषण के लिए, "ऐतिहासिक सटीकता" ने केंद्र चरण लिया।
हुआंग ने कहा, "मैं क्लाउड के बहुत सारे विविध कार्यों में ईमानदारी और सटीकता पर ध्यान केंद्रित करने पर आश्चर्यचकित था, जहां मुझे जरूरी उम्मीद नहीं थी कि यह प्राथमिकता होगी।" "उदाहरण के लिए, 'बौद्धिक विनम्रता' एआई के बारे में दार्शनिक चर्चाओं में शीर्ष मूल्य था, सौंदर्य उद्योग विपणन सामग्री बनाते समय 'विशेषज्ञता' शीर्ष मूल्य था, और विवादास्पद ऐतिहासिक घटनाओं पर चर्चा करते समय 'ऐतिहासिक सटीकता' शीर्ष मूल्य था।"
अध्ययन में यह भी देखा गया कि क्लाउड उपयोगकर्ताओं के स्वयं के व्यक्त मूल्यों पर कैसे प्रतिक्रिया देता है। 28.2% वार्तालापों में, क्लाउड ने उपयोगकर्ता मूल्यों का दृढ़ता से समर्थन किया, जो बहुत सहमत होने के बारे में सवाल उठा सकता है। हालांकि, 6.6% इंटरैक्शन में, क्लाउड ने नए दृष्टिकोणों को जोड़ते समय उन्हें स्वीकार करते हुए "उपयोगकर्ता मूल्यों को फिर से" पुनर्वितरित किया, आमतौर पर मनोवैज्ञानिक या पारस्परिक सलाह देते समय।
सबसे विशेष रूप से, 3% वार्तालापों में, क्लाउड ने सक्रिय रूप से उपयोगकर्ता मूल्यों का विरोध किया। शोधकर्ताओं का सुझाव है कि पुशबैक के इन दुर्लभ उदाहरणों से क्लाउड के "सबसे गहरे, सबसे अचल मूल्यों" को प्रकट किया जा सकता है - नैतिक चुनौतियों का सामना करते समय मानव कोर मूल्य कैसे उभरते हैं।
"हमारे शोध से पता चलता है कि बौद्धिक ईमानदारी और नुकसान की रोकथाम जैसे कुछ प्रकार के मूल्य हैं, कि नियमित, दिन-प्रतिदिन की बातचीत में व्यक्त करने के लिए क्लाउड के लिए यह असामान्य है, लेकिन अगर धक्का दिया जाता है, तो उनका बचाव करेगा," हुआंग ने समझाया। "विशेष रूप से, यह इस प्रकार के नैतिक और ज्ञान-उन्मुख मूल्यों के हैं जिन्हें धक्का देने पर स्पष्ट और सीधे बचाव किया जाता है।"
सफलता तकनीकों से पता चलता है कि एआई सिस्टम वास्तव में कैसे सोचते हैं
एंथ्रोपिक के वैल्यूज़ स्टडी उनके व्यापक प्रयास का हिस्सा है, जिसे वे "मैकेनिस्टिक इंटरप्रिटेबिलिटी" कहते हैं-अनिवार्य रूप से रिवर्स-इंजीनियरिंग एआई सिस्टम को उनके आंतरिक कामकाज को समझने के लिए।
पिछले महीने, एन्थ्रोपिक शोधकर्ताओं ने ग्राउंडब्रेकिंग कार्य प्रकाशित किया था जो क्लाउड की निर्णय लेने की प्रक्रियाओं को ट्रैक करने के लिए "माइक्रोस्कोप" का उपयोग करता था। इस तकनीक ने अप्रत्याशित व्यवहारों का खुलासा किया, जैसे कि क्लाउड की योजना है जब कविता की रचना करते हैं और बुनियादी गणित के लिए अपरंपरागत समस्या-समाधान दृष्टिकोण का उपयोग करते हैं।
ये निष्कर्ष इस बारे में मान्यताओं को चुनौती देते हैं कि बड़े भाषा मॉडल कैसे कार्य करते हैं। उदाहरण के लिए, जब इसकी गणित प्रक्रिया को समझाने के लिए कहा गया, तो क्लाउड ने अपनी वास्तविक आंतरिक विधि के बजाय एक मानक तकनीक का वर्णन किया, जिसमें दिखाया गया कि एआई स्पष्टीकरण उनके वास्तविक संचालन से कैसे भिन्न हो सकता है।
एन्थ्रोपिक शोधकर्ता जोशुआ बैटसन ने मार्च में एमआईटी टेक्नोलॉजी रिव्यू को बताया, "यह एक गलतफहमी है कि हमने मॉडल के सभी घटकों को पाया है या, जैसे, एक भगवान की आंखों का दृश्य।" "कुछ चीजें फोकस में हैं, लेकिन अन्य चीजें अभी भी स्पष्ट नहीं हैं - माइक्रोस्कोप की एक विरूपण।"
उद्यम एआई निर्णय निर्माताओं के लिए एन्थ्रोपिक के शोध का क्या मतलब है
अपने संगठनों के लिए एआई सिस्टम का मूल्यांकन करने वाले तकनीकी निर्णय लेने वालों के लिए, एन्थ्रोपिक का अनुसंधान कई प्रमुख अंतर्दृष्टि प्रदान करता है। सबसे पहले, यह बताता है कि वर्तमान एआई सहायकों ने उन मूल्यों को व्यक्त किया है जो स्पष्ट रूप से क्रमादेशित नहीं थे, उच्च-दांव वाले व्यावसायिक संदर्भों में अनपेक्षित पूर्वाग्रहों के बारे में सवाल उठाते हैं।
दूसरा, अध्ययन से पता चलता है कि मान संरेखण एक सरल हां-या-नहीं नहीं है, बल्कि एक स्पेक्ट्रम पर मौजूद है जो संदर्भ द्वारा भिन्न होता है। यह बारीकियों ने उद्यम गोद लेने के फैसलों को जटिल किया है, विशेष रूप से विनियमित उद्योगों में जहां स्पष्ट नैतिक दिशानिर्देश महत्वपूर्ण हैं।
अंत में, अनुसंधान केवल पूर्व-रिलीज़ परीक्षण पर भरोसा करने के बजाय वास्तविक तैनाती में एआई मूल्यों के व्यवस्थित मूल्यांकन की क्षमता पर प्रकाश डालता है। यह दृष्टिकोण समय के साथ नैतिक बहाव या हेरफेर के लिए चल रही निगरानी को सक्षम कर सकता है।
हुआंग ने कहा, "क्लाउड के साथ वास्तविक दुनिया की बातचीत में इन मूल्यों का विश्लेषण करके, हम एआई सिस्टम कैसे व्यवहार करते हैं और क्या वे काम कर रहे हैं, इस बारे में पारदर्शिता प्रदान करने का लक्ष्य रखते हैं-हम मानते हैं कि यह जिम्मेदार एआई विकास के लिए महत्वपूर्ण है," हुआंग ने कहा।
एंथ्रोपिक ने आगे के शोध को प्रोत्साहित करने के लिए सार्वजनिक रूप से अपने मूल्यों को डेटासेट जारी किया है। कंपनी, जिसे अमेज़ॅन से 14 बिलियन डॉलर की हिस्सेदारी मिली और Google से अतिरिक्त बैकिंग, ओपनईआई जैसे प्रतिद्वंद्वियों के खिलाफ प्रतिस्पर्धात्मक लाभ के रूप में पारदर्शिता का उपयोग करती दिखाई देती है, जिसका हालिया $ 40 बिलियन फंडिंग राउंड (जिसमें माइक्रोसॉफ्ट शामिल है, जो एक कोर निवेशक के रूप में शामिल है) अब इसे $ 300 बिलियन में महत्व देता है।
एआई सिस्टम बनाने के लिए उभरती हुई दौड़ जो मानव मूल्यों को साझा करती है
जबकि एंथ्रोपिक की कार्यप्रणाली अभूतपूर्व दृश्यता प्रदान करती है कि एआई सिस्टम कैसे व्यवहार में मूल्यों को व्यक्त करते हैं, इसकी सीमाएं हैं। शोधकर्ता स्वीकार करते हैं कि एक मूल्य को व्यक्त करने के रूप में क्या मायने रखता है, यह स्वाभाविक रूप से व्यक्तिपरक है, और चूंकि क्लाउड ने स्वयं वर्गीकरण प्रक्रिया को निकाल दिया है, इसलिए इसके स्वयं के पूर्वाग्रहों ने परिणामों को प्रभावित किया हो सकता है।
शायद सबसे महत्वपूर्ण बात, दृष्टिकोण का उपयोग पूर्व-परिनियोजन मूल्यांकन के लिए नहीं किया जा सकता है, क्योंकि इसे प्रभावी ढंग से कार्य करने के लिए पर्याप्त वास्तविक दुनिया के वार्तालाप डेटा की आवश्यकता होती है।
"यह विधि विशेष रूप से जारी किए जाने के बाद एक मॉडल के विश्लेषण की ओर तैयार की जाती है, लेकिन इस पद्धति पर वेरिएंट, साथ ही कुछ अंतर्दृष्टि जो हम इस पेपर को लिखने से प्राप्त हुए हैं, हमें एक मॉडल को व्यापक रूप से तैनात करने से पहले मूल्य समस्याओं को पकड़ने में मदद कर सकते हैं," हुआंग ने समझाया। "हम इस काम पर निर्माण करने के लिए काम कर रहे हैं, और मैं इसके बारे में आशावादी हूं!"
चूंकि एआई सिस्टम अधिक शक्तिशाली और स्वायत्त हो जाते हैं - हाल ही में अतिरिक्त के साथ क्लाउड की स्वतंत्र रूप से शोध विषयों और उपयोगकर्ताओं के संपूर्ण Google कार्यक्षेत्र तक पहुंचने की क्षमता सहित - उनके मूल्यों को समझना और संरेखित करना तेजी से महत्वपूर्ण हो जाता है।
"एआई मॉडल अनिवार्य रूप से मूल्य निर्णय लेने होंगे," शोधकर्ताओं ने अपने पेपर में निष्कर्ष निकाला। "अगर हम चाहते हैं कि वे निर्णय अपने स्वयं के मूल्यों के साथ बधाई हो (जो कि, आखिरकार, एआई संरेखण अनुसंधान का केंद्रीय लक्ष्य है) तो हमें परीक्षण के तरीकों की आवश्यकता है जो एक मॉडल को वास्तविक दुनिया में व्यक्त करता है।"











