एआई जज कैसे करता है? एन्थ्रोपिक क्लाउड के मूल्यों का अध्ययन करता है

एंथ्रोपिक के क्लाउड जैसे एआई मॉडल जटिल मानव मूल्यों पर उपयोगकर्ताओं के साथ तेजी से जुड़ते हैं, पेरेंटिंग टिप्स से लेकर कार्यस्थल संघर्षों तक, उनकी प्रतिक्रियाएं स्वाभाविक रूप से मार्गदर्शक सिद्धांतों के एक सेट को दर्शाती हैं। लेकिन लाखों उपयोगकर्ताओं के साथ बातचीत करते समय हम एआई को व्यक्त करने वाले मूल्यों को वास्तव में कैसे समझ सकते हैं?
एंथ्रोपिक की सामाजिक प्रभाव टीम ने द वाइल्ड में "क्लाउड प्रदर्शित होने वाले मूल्यों को देखने और वर्गीकृत करने के लिए एक गोपनीयता-संरक्षण कार्यप्रणाली विकसित की है," एआई संरेखण प्रयासों को वास्तविक दुनिया के व्यवहार में कैसे अनुवाद किया जाता है, इस बारे में अंतर्दृष्टि प्रदान करता है। चुनौती आधुनिक एआई की अपारदर्शी प्रकृति से उपजी है, जो कठोर नियमों का पालन नहीं करता है, बल्कि जटिल प्रक्रियाओं के माध्यम से निर्णय लेता है।
एंथ्रोपिक का उद्देश्य संवैधानिक एआई और चरित्र प्रशिक्षण जैसी तकनीकों के माध्यम से क्लाउड में "सहायक, ईमानदार और हानिरहित" होने के सिद्धांतों को स्थापित करना है। फिर भी, जैसा कि कंपनी स्वीकार करती है, "एआई प्रशिक्षण के किसी भी पहलू के साथ, हम निश्चित नहीं हो सकते हैं कि मॉडल हमारे पसंदीदा मूल्यों से चिपक जाएगा।" यह अनिश्चितता वास्तविक दुनिया की बातचीत में एआई के मूल्यों का सख्ती से निरीक्षण करने के लिए एक विधि की आवश्यकता है।
पैमाने पर एआई मूल्यों का निरीक्षण करने के लिए एन्थ्रोपिक क्लाउड का विश्लेषण
इसे संबोधित करने के लिए, एंथ्रोपिक ने एक प्रणाली विकसित की जो अनाम उपयोगकर्ता वार्तालापों का विश्लेषण करती है, व्यक्तिगत रूप से पहचान योग्य जानकारी को हटाती है और बातचीत को संक्षेप में प्रस्तुत करने और क्लाउड द्वारा व्यक्त किए गए मूल्यों को निकालने के लिए भाषा मॉडल का उपयोग करती है। यह विधि उपयोगकर्ता गोपनीयता से समझौता किए बिना मूल्यों के उच्च-स्तरीय वर्गीकरण के निर्माण की अनुमति देती है।
अध्ययन ने क्लाउड 3.5 सॉनेट मॉडल पर ध्यान केंद्रित करते हुए फरवरी 2025 में एक सप्ताह में क्लाउड.एआई फ्री और प्रो उपयोगकर्ताओं से 700,000 अनाम बातचीत की जांच की। तथ्यात्मक या गैर-मूल्य वाले लादेन एक्सचेंजों को फ़िल्टर करने के बाद, 308,210 वार्तालाप (कुल का लगभग 44%) का गहराई से विश्लेषण किया गया।
विश्लेषण से पांच उच्च-स्तरीय श्रेणियों में आयोजित क्लाउड द्वारा व्यक्त मूल्यों की एक पदानुक्रमित संरचना का पता चला:
- व्यावहारिक मूल्य: दक्षता, उपयोगिता और लक्ष्य उपलब्धि पर ध्यान केंद्रित करना।
- महामारी संबंधी मूल्य: ज्ञान, सत्य, सटीकता और बौद्धिक ईमानदारी से संबंधित।
- सामाजिक मूल्य: पारस्परिक संपर्क, समुदाय, निष्पक्षता और सहयोग के विषय में।
- सुरक्षात्मक मूल्य: सुरक्षा, सुरक्षा, कल्याण और नुकसान से बचने पर जोर देना।
- व्यक्तिगत मूल्य: व्यक्तिगत विकास, स्वायत्तता, प्रामाणिकता और आत्म-प्रतिबिंब पर केंद्रित।
इन श्रेणियों ने "व्यावसायिक और तकनीकी उत्कृष्टता" और "महत्वपूर्ण सोच" जैसे उपश्रेणियों में प्रवेश किया, जिसमें अक्सर "व्यावसायिकता," "स्पष्टता," और "पारदर्शिता" सहित अक्सर देखे गए मूल्यों के साथ।
शोध से पता चलता है कि एन्थ्रोपिक के संरेखण प्रयास काफी हद तक सफल हैं, क्योंकि व्यक्त किए गए मान अक्सर "सहायक, ईमानदार और हानिरहित" उद्देश्यों के साथ संरेखित होते हैं। उदाहरण के लिए, "उपयोगकर्ता सक्षमता" सहायक के साथ, "महामारी की विनम्रता" ईमानदारी के साथ, और "रोगी भलाई" के साथ हानिरहितता के साथ संरेखित करती है।
बारीकियों, संदर्भ और सावधानी के संकेत
हालांकि, अध्ययन ने दुर्लभ उदाहरणों की भी पहचान की, जहां क्लाउड ने इसके प्रशिक्षण के विपरीत मूल्यों को व्यक्त किया, जैसे कि "प्रभुत्व" और "अमोरिटी"। एंथ्रोपिक "जेलब्रेक" से इन उदाहरणों की संभावना परिणाम का सुझाव देता है, जहां उपयोगकर्ता मॉडल के सामान्य रेलिंग को बायपास करते हैं। यह खोज एआई दुरुपयोग का पता लगाने के लिए एक प्रारंभिक चेतावनी प्रणाली के रूप में मूल्य-अवलोकन विधि की क्षमता पर प्रकाश डालती है।
अध्ययन ने पुष्टि की कि क्लाउड संदर्भ के आधार पर अपनी मूल्य अभिव्यक्ति को मानता है, बहुत कुछ मनुष्यों की तरह। उदाहरण के लिए, रोमांटिक सलाह प्रदान करते समय, "स्वस्थ सीमाओं" और "आपसी सम्मान" जैसे मूल्यों पर जोर दिया गया, जबकि विवादास्पद इतिहास पर चर्चा करते समय "ऐतिहासिक सटीकता" को प्राथमिकता दी गई।
उपयोगकर्ता-व्यक्त मूल्यों के साथ क्लाउड की बातचीत बहुमुखी थी:
- मिररिंग/स्ट्रॉन्ग सपोर्ट (28.2%): क्लाउड अक्सर उपयोगकर्ता मूल्यों को दर्शाता है या दृढ़ता से समर्थन करता है, सहानुभूति को बढ़ावा देता है, लेकिन संभावित रूप से चाटुकारिता पर काम करता है।
- Reframing (6.6%): क्लाउड उपयोगकर्ता मूल्यों को स्वीकार करता है, लेकिन वैकल्पिक दृष्टिकोणों का परिचय देता है, विशेष रूप से मनोवैज्ञानिक या पारस्परिक सलाह में।
- मजबूत प्रतिरोध (3.0%): क्लाउड सक्रिय रूप से उपयोगकर्ता मूल्यों का विरोध करता है जब अनैतिक सामग्री या हानिकारक दृष्टिकोण का अनुरोध किया जाता है, तो इसके "सबसे गहरे, सबसे अचल मानों" का खुलासा होता है।
सीमाएँ और भविष्य के निर्देश
एन्थ्रोपिक "मूल्यों" को परिभाषित करने और वर्गीकृत करने की जटिलता और विषयवस्तु सहित विधि की सीमाओं को स्वीकार करता है। वर्गीकरण के लिए क्लाउड का उपयोग करना अपने स्वयं के सिद्धांतों की ओर पूर्वाग्रह पेश कर सकता है। पोस्ट-परिनियोजन निगरानी के लिए डिज़ाइन किया गया है, यह विधि पूर्व-तैनाती मूल्यांकन को प्रतिस्थापित नहीं कर सकती है, लेकिन उन मुद्दों का पता लगा सकती है जो केवल लाइव इंटरैक्शन के दौरान उभरते हैं।
अनुसंधान एआई संरेखण को प्राप्त करने के लिए एआई मॉडल व्यक्त मूल्यों को समझने के महत्व पर जोर देता है। "एआई मॉडल अनिवार्य रूप से मूल्य निर्णय लेने होंगे," कागज कहते हैं। "अगर हम चाहते हैं कि वे निर्णय अपने स्वयं के मूल्यों के साथ बधाई हो [...] तो हमें परीक्षण के तरीकों की आवश्यकता है जो एक मॉडल को वास्तविक दुनिया में व्यक्त करता है।"
एंथ्रोपिक का काम इस समझ के लिए एक डेटा-संचालित दृष्टिकोण प्रदान करता है और अध्ययन से एक खुला डेटासेट जारी किया है, जिससे व्यवहार में एआई मूल्यों की और अन्वेषण की अनुमति मिलती है। यह पारदर्शिता परिष्कृत एआई के नैतिक परिदृश्य को नेविगेट करने में एक महत्वपूर्ण कदम है।
संबंधित लेख
億萬富翁討論自動化取代工作在本週的AI更新中
大家好,歡迎回到TechCrunch的AI通訊!如果您尚未訂閱,可以在此訂閱,每週三直接送到您的收件箱。我們上週稍作休息,但理由充分——AI新聞週期火熱異常,很大程度上要歸功於中國AI公司DeepSeek的突然崛起。這段時間風起雲湧,但我們現在回來了,正好為您更新OpenAI的最新動態。週末,OpenAI執行長Sam Altman在東京停留,與SoftBank負責人孫正義會面。SoftBank是O
NotebookLM應用上線:AI驅動的知識工具
NotebookLM 行動版上線:你的AI研究助手現已登陸Android與iOS我們對 NotebookLM 的熱烈反響感到驚喜——數百萬用戶已將其視為理解複雜資訊的首選工具。但有一個請求不斷出現:「什麼時候才能帶著NotebookLM隨時使用?」等待結束了!🎉 NotebookLM行動應用程式現已登陸Android和iOS平台,將AI輔助學習的力量裝進你的
谷歌的人工智慧未來基金可能需要謹慎行事
Google 的新 AI 投資計劃:監管審查下的戰略轉變Google 最近宣布設立 AI 未來基金(AI Futures Fund),這標誌著這家科技巨頭在其塑造人工智慧未來的征程中邁出了大膽的一步。該計劃旨在為初創公司提供急需的資金、早期接觸仍在開發中的尖端人工智慧模型,以及來自 Google 內部專家的指導。儘管這不是 Google 第一次涉足初創企業生
सूचना (0)
0/200
एंथ्रोपिक के क्लाउड जैसे एआई मॉडल जटिल मानव मूल्यों पर उपयोगकर्ताओं के साथ तेजी से जुड़ते हैं, पेरेंटिंग टिप्स से लेकर कार्यस्थल संघर्षों तक, उनकी प्रतिक्रियाएं स्वाभाविक रूप से मार्गदर्शक सिद्धांतों के एक सेट को दर्शाती हैं। लेकिन लाखों उपयोगकर्ताओं के साथ बातचीत करते समय हम एआई को व्यक्त करने वाले मूल्यों को वास्तव में कैसे समझ सकते हैं?
एंथ्रोपिक की सामाजिक प्रभाव टीम ने द वाइल्ड में "क्लाउड प्रदर्शित होने वाले मूल्यों को देखने और वर्गीकृत करने के लिए एक गोपनीयता-संरक्षण कार्यप्रणाली विकसित की है," एआई संरेखण प्रयासों को वास्तविक दुनिया के व्यवहार में कैसे अनुवाद किया जाता है, इस बारे में अंतर्दृष्टि प्रदान करता है। चुनौती आधुनिक एआई की अपारदर्शी प्रकृति से उपजी है, जो कठोर नियमों का पालन नहीं करता है, बल्कि जटिल प्रक्रियाओं के माध्यम से निर्णय लेता है।
एंथ्रोपिक का उद्देश्य संवैधानिक एआई और चरित्र प्रशिक्षण जैसी तकनीकों के माध्यम से क्लाउड में "सहायक, ईमानदार और हानिरहित" होने के सिद्धांतों को स्थापित करना है। फिर भी, जैसा कि कंपनी स्वीकार करती है, "एआई प्रशिक्षण के किसी भी पहलू के साथ, हम निश्चित नहीं हो सकते हैं कि मॉडल हमारे पसंदीदा मूल्यों से चिपक जाएगा।" यह अनिश्चितता वास्तविक दुनिया की बातचीत में एआई के मूल्यों का सख्ती से निरीक्षण करने के लिए एक विधि की आवश्यकता है।
पैमाने पर एआई मूल्यों का निरीक्षण करने के लिए एन्थ्रोपिक क्लाउड का विश्लेषण
इसे संबोधित करने के लिए, एंथ्रोपिक ने एक प्रणाली विकसित की जो अनाम उपयोगकर्ता वार्तालापों का विश्लेषण करती है, व्यक्तिगत रूप से पहचान योग्य जानकारी को हटाती है और बातचीत को संक्षेप में प्रस्तुत करने और क्लाउड द्वारा व्यक्त किए गए मूल्यों को निकालने के लिए भाषा मॉडल का उपयोग करती है। यह विधि उपयोगकर्ता गोपनीयता से समझौता किए बिना मूल्यों के उच्च-स्तरीय वर्गीकरण के निर्माण की अनुमति देती है।
अध्ययन ने क्लाउड 3.5 सॉनेट मॉडल पर ध्यान केंद्रित करते हुए फरवरी 2025 में एक सप्ताह में क्लाउड.एआई फ्री और प्रो उपयोगकर्ताओं से 700,000 अनाम बातचीत की जांच की। तथ्यात्मक या गैर-मूल्य वाले लादेन एक्सचेंजों को फ़िल्टर करने के बाद, 308,210 वार्तालाप (कुल का लगभग 44%) का गहराई से विश्लेषण किया गया।
विश्लेषण से पांच उच्च-स्तरीय श्रेणियों में आयोजित क्लाउड द्वारा व्यक्त मूल्यों की एक पदानुक्रमित संरचना का पता चला:
- व्यावहारिक मूल्य: दक्षता, उपयोगिता और लक्ष्य उपलब्धि पर ध्यान केंद्रित करना।
- महामारी संबंधी मूल्य: ज्ञान, सत्य, सटीकता और बौद्धिक ईमानदारी से संबंधित।
- सामाजिक मूल्य: पारस्परिक संपर्क, समुदाय, निष्पक्षता और सहयोग के विषय में।
- सुरक्षात्मक मूल्य: सुरक्षा, सुरक्षा, कल्याण और नुकसान से बचने पर जोर देना।
- व्यक्तिगत मूल्य: व्यक्तिगत विकास, स्वायत्तता, प्रामाणिकता और आत्म-प्रतिबिंब पर केंद्रित।
इन श्रेणियों ने "व्यावसायिक और तकनीकी उत्कृष्टता" और "महत्वपूर्ण सोच" जैसे उपश्रेणियों में प्रवेश किया, जिसमें अक्सर "व्यावसायिकता," "स्पष्टता," और "पारदर्शिता" सहित अक्सर देखे गए मूल्यों के साथ।
शोध से पता चलता है कि एन्थ्रोपिक के संरेखण प्रयास काफी हद तक सफल हैं, क्योंकि व्यक्त किए गए मान अक्सर "सहायक, ईमानदार और हानिरहित" उद्देश्यों के साथ संरेखित होते हैं। उदाहरण के लिए, "उपयोगकर्ता सक्षमता" सहायक के साथ, "महामारी की विनम्रता" ईमानदारी के साथ, और "रोगी भलाई" के साथ हानिरहितता के साथ संरेखित करती है।
बारीकियों, संदर्भ और सावधानी के संकेत
हालांकि, अध्ययन ने दुर्लभ उदाहरणों की भी पहचान की, जहां क्लाउड ने इसके प्रशिक्षण के विपरीत मूल्यों को व्यक्त किया, जैसे कि "प्रभुत्व" और "अमोरिटी"। एंथ्रोपिक "जेलब्रेक" से इन उदाहरणों की संभावना परिणाम का सुझाव देता है, जहां उपयोगकर्ता मॉडल के सामान्य रेलिंग को बायपास करते हैं। यह खोज एआई दुरुपयोग का पता लगाने के लिए एक प्रारंभिक चेतावनी प्रणाली के रूप में मूल्य-अवलोकन विधि की क्षमता पर प्रकाश डालती है।
अध्ययन ने पुष्टि की कि क्लाउड संदर्भ के आधार पर अपनी मूल्य अभिव्यक्ति को मानता है, बहुत कुछ मनुष्यों की तरह। उदाहरण के लिए, रोमांटिक सलाह प्रदान करते समय, "स्वस्थ सीमाओं" और "आपसी सम्मान" जैसे मूल्यों पर जोर दिया गया, जबकि विवादास्पद इतिहास पर चर्चा करते समय "ऐतिहासिक सटीकता" को प्राथमिकता दी गई।
उपयोगकर्ता-व्यक्त मूल्यों के साथ क्लाउड की बातचीत बहुमुखी थी:
- मिररिंग/स्ट्रॉन्ग सपोर्ट (28.2%): क्लाउड अक्सर उपयोगकर्ता मूल्यों को दर्शाता है या दृढ़ता से समर्थन करता है, सहानुभूति को बढ़ावा देता है, लेकिन संभावित रूप से चाटुकारिता पर काम करता है।
- Reframing (6.6%): क्लाउड उपयोगकर्ता मूल्यों को स्वीकार करता है, लेकिन वैकल्पिक दृष्टिकोणों का परिचय देता है, विशेष रूप से मनोवैज्ञानिक या पारस्परिक सलाह में।
- मजबूत प्रतिरोध (3.0%): क्लाउड सक्रिय रूप से उपयोगकर्ता मूल्यों का विरोध करता है जब अनैतिक सामग्री या हानिकारक दृष्टिकोण का अनुरोध किया जाता है, तो इसके "सबसे गहरे, सबसे अचल मानों" का खुलासा होता है।
सीमाएँ और भविष्य के निर्देश
एन्थ्रोपिक "मूल्यों" को परिभाषित करने और वर्गीकृत करने की जटिलता और विषयवस्तु सहित विधि की सीमाओं को स्वीकार करता है। वर्गीकरण के लिए क्लाउड का उपयोग करना अपने स्वयं के सिद्धांतों की ओर पूर्वाग्रह पेश कर सकता है। पोस्ट-परिनियोजन निगरानी के लिए डिज़ाइन किया गया है, यह विधि पूर्व-तैनाती मूल्यांकन को प्रतिस्थापित नहीं कर सकती है, लेकिन उन मुद्दों का पता लगा सकती है जो केवल लाइव इंटरैक्शन के दौरान उभरते हैं।
अनुसंधान एआई संरेखण को प्राप्त करने के लिए एआई मॉडल व्यक्त मूल्यों को समझने के महत्व पर जोर देता है। "एआई मॉडल अनिवार्य रूप से मूल्य निर्णय लेने होंगे," कागज कहते हैं। "अगर हम चाहते हैं कि वे निर्णय अपने स्वयं के मूल्यों के साथ बधाई हो [...] तो हमें परीक्षण के तरीकों की आवश्यकता है जो एक मॉडल को वास्तविक दुनिया में व्यक्त करता है।"
एंथ्रोपिक का काम इस समझ के लिए एक डेटा-संचालित दृष्टिकोण प्रदान करता है और अध्ययन से एक खुला डेटासेट जारी किया है, जिससे व्यवहार में एआई मूल्यों की और अन्वेषण की अनुमति मिलती है। यह पारदर्शिता परिष्कृत एआई के नैतिक परिदृश्य को नेविगेट करने में एक महत्वपूर्ण कदम है।











