एआई जज कैसे करता है? एन्थ्रोपिक क्लाउड के मूल्यों का अध्ययन करता है

घर

समाचार

26 अप्रैल 2025

SamuelAdams

127

# ai # ethics # models # Claude

जैसा कि Anthropic के Claude जैसे AI मॉडल जटिल मानवीय मूल्यों पर उपयोगकर्ताओं के साथ संलग्न होते हैं, जैसे कि parenting tips से लेकर workplace conflicts तक, उनके जवाब स्वाभाविक रूप से मार्गदर्शक सिद्धांतों के एक सेट को प्रतिबिंबित करते हैं। लेकिन हम वास्तव में उन मूल्यों को कैसे समझ सकते हैं जो एक AI लाखों उपयोगकर्ताओं के साथ बातचीत करते समय व्यक्त करता है?

Anthropic की Societal Impacts टीम ने गोपनीयता संरक्षित करने वाली एक पद्धति विकसित की है ताकि Claude द्वारा "in the wild" व्यक्त किए गए मूल्यों को देखा और वर्गीकृत किया जा सके, जिससे यह अंतर्दृष्टि मिलती है कि AI alignment प्रयास वास्तविक दुनिया के व्यवहार में कैसे अनुवादित होते हैं। चुनौती आधुनिक AI की अपारदर्शी प्रकृति से उत्पन्न होती है, जो कठोर नियमों का पालन नहीं करता बल्कि जटिल प्रक्रियाओं के माध्यम से निर्णय लेता है।

Anthropic का लक्ष्य Constitutional AI और character training जैसे तकनीकों के माध्यम से Claude में "helpful, honest, and harmless" के सिद्धांतों को स्थापित करना है। फिर भी, जैसा कि कंपनी स्वीकार करती है, "AI प्रशिक्षण के किसी भी पहलू की तरह, हम निश्चित नहीं हो सकते कि मॉडल हमारे पसंदीदा मूल्यों पर टिका रहेगा।" यह अनिश्चितता वास्तविक दुनिया की बातचीत में AI के मूल्यों को कठोरता से निरीक्षण करने की एक पद्धति की आवश्यकता को दर्शाती है।

Anthropic Claude का विश्लेषण करके बड़े पैमाने पर AI मूल्यों का अवलोकन

इसका समाधान करने के लिए, Anthropic ने एक प्रणाली विकसित की जो उपयोगकर्ताओं की गुमनाम बातचीत का विश्लेषण करती है, व्यक्तिगत रूप से पहचान योग्य जानकारी को हटाती है और language models का उपयोग करके बातचीत को सारांशित करती है और Claude द्वारा व्यक्त किए गए मूल्यों को निकालती है। यह पद्धति उपयोगकर्ता गोपनीयता से समझौता किए बिना मूल्यों की उच्च-स्तरीय वर्गीकरण प्रणाली बनाने की अनुमति देती है।

अध्ययन ने फरवरी 2025 में एक सप्ताह के दौरान Claude.ai Free और Pro उपयोगकर्ताओं की 700,000 गुमनाम बातचीत का परीक्षण किया, जिसमें Claude 3.5 Sonnet मॉडल पर ध्यान केंद्रित किया गया। तथ्यात्मक या मूल्य-रहित आदान-प्रदानों को फ़िल्टर करने के बाद, 308,210 बातचीत (कुल का लगभग 44%) का गहन विश्लेषण किया गया।

विश्लेषण ने Claude द्वारा व्यक्त किए गए मूल्यों की एक hierarchial संरचना को प्रकट किया, जो पांच उच्च-स्तरीय श्रेणियों में व्यवस्थित थी:

प्रायोगिक मूल्य: दक्षता, उपयोगिता, और लक्ष्य प्राप्ति पर केंद्रित।
ज्ञान-संबंधी मूल्य: ज्ञान, सत्य, सटीकता, और बौद्धिक ईमानदारी से संबंधित।
सामाजिक मूल्य: पारस्परिक बातचीत, समुदाय, निष्पक्षता, और सहयोग से संबंधित।
संरक्षक मूल्य: सुरक्षा, संरक्षा, कल्याण, और नुकसान से बचाव पर जोर।
व्यक्तिगत मूल्य: व्यक्तिगत विकास, स्वायत्तता, प्रामाणिकता, और आत्म-चिंतन पर केंद्रित।

ये श्रेणियाँ आगे "professional and technical excellence" और "critical thinking" जैसी उप-श्रेणियों में विभाजित हुईं, जिनमें बार-बार देखे गए मूल्यों में "professionalism," "clarity," और "transparency" शामिल थे।

अध्ययन से पता चलता है कि Anthropic के alignment प्रयास बड़े पैमाने पर सफल रहे हैं, क्योंकि व्यक्त किए गए मूल्य अक्सर "helpful, honest, and harmless" उद्देश्यों के साथ संरेखित होते हैं। उदाहरण के लिए, "user enablement" सहायता के साथ, "epistemic humility" ईमानदारी के साथ, और "patient wellbeing" नुकसान-रहितता के साथ संरेखित होता है।

न्यूनतमता, संदर्भ, और सावधानी के संकेत

हालांकि, अध्ययन ने उन दुर्लभ उदाहरणों की भी पहचान की जहां Claude ने अपने प्रशिक्षण के विपरीत मूल्यों को व्यक्त किया, जैसे कि "dominance" और "amorality।" Anthropic का सुझाव है कि ये उदाहरण संभवतः "jailbreaks" से उत्पन्न होते हैं, जहां उपयोगकर्ता मॉडल के सामान्य guardrails को बायपास करते हैं। यह खोज मूल्य-अवलोकन पद्धति की AI के दुरुपयोग का पता लगाने के लिए एक प्रारंभिक चेतावनी प्रणाली के रूप में संभावना को उजागर करती है।

अध्ययन ने पुष्टि की कि Claude मानवों की तरह संदर्भ के आधार पर अपने मूल्य अभिव्यक्ति को अनुकूलित करता है। उदाहरण के लिए, रोमांटिक सलाह देते समय, "healthy boundaries" और "mutual respect" जैसे मूल्यों पर जोर दिया गया, जबकि विवादास्पद इतिहास पर चर्चा करते समय "historical accuracy" को प्राथमिकता दी गई।

Claude का उपयोगकर्ता-प्रकट मूल्यों के साथ संनाद जटिल था:

प्रतिबिंबन/मजबूत समर्थन (28.2%): Claude अक्सर उपयोगकर्ता मूल्यों को प्रतिबिंबित करता है या मजबूती से समर्थन करता है, सहानुभूति को बढ़ावा देता है लेकिन संभवतः sycophancy की ओर बढ़ सकता है।
पुनर्रचना (6.6%): Claude उपयोगकर्ता मूल्यों को स्वीकार करता है लेकिन विशेष रूप से मनोवैज्ञानिक या पारस्परिक सलाह में वैकल्पिक दृष्टिकोण प्रस्तुत करता है।
मजबूत प्रतिरोध (3.0%): Claude अनैतिक सामग्री या हानिकारक दृष्टिकोणों के अनुरोध पर उपयोगकर्ता मूल्यों का सक्रिय रूप से प्रतिरोध करता है, जिससे उसके "सबसे गहरे, अटल मूल्य" प्रकट होते हैं।

सीमाएँ और भविष्य की दिशाएँ

Anthropic इस पद्धति की सीमाओं को स्वीकार करता है, जिसमें "मूल्यों" को परिभाषित करने और वर्गीकृत करने की जटिलता और व्यक्तिपरकता शामिल है। Claude का उपयोग वर्गीकरण के लिए करने से इसके अपने सिद्धांतों के प्रति पक्षपात हो सकता है। हालांकि इसे post-deployment निगरानी के लिए डिज़ाइन किया गया है, यह पद्धति pre-deployment मूल्यांकन की जगह नहीं ले सकती, लेकिन यह उन मुद्दों का पता लगा सकती है जो केवल live interactions के दौरान उभरते हैं।

अध्ययन AI मॉडल द्वारा व्यक्त किए गए मूल्यों को समझने के महत्व पर जोर देता है ताकि AI alignment प्राप्त किया जा सके। "AI मॉडल को अनिवार्य रूप से मूल्य निर्णय लेने होंगे," पेपर में कहा गया है। "यदि हम चाहते हैं कि वे निर्णय हमारे अपने मूल्यों के साथ संगत हों [...] तो हमें यह जांचने के तरीके चाहिए कि एक मॉडल वास्तविक दुनिया में कौन से मूल्य व्यक्त करता है।"

Anthropic का कार्य इस समझ के लिए एक डेटा-संचालित दृष्टिकोण प्रदान करता है और अध्ययन से एक खुला डेटासेट जारी किया है, जो AI मूल्यों की प्रायोगिक खोज को और बढ़ाने की अनुमति देता है। यह पारदर्शिता परिष्कृत AI के नैतिक परिदृश्य को नेविगेट करने में एक महत्वपूर्ण कदम है।

संबंधित लेख

मेटा ने उन्नत लामा उपकरणों के साथ AI सुरक्षा को बढ़ाया मेटा ने AI विकास को मजबूत करने और उभरते खतरों से बचाव के लिए नए लामा सुरक्षा उपकरण जारी किए हैं।ये उन्नत लामा AI मॉडल सुरक्षा उपकरण मेटा के नए संसाधनों के साथ जोड़े गए हैं, ताकि साइबरसुरक्षा टीमों को

NotebookLM ने शीर्ष प्रकाशनों और विशेषज्ञों से संग्रहित नोटबुक्स का अनावरण किया Google अपने AI-चालित अनुसंधान और नोट-टेकिंग टूल, NotebookLM को एक व्यापक ज्ञान केंद्र के रूप में बढ़ा रहा है। सोमवार को, कंपनी ने प्रमुख लेखकों, प्रकाशनों, शोधकर्ताओं और गैर-लाभकारी संगठनों से संग्रहि

अलीबाबा ने Wan2.1-VACE का अनावरण किया: ओपन-सोर्स AI वीडियो समाधान अलीबाबा ने Wan2.1-VACE पेश किया है, जो एक ओपन-सोर्स AI मॉडल है और वीडियो निर्माण और संपादन प्रक्रियाओं को बदलने के लिए तैयार है।VACE अलीबाबा के Wan2.1 वीडियो AI मॉडल परिवार का एक प्रमुख घटक है, कंपनी

सूचना (7)

0/200

जमा करना

AnthonyRoberts

5 अगस्त 2025 10:30:59 पूर्वाह्न IST

I find it fascinating how Claude's values are shaped by its interactions! It’s like watching a digital philosopher grow. But I wonder, how do they ensure it doesn’t just echo popular opinions? 🤔

RobertSanchez

31 जुलाई 2025 7:11:19 पूर्वाह्न IST

I find it super intriguing how Anthropic's digging into Claude's values! 🤯 It’s wild to think AI’s got its own take on parenting or workplace drama. Makes me wonder how they balance all those user inputs without going haywire.

MarkGonzalez

27 अप्रैल 2025 7:03:06 अपराह्न IST

Étudier les valeurs de Claude, c’est fascinant ! Mais j’espère qu’ils pensent à l’éthique, sinon ça peut devenir flippant. 😬

SamuelThomas

27 अप्रैल 2025 12:51:22 अपराह्न IST

AI的价值观研究真有意思！Claude处理职场冲突和育儿建议时，咋保持中立？有点担心隐私问题😅

KevinMartinez

27 अप्रैल 2025 8:02:18 पूर्वाह्न IST

Интересно, как Claude формирует свои принципы? 🤔 Надеюсь, Anthropic учтет культурные различия, а то будет каша!

DouglasScott

27 अप्रैल 2025 2:08:48 पूर्वाह्न IST

Wow, Anthropic digging into Claude's values is super intriguing! 🤯 Curious how they balance all those human complexities in AI responses.