विकल्प
घर
समाचार
एआई जज कैसे करता है? एन्थ्रोपिक क्लाउड के मूल्यों का अध्ययन करता है

एआई जज कैसे करता है? एन्थ्रोपिक क्लाउड के मूल्यों का अध्ययन करता है

26 अप्रैल 2025
127

एआई जज कैसे करता है? एन्थ्रोपिक क्लाउड के मूल्यों का अध्ययन करता है

जैसा कि Anthropic के Claude जैसे AI मॉडल जटिल मानवीय मूल्यों पर उपयोगकर्ताओं के साथ संलग्न होते हैं, जैसे कि parenting tips से लेकर workplace conflicts तक, उनके जवाब स्वाभाविक रूप से मार्गदर्शक सिद्धांतों के एक सेट को प्रतिबिंबित करते हैं। लेकिन हम वास्तव में उन मूल्यों को कैसे समझ सकते हैं जो एक AI लाखों उपयोगकर्ताओं के साथ बातचीत करते समय व्यक्त करता है?

Anthropic की Societal Impacts टीम ने गोपनीयता संरक्षित करने वाली एक पद्धति विकसित की है ताकि Claude द्वारा "in the wild" व्यक्त किए गए मूल्यों को देखा और वर्गीकृत किया जा सके, जिससे यह अंतर्दृष्टि मिलती है कि AI alignment प्रयास वास्तविक दुनिया के व्यवहार में कैसे अनुवादित होते हैं। चुनौती आधुनिक AI की अपारदर्शी प्रकृति से उत्पन्न होती है, जो कठोर नियमों का पालन नहीं करता बल्कि जटिल प्रक्रियाओं के माध्यम से निर्णय लेता है।

Anthropic का लक्ष्य Constitutional AI और character training जैसे तकनीकों के माध्यम से Claude में "helpful, honest, and harmless" के सिद्धांतों को स्थापित करना है। फिर भी, जैसा कि कंपनी स्वीकार करती है, "AI प्रशिक्षण के किसी भी पहलू की तरह, हम निश्चित नहीं हो सकते कि मॉडल हमारे पसंदीदा मूल्यों पर टिका रहेगा।" यह अनिश्चितता वास्तविक दुनिया की बातचीत में AI के मूल्यों को कठोरता से निरीक्षण करने की एक पद्धति की आवश्यकता को दर्शाती है।

Anthropic Claude का विश्लेषण करके बड़े पैमाने पर AI मूल्यों का अवलोकन

इसका समाधान करने के लिए, Anthropic ने एक प्रणाली विकसित की जो उपयोगकर्ताओं की गुमनाम बातचीत का विश्लेषण करती है, व्यक्तिगत रूप से पहचान योग्य जानकारी को हटाती है और language models का उपयोग करके बातचीत को सारांशित करती है और Claude द्वारा व्यक्त किए गए मूल्यों को निकालती है। यह पद्धति उपयोगकर्ता गोपनीयता से समझौता किए बिना मूल्यों की उच्च-स्तरीय वर्गीकरण प्रणाली बनाने की अनुमति देती है।

अध्ययन ने फरवरी 2025 में एक सप्ताह के दौरान Claude.ai Free और Pro उपयोगकर्ताओं की 700,000 गुमनाम बातचीत का परीक्षण किया, जिसमें Claude 3.5 Sonnet मॉडल पर ध्यान केंद्रित किया गया। तथ्यात्मक या मूल्य-रहित आदान-प्रदानों को फ़िल्टर करने के बाद, 308,210 बातचीत (कुल का लगभग 44%) का गहन विश्लेषण किया गया।

विश्लेषण ने Claude द्वारा व्यक्त किए गए मूल्यों की एक hierarchial संरचना को प्रकट किया, जो पांच उच्च-स्तरीय श्रेणियों में व्यवस्थित थी:

  1. प्रायोगिक मूल्य: दक्षता, उपयोगिता, और लक्ष्य प्राप्ति पर केंद्रित।
  2. ज्ञान-संबंधी मूल्य: ज्ञान, सत्य, सटीकता, और बौद्धिक ईमानदारी से संबंधित।
  3. सामाजिक मूल्य: पारस्परिक बातचीत, समुदाय, निष्पक्षता, और सहयोग से संबंधित।
  4. संरक्षक मूल्य: सुरक्षा, संरक्षा, कल्याण, और नुकसान से बचाव पर जोर।
  5. व्यक्तिगत मूल्य: व्यक्तिगत विकास, स्वायत्तता, प्रामाणिकता, और आत्म-चिंतन पर केंद्रित।

ये श्रेणियाँ आगे "professional and technical excellence" और "critical thinking" जैसी उप-श्रेणियों में विभाजित हुईं, जिनमें बार-बार देखे गए मूल्यों में "professionalism," "clarity," और "transparency" शामिल थे।

अध्ययन से पता चलता है कि Anthropic के alignment प्रयास बड़े पैमाने पर सफल रहे हैं, क्योंकि व्यक्त किए गए मूल्य अक्सर "helpful, honest, and harmless" उद्देश्यों के साथ संरेखित होते हैं। उदाहरण के लिए, "user enablement" सहायता के साथ, "epistemic humility" ईमानदारी के साथ, और "patient wellbeing" नुकसान-रहितता के साथ संरेखित होता है।

न्यूनतमता, संदर्भ, और सावधानी के संकेत

हालांकि, अध्ययन ने उन दुर्लभ उदाहरणों की भी पहचान की जहां Claude ने अपने प्रशिक्षण के विपरीत मूल्यों को व्यक्त किया, जैसे कि "dominance" और "amorality।" Anthropic का सुझाव है कि ये उदाहरण संभवतः "jailbreaks" से उत्पन्न होते हैं, जहां उपयोगकर्ता मॉडल के सामान्य guardrails को बायपास करते हैं। यह खोज मूल्य-अवलोकन पद्धति की AI के दुरुपयोग का पता लगाने के लिए एक प्रारंभिक चेतावनी प्रणाली के रूप में संभावना को उजागर करती है।

अध्ययन ने पुष्टि की कि Claude मानवों की तरह संदर्भ के आधार पर अपने मूल्य अभिव्यक्ति को अनुकूलित करता है। उदाहरण के लिए, रोमांटिक सलाह देते समय, "healthy boundaries" और "mutual respect" जैसे मूल्यों पर जोर दिया गया, जबकि विवादास्पद इतिहास पर चर्चा करते समय "historical accuracy" को प्राथमिकता दी गई।

Claude का उपयोगकर्ता-प्रकट मूल्यों के साथ संनाद जटिल था:

  • प्रतिबिंबन/मजबूत समर्थन (28.2%): Claude अक्सर उपयोगकर्ता मूल्यों को प्रतिबिंबित करता है या मजबूती से समर्थन करता है, सहानुभूति को बढ़ावा देता है लेकिन संभवतः sycophancy की ओर बढ़ सकता है।
  • पुनर्रचना (6.6%): Claude उपयोगकर्ता मूल्यों को स्वीकार करता है लेकिन विशेष रूप से मनोवैज्ञानिक या पारस्परिक सलाह में वैकल्पिक दृष्टिकोण प्रस्तुत करता है।
  • मजबूत प्रतिरोध (3.0%): Claude अनैतिक सामग्री या हानिकारक दृष्टिकोणों के अनुरोध पर उपयोगकर्ता मूल्यों का सक्रिय रूप से प्रतिरोध करता है, जिससे उसके "सबसे गहरे, अटल मूल्य" प्रकट होते हैं।

सीमाएँ और भविष्य की दिशाएँ

Anthropic इस पद्धति की सीमाओं को स्वीकार करता है, जिसमें "मूल्यों" को परिभाषित करने और वर्गीकृत करने की जटिलता और व्यक्तिपरकता शामिल है। Claude का उपयोग वर्गीकरण के लिए करने से इसके अपने सिद्धांतों के प्रति पक्षपात हो सकता है। हालांकि इसे post-deployment निगरानी के लिए डिज़ाइन किया गया है, यह पद्धति pre-deployment मूल्यांकन की जगह नहीं ले सकती, लेकिन यह उन मुद्दों का पता लगा सकती है जो केवल live interactions के दौरान उभरते हैं।

अध्ययन AI मॉडल द्वारा व्यक्त किए गए मूल्यों को समझने के महत्व पर जोर देता है ताकि AI alignment प्राप्त किया जा सके। "AI मॉडल को अनिवार्य रूप से मूल्य निर्णय लेने होंगे," पेपर में कहा गया है। "यदि हम चाहते हैं कि वे निर्णय हमारे अपने मूल्यों के साथ संगत हों [...] तो हमें यह जांचने के तरीके चाहिए कि एक मॉडल वास्तविक दुनिया में कौन से मूल्य व्यक्त करता है।"

Anthropic का कार्य इस समझ के लिए एक डेटा-संचालित दृष्टिकोण प्रदान करता है और अध्ययन से एक खुला डेटासेट जारी किया है, जो AI मूल्यों की प्रायोगिक खोज को और बढ़ाने की अनुमति देता है। यह पारदर्शिता परिष्कृत AI के नैतिक परिदृश्य को नेविगेट करने में एक महत्वपूर्ण कदम है।

संबंधित लेख
मेटा ने उन्नत लामा उपकरणों के साथ AI सुरक्षा को बढ़ाया मेटा ने उन्नत लामा उपकरणों के साथ AI सुरक्षा को बढ़ाया मेटा ने AI विकास को मजबूत करने और उभरते खतरों से बचाव के लिए नए लामा सुरक्षा उपकरण जारी किए हैं।ये उन्नत लामा AI मॉडल सुरक्षा उपकरण मेटा के नए संसाधनों के साथ जोड़े गए हैं, ताकि साइबरसुरक्षा टीमों को
NotebookLM ने शीर्ष प्रकाशनों और विशेषज्ञों से संग्रहित नोटबुक्स का अनावरण किया NotebookLM ने शीर्ष प्रकाशनों और विशेषज्ञों से संग्रहित नोटबुक्स का अनावरण किया Google अपने AI-चालित अनुसंधान और नोट-टेकिंग टूल, NotebookLM को एक व्यापक ज्ञान केंद्र के रूप में बढ़ा रहा है। सोमवार को, कंपनी ने प्रमुख लेखकों, प्रकाशनों, शोधकर्ताओं और गैर-लाभकारी संगठनों से संग्रहि
अलीबाबा ने Wan2.1-VACE का अनावरण किया: ओपन-सोर्स AI वीडियो समाधान अलीबाबा ने Wan2.1-VACE का अनावरण किया: ओपन-सोर्स AI वीडियो समाधान अलीबाबा ने Wan2.1-VACE पेश किया है, जो एक ओपन-सोर्स AI मॉडल है और वीडियो निर्माण और संपादन प्रक्रियाओं को बदलने के लिए तैयार है।VACE अलीबाबा के Wan2.1 वीडियो AI मॉडल परिवार का एक प्रमुख घटक है, कंपनी
सूचना (7)
AnthonyRoberts
AnthonyRoberts 5 अगस्त 2025 10:30:59 पूर्वाह्न IST

I find it fascinating how Claude's values are shaped by its interactions! It’s like watching a digital philosopher grow. But I wonder, how do they ensure it doesn’t just echo popular opinions? 🤔

RobertSanchez
RobertSanchez 31 जुलाई 2025 7:11:19 पूर्वाह्न IST

I find it super intriguing how Anthropic's digging into Claude's values! 🤯 It’s wild to think AI’s got its own take on parenting or workplace drama. Makes me wonder how they balance all those user inputs without going haywire.

MarkGonzalez
MarkGonzalez 27 अप्रैल 2025 7:03:06 अपराह्न IST

Étudier les valeurs de Claude, c’est fascinant ! Mais j’espère qu’ils pensent à l’éthique, sinon ça peut devenir flippant. 😬

SamuelThomas
SamuelThomas 27 अप्रैल 2025 12:51:22 अपराह्न IST

AI的价值观研究真有意思!Claude处理职场冲突和育儿建议时,咋保持中立?有点担心隐私问题😅

KevinMartinez
KevinMartinez 27 अप्रैल 2025 8:02:18 पूर्वाह्न IST

Интересно, как Claude формирует свои принципы? 🤔 Надеюсь, Anthropic учтет культурные различия, а то будет каша!

DouglasScott
DouglasScott 27 अप्रैल 2025 2:08:48 पूर्वाह्न IST

Wow, Anthropic digging into Claude's values is super intriguing! 🤯 Curious how they balance all those human complexities in AI responses.

शीर्ष समाचार
GEMINI 2.5 प्रो अब असीमित और सस्ता क्लाउड की तुलना में सस्ता, GPT-4O 2025 के शीर्ष AI वीडियो जनरेटर: Pika Labs बनाम विकल्प एआई वॉयसओवर: रियलिस्टिक वॉयस क्रिएशन का अल्टीमेट गाइड Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं AI वोइस क्लोनिंग: वोइस कनवर्सन में पकड़ हासिल करने का अंतिम गाइड एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया
अधिक
शीर्ष पर वापस
OR