घर समाचार एआई जज कैसे करता है? एन्थ्रोपिक क्लाउड के मूल्यों का अध्ययन करता है

एआई जज कैसे करता है? एन्थ्रोपिक क्लाउड के मूल्यों का अध्ययन करता है

26 अप्रैल 2025
SamuelAdams
0

एआई जज कैसे करता है? एन्थ्रोपिक क्लाउड के मूल्यों का अध्ययन करता है

एंथ्रोपिक के क्लाउड जैसे एआई मॉडल जटिल मानव मूल्यों पर उपयोगकर्ताओं के साथ तेजी से जुड़ते हैं, पेरेंटिंग टिप्स से लेकर कार्यस्थल संघर्षों तक, उनकी प्रतिक्रियाएं स्वाभाविक रूप से मार्गदर्शक सिद्धांतों के एक सेट को दर्शाती हैं। लेकिन लाखों उपयोगकर्ताओं के साथ बातचीत करते समय हम एआई को व्यक्त करने वाले मूल्यों को वास्तव में कैसे समझ सकते हैं?

एंथ्रोपिक की सामाजिक प्रभाव टीम ने द वाइल्ड में "क्लाउड प्रदर्शित होने वाले मूल्यों को देखने और वर्गीकृत करने के लिए एक गोपनीयता-संरक्षण कार्यप्रणाली विकसित की है," एआई संरेखण प्रयासों को वास्तविक दुनिया के व्यवहार में कैसे अनुवाद किया जाता है, इस बारे में अंतर्दृष्टि प्रदान करता है। चुनौती आधुनिक एआई की अपारदर्शी प्रकृति से उपजी है, जो कठोर नियमों का पालन नहीं करता है, बल्कि जटिल प्रक्रियाओं के माध्यम से निर्णय लेता है।

एंथ्रोपिक का उद्देश्य संवैधानिक एआई और चरित्र प्रशिक्षण जैसी तकनीकों के माध्यम से क्लाउड में "सहायक, ईमानदार और हानिरहित" होने के सिद्धांतों को स्थापित करना है। फिर भी, जैसा कि कंपनी स्वीकार करती है, "एआई प्रशिक्षण के किसी भी पहलू के साथ, हम निश्चित नहीं हो सकते हैं कि मॉडल हमारे पसंदीदा मूल्यों से चिपक जाएगा।" यह अनिश्चितता वास्तविक दुनिया की बातचीत में एआई के मूल्यों का सख्ती से निरीक्षण करने के लिए एक विधि की आवश्यकता है।

पैमाने पर एआई मूल्यों का निरीक्षण करने के लिए एन्थ्रोपिक क्लाउड का विश्लेषण

इसे संबोधित करने के लिए, एंथ्रोपिक ने एक प्रणाली विकसित की जो अनाम उपयोगकर्ता वार्तालापों का विश्लेषण करती है, व्यक्तिगत रूप से पहचान योग्य जानकारी को हटाती है और बातचीत को संक्षेप में प्रस्तुत करने और क्लाउड द्वारा व्यक्त किए गए मूल्यों को निकालने के लिए भाषा मॉडल का उपयोग करती है। यह विधि उपयोगकर्ता गोपनीयता से समझौता किए बिना मूल्यों के उच्च-स्तरीय वर्गीकरण के निर्माण की अनुमति देती है।

अध्ययन ने क्लाउड 3.5 सॉनेट मॉडल पर ध्यान केंद्रित करते हुए फरवरी 2025 में एक सप्ताह में क्लाउड.एआई फ्री और प्रो उपयोगकर्ताओं से 700,000 अनाम बातचीत की जांच की। तथ्यात्मक या गैर-मूल्य वाले लादेन एक्सचेंजों को फ़िल्टर करने के बाद, 308,210 वार्तालाप (कुल का लगभग 44%) का गहराई से विश्लेषण किया गया।

विश्लेषण से पांच उच्च-स्तरीय श्रेणियों में आयोजित क्लाउड द्वारा व्यक्त मूल्यों की एक पदानुक्रमित संरचना का पता चला:

  1. व्यावहारिक मूल्य: दक्षता, उपयोगिता और लक्ष्य उपलब्धि पर ध्यान केंद्रित करना।
  2. महामारी संबंधी मूल्य: ज्ञान, सत्य, सटीकता और बौद्धिक ईमानदारी से संबंधित।
  3. सामाजिक मूल्य: पारस्परिक संपर्क, समुदाय, निष्पक्षता और सहयोग के विषय में।
  4. सुरक्षात्मक मूल्य: सुरक्षा, सुरक्षा, कल्याण और नुकसान से बचने पर जोर देना।
  5. व्यक्तिगत मूल्य: व्यक्तिगत विकास, स्वायत्तता, प्रामाणिकता और आत्म-प्रतिबिंब पर केंद्रित।

इन श्रेणियों ने "व्यावसायिक और तकनीकी उत्कृष्टता" और "महत्वपूर्ण सोच" जैसे उपश्रेणियों में प्रवेश किया, जिसमें अक्सर "व्यावसायिकता," "स्पष्टता," और "पारदर्शिता" सहित अक्सर देखे गए मूल्यों के साथ।

शोध से पता चलता है कि एन्थ्रोपिक के संरेखण प्रयास काफी हद तक सफल हैं, क्योंकि व्यक्त किए गए मान अक्सर "सहायक, ईमानदार और हानिरहित" उद्देश्यों के साथ संरेखित होते हैं। उदाहरण के लिए, "उपयोगकर्ता सक्षमता" सहायक के साथ, "महामारी की विनम्रता" ईमानदारी के साथ, और "रोगी भलाई" के साथ हानिरहितता के साथ संरेखित करती है।

बारीकियों, संदर्भ और सावधानी के संकेत

हालांकि, अध्ययन ने दुर्लभ उदाहरणों की भी पहचान की, जहां क्लाउड ने इसके प्रशिक्षण के विपरीत मूल्यों को व्यक्त किया, जैसे कि "प्रभुत्व" और "अमोरिटी"। एंथ्रोपिक "जेलब्रेक" से इन उदाहरणों की संभावना परिणाम का सुझाव देता है, जहां उपयोगकर्ता मॉडल के सामान्य रेलिंग को बायपास करते हैं। यह खोज एआई दुरुपयोग का पता लगाने के लिए एक प्रारंभिक चेतावनी प्रणाली के रूप में मूल्य-अवलोकन विधि की क्षमता पर प्रकाश डालती है।

अध्ययन ने पुष्टि की कि क्लाउड संदर्भ के आधार पर अपनी मूल्य अभिव्यक्ति को मानता है, बहुत कुछ मनुष्यों की तरह। उदाहरण के लिए, रोमांटिक सलाह प्रदान करते समय, "स्वस्थ सीमाओं" और "आपसी सम्मान" जैसे मूल्यों पर जोर दिया गया, जबकि विवादास्पद इतिहास पर चर्चा करते समय "ऐतिहासिक सटीकता" को प्राथमिकता दी गई।

उपयोगकर्ता-व्यक्त मूल्यों के साथ क्लाउड की बातचीत बहुमुखी थी:

  • मिररिंग/स्ट्रॉन्ग सपोर्ट (28.2%): क्लाउड अक्सर उपयोगकर्ता मूल्यों को दर्शाता है या दृढ़ता से समर्थन करता है, सहानुभूति को बढ़ावा देता है, लेकिन संभावित रूप से चाटुकारिता पर काम करता है।
  • Reframing (6.6%): क्लाउड उपयोगकर्ता मूल्यों को स्वीकार करता है, लेकिन वैकल्पिक दृष्टिकोणों का परिचय देता है, विशेष रूप से मनोवैज्ञानिक या पारस्परिक सलाह में।
  • मजबूत प्रतिरोध (3.0%): क्लाउड सक्रिय रूप से उपयोगकर्ता मूल्यों का विरोध करता है जब अनैतिक सामग्री या हानिकारक दृष्टिकोण का अनुरोध किया जाता है, तो इसके "सबसे गहरे, सबसे अचल मानों" का खुलासा होता है।

सीमाएँ और भविष्य के निर्देश

एन्थ्रोपिक "मूल्यों" को परिभाषित करने और वर्गीकृत करने की जटिलता और विषयवस्तु सहित विधि की सीमाओं को स्वीकार करता है। वर्गीकरण के लिए क्लाउड का उपयोग करना अपने स्वयं के सिद्धांतों की ओर पूर्वाग्रह पेश कर सकता है। पोस्ट-परिनियोजन निगरानी के लिए डिज़ाइन किया गया है, यह विधि पूर्व-तैनाती मूल्यांकन को प्रतिस्थापित नहीं कर सकती है, लेकिन उन मुद्दों का पता लगा सकती है जो केवल लाइव इंटरैक्शन के दौरान उभरते हैं।

अनुसंधान एआई संरेखण को प्राप्त करने के लिए एआई मॉडल व्यक्त मूल्यों को समझने के महत्व पर जोर देता है। "एआई मॉडल अनिवार्य रूप से मूल्य निर्णय लेने होंगे," कागज कहते हैं। "अगर हम चाहते हैं कि वे निर्णय अपने स्वयं के मूल्यों के साथ बधाई हो [...] तो हमें परीक्षण के तरीकों की आवश्यकता है जो एक मॉडल को वास्तविक दुनिया में व्यक्त करता है।"

एंथ्रोपिक का काम इस समझ के लिए एक डेटा-संचालित दृष्टिकोण प्रदान करता है और अध्ययन से एक खुला डेटासेट जारी किया है, जिससे व्यवहार में एआई मूल्यों की और अन्वेषण की अनुमति मिलती है। यह पारदर्शिता परिष्कृत एआई के नैतिक परिदृश्य को नेविगेट करने में एक महत्वपूर्ण कदम है।

संबंधित लेख
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Exploring AI on Screen: A Short Film Program Exploring AI on Screen: A Short Film Program Reflecting on our favorite sci-fi movies often brings a sense of wonder about the future they envisioned. As a child, watching "Star Trek" and marveling at their communicators, the concept of instant communication via a small device seemed like pure fantasy. Fast forward to today, and my mobile phon
Microsoft Copilot Now Capable of Web Browsing on Your Behalf Microsoft Copilot Now Capable of Web Browsing on Your Behalf Microsoft is rolling out some exciting updates to its AI assistant, Copilot, which will now be able to handle your online tasks with just a few simple chat prompts. Imagine working on your projects while Copilot quietly books your restaurant reservations, snags event tickets, or even sends gifts to
सूचना (0)
शीर्ष समाचार
AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है चुपके पीक: एडोब की नवीनतम परियोजनाओं में उन्नत एआई एजेंट हैं IPhone और iPad पर LiDAR का उपयोग करने के लिए 8 अभिनव तरीके प्रकट हुए टिंडर उपयोगकर्ता की गिरावट के बीच एआई मैचिंग की खोज करता है 7 कारण किंडल एक महान खरीद रहे हैं, यहां तक ​​कि डाउनलोड के बिना भी "समूह एआई के इको प्रभाव को कम करने के लिए स्विफ्ट उपायों का आग्रह करते हैं" क्या एआई हमारी बुद्धिमत्ता को कम कर रहा है? नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है Google.org Unveils $15M AI Training Grants for Government Workers टेलि, एक वाईसी फिटकिरी, एआई वॉयस एजेंटों के लिए पूर्व-बीज फंडिंग सुरक्षित करता है
अधिक
OR