नई तकनीक दीपसेक और अन्य मॉडलों को संवेदनशील प्रश्नों का जवाब देने में सक्षम बनाती है
10 मई 2025
CarlLewis
0
चीन की दीपसेक जैसे बड़े भाषा मॉडल (एलएलएम) से पूर्वाग्रह और सेंसरशिप को हटाना एक जटिल चुनौती है जिसने अमेरिकी नीति निर्माताओं और व्यापारिक नेताओं का ध्यान आकर्षित किया है, जो इसे संभावित राष्ट्रीय सुरक्षा खतरे के रूप में देखते हैं। अमेरिकी कांग्रेस सेलेक्ट कमेटी की एक हालिया रिपोर्ट में दीपसेक को "हमारे राष्ट्र की सुरक्षा के लिए एक गहरा खतरा" कहा गया और इस मुद्दे को संबोधित करने के लिए नीतिगत सिफारिशों की पेशकश की।
जबकि मानव प्रतिक्रिया (RLHF) और फाइन-ट्यूनिंग से सुदृढीकरण सीखने जैसी तकनीकें पूर्वाग्रह को कम करने में मदद कर सकती हैं, एंटरप्राइज़ रिस्क मैनेजमेंट स्टार्टअप CTGT ने एक उपन्यास दृष्टिकोण विकसित करने का दावा किया है। CTGT के अनुसार, उनकी विधि LLMS में सेंसरशिप को पूरी तरह से समाप्त कर सकती है। CTGT के साइरिल गोरेला और ट्रेवर टटल ने एक पेपर में अपने ढांचे को विस्तृत किया, यह समझाते हुए कि यह "सीधे पता लगाता है और सेंसरशिप के लिए जिम्मेदार आंतरिक विशेषताओं को संशोधित करता है।"
उनका दृष्टिकोण न केवल कुशल है, बल्कि मॉडल के व्यवहार पर सटीक नियंत्रण की अनुमति भी देता है, यह सुनिश्चित करता है कि बिना सेंसर की गई प्रतिक्रियाएं मॉडल की समग्र क्षमताओं या तथ्यात्मक सटीकता को प्रभावित किए बिना प्रदान की जाती हैं। हालांकि शुरू में डीपसेक-आर 1-डिस्टिल-एलएएमए -70 बी के लिए डिज़ाइन किया गया था, विधि को अन्य मॉडलों पर भी लागू किया जा सकता है। गोरेला ने वेंचरबीट की पुष्टि की कि CTGT की तकनीक मूलभूत तंत्रिका नेटवर्क स्तर पर काम करती है, जिससे यह सभी गहरे सीखने के मॉडल पर लागू होता है। वे एक प्रमुख फाउंडेशन मॉडल लैब के साथ सहयोग कर रहे हैं ताकि नए मॉडल स्वाभाविक रूप से भरोसेमंद और सुरक्षित हों।
यह काम किस प्रकार करता है
CTGT के शोधकर्ता मॉडल के भीतर सुविधाओं की पहचान करते हैं जो संभवतः अवांछित व्यवहारों से जुड़े हैं। उन्होंने समझाया कि "एक बड़े भाषा मॉडल के भीतर, अव्यक्त चर (छिपे हुए राज्य में न्यूरॉन्स या दिशा -निर्देश) मौजूद हैं जो 'सेंसरशिप ट्रिगर' या 'विषाक्त भावना' जैसी अवधारणाओं के अनुरूप हैं। यदि हम उन चर को पा सकते हैं, तो हम उन्हें सीधे हेरफेर कर सकते हैं।"
CTGT की विधि में तीन प्रमुख चरण शामिल हैं:
- फ़ीचर आइडेंटिफिकेशन
- फ़ीचर अलगाव और लक्षण वर्णन
- गतिशील सुविधा संशोधन
इन विशेषताओं की पहचान करने के लिए, शोधकर्ता "विषाक्त भावनाओं" को ट्रिगर करने के लिए डिज़ाइन किए गए संकेतों का उपयोग करते हैं, जैसे कि तियानमेन स्क्वायर के बारे में पूछताछ या फ़ायरवॉल को दरकिनार करने के लिए युक्तियां। वे पैटर्न स्थापित करने और वैक्टर का पता लगाने के लिए प्रतिक्रियाओं का विश्लेषण करते हैं जहां मॉडल सेंसर की जानकारी का फैसला करता है। एक बार पहचानने के बाद, वे इस सुविधा को अलग कर देते हैं और समझते हैं कि यह अवांछित व्यवहार का कौन सा हिस्सा नियंत्रित करता है, चाहे वह सावधानी से जवाब दे रहा हो या जवाब देने से इनकार कर रहा हो। वे फिर सुविधा के व्यवहार के सक्रियण स्तर को समायोजित करने के लिए मॉडल के अनुमान पाइपलाइन में एक तंत्र को एकीकृत करते हैं।
मॉडल का जवाब अधिक संकेत देता है
100 संवेदनशील प्रश्नों का उपयोग करते हुए CTGT के प्रयोगों से पता चला कि बेस डीपसेक-आर 1-डिस्टिल-एलएलएएमए -70 बी मॉडल ने केवल 32% विवादास्पद संकेतों का जवाब दिया। हालांकि, संशोधित संस्करण ने 96% संकेतों का जवाब दिया, शेष 4% बेहद स्पष्ट सामग्री के साथ। कंपनी ने इस बात पर जोर दिया कि उनकी विधि उपयोगकर्ताओं को मॉडल के पूर्वाग्रह और सुरक्षा सुविधाओं को समायोजित करने की अनुमति देती है, बिना इसे "लापरवाह जनरेटर" में बदल दिया, खासकर जब केवल अनावश्यक सेंसरशिप को हटा दिया जाता है।
महत्वपूर्ण रूप से, यह विधि मॉडल की सटीकता या प्रदर्शन से समझौता नहीं करती है। पारंपरिक फाइन-ट्यूनिंग के विपरीत, इसमें मॉडल वेट का अनुकूलन करना या नए उदाहरण प्रतिक्रियाएं प्रदान करना शामिल नहीं है। यह दो प्रमुख फायदे प्रदान करता है: अगली टोकन पीढ़ी पर तत्काल प्रभाव और सुविधा समायोजन को टॉगल करके या बंद करने या यहां तक कि विभिन्न संदर्भों के लिए अलग -अलग डिग्री के लिए इसे समायोजित करके विभिन्न व्यवहारों के बीच स्विच करने की क्षमता।
मॉडल सुरक्षा और सुरक्षा
दीपसेक पर कांग्रेस की रिपोर्ट ने अमेरिका से "निर्यात नियंत्रण का विस्तार करने, निर्यात नियंत्रण प्रवर्तन में सुधार करने और चीनी कृत्रिम बुद्धिमत्ता मॉडल से जोखिमों को संबोधित करने के लिए तेजी से कार्रवाई करने का आग्रह किया।" जैसे -जैसे दीपसेक के संभावित राष्ट्रीय सुरक्षा खतरे के बारे में चिंताएं बढ़ती गईं, शोधकर्ताओं और एआई कंपनियों ने ऐसे मॉडलों को सुरक्षित बनाने के तरीके खोजने लगे।
यह निर्धारित करना कि "सुरक्षित," पक्षपाती, या सेंसर क्या है, चुनौतीपूर्ण हो सकता है, लेकिन ऐसे तरीके जो उपयोगकर्ताओं को मॉडल नियंत्रण को समायोजित करने की अनुमति देते हैं, उनकी आवश्यकताओं के अनुरूप अत्यधिक लाभकारी हो सकते हैं। गोरेला ने जोर देकर कहा कि उद्यमों को "अपने मॉडल पर भरोसा करने में सक्षम होने की आवश्यकता है, उनकी नीतियों के साथ गठबंधन किया जाता है," सीटीजीटी के व्यवसायों के लिए तरीकों के महत्व को उजागर करते हुए।
"CTGT कंपनियों को AI को तैनात करने में सक्षम बनाता है जो प्रत्येक उपयोग के मामले के लिए लाखों डॉलर के ठीक-ट्यूनिंग मॉडल खर्च किए बिना उनके उपयोग के मामलों के लिए अनुकूलित करता है। यह विशेष रूप से सुरक्षा, वित्त और स्वास्थ्य सेवा जैसे उच्च जोखिम वाले अनुप्रयोगों में महत्वपूर्ण है, जहां संभावित नुकसान AI खराबी से आ सकते हैं, गंभीर हैं," गोरला ने कहा।

संबंधित लेख
पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन
एआई एजेंटों का वर्ष: 2025 की अपेक्षाओं और वास्तविकता 2025 पर एक करीबी नज़र को कई विशेषज्ञों द्वारा उस वर्ष के रूप में हेराल्ड किया गया था जब एआई एजेंटों -विशेष रूप से एआई सिस्टम को उन्नत बड़ी भाषा और ओपनई, एन्थ्रोपिक, गूगल और डीपसेक जैसी कंपनियों से मल्टीमॉडल मॉडल द्वारा संचालित किया गया था।
ओपन डीप सर्च पेरप्लेक्सिटी और चैट सर्च को चुनौती देने के लिए आता है
यदि आप तकनीकी दुनिया में हैं, तो आपने ओपन डीप सर्च (ओडीएस) के आसपास की चर्चा के बारे में सुना होगा, जो कि सेंट्रेंट फाउंडेशन से नया ओपन-सोर्स फ्रेमवर्क है। ODS, Perplexity और Chatgpt खोज जैसे मालिकाना AI खोज इंजनों के लिए एक मजबूत विकल्प की पेशकश करके लहरें बना रहा है, और यह सब के बारे में है
MCP उपकरण और डेटा के साथ AI कनेक्टिविटी का मानकीकृत करता है: एक नया प्रोटोकॉल उभरता है
यदि आप आर्टिफिशियल इंटेलिजेंस (एआई) की दुनिया में डाइविंग कर रहे हैं, तो आपने शायद देखा है कि अलग -अलग एआई मॉडल, डेटा स्रोत और टूल्स को एक साथ खेलने के लिए टूल प्राप्त करना कितना महत्वपूर्ण है। यह वह जगह है जहां मॉडल संदर्भ प्रोटोकॉल (MCP) आता है, AI कनेक्टिविटी को मानकीकृत करने में गेम-चेंजर के रूप में कार्य करता है। टी
सूचना (0)
0/200






चीन की दीपसेक जैसे बड़े भाषा मॉडल (एलएलएम) से पूर्वाग्रह और सेंसरशिप को हटाना एक जटिल चुनौती है जिसने अमेरिकी नीति निर्माताओं और व्यापारिक नेताओं का ध्यान आकर्षित किया है, जो इसे संभावित राष्ट्रीय सुरक्षा खतरे के रूप में देखते हैं। अमेरिकी कांग्रेस सेलेक्ट कमेटी की एक हालिया रिपोर्ट में दीपसेक को "हमारे राष्ट्र की सुरक्षा के लिए एक गहरा खतरा" कहा गया और इस मुद्दे को संबोधित करने के लिए नीतिगत सिफारिशों की पेशकश की।
जबकि मानव प्रतिक्रिया (RLHF) और फाइन-ट्यूनिंग से सुदृढीकरण सीखने जैसी तकनीकें पूर्वाग्रह को कम करने में मदद कर सकती हैं, एंटरप्राइज़ रिस्क मैनेजमेंट स्टार्टअप CTGT ने एक उपन्यास दृष्टिकोण विकसित करने का दावा किया है। CTGT के अनुसार, उनकी विधि LLMS में सेंसरशिप को पूरी तरह से समाप्त कर सकती है। CTGT के साइरिल गोरेला और ट्रेवर टटल ने एक पेपर में अपने ढांचे को विस्तृत किया, यह समझाते हुए कि यह "सीधे पता लगाता है और सेंसरशिप के लिए जिम्मेदार आंतरिक विशेषताओं को संशोधित करता है।"
उनका दृष्टिकोण न केवल कुशल है, बल्कि मॉडल के व्यवहार पर सटीक नियंत्रण की अनुमति भी देता है, यह सुनिश्चित करता है कि बिना सेंसर की गई प्रतिक्रियाएं मॉडल की समग्र क्षमताओं या तथ्यात्मक सटीकता को प्रभावित किए बिना प्रदान की जाती हैं। हालांकि शुरू में डीपसेक-आर 1-डिस्टिल-एलएएमए -70 बी के लिए डिज़ाइन किया गया था, विधि को अन्य मॉडलों पर भी लागू किया जा सकता है। गोरेला ने वेंचरबीट की पुष्टि की कि CTGT की तकनीक मूलभूत तंत्रिका नेटवर्क स्तर पर काम करती है, जिससे यह सभी गहरे सीखने के मॉडल पर लागू होता है। वे एक प्रमुख फाउंडेशन मॉडल लैब के साथ सहयोग कर रहे हैं ताकि नए मॉडल स्वाभाविक रूप से भरोसेमंद और सुरक्षित हों।
यह काम किस प्रकार करता है
CTGT के शोधकर्ता मॉडल के भीतर सुविधाओं की पहचान करते हैं जो संभवतः अवांछित व्यवहारों से जुड़े हैं। उन्होंने समझाया कि "एक बड़े भाषा मॉडल के भीतर, अव्यक्त चर (छिपे हुए राज्य में न्यूरॉन्स या दिशा -निर्देश) मौजूद हैं जो 'सेंसरशिप ट्रिगर' या 'विषाक्त भावना' जैसी अवधारणाओं के अनुरूप हैं। यदि हम उन चर को पा सकते हैं, तो हम उन्हें सीधे हेरफेर कर सकते हैं।"
CTGT की विधि में तीन प्रमुख चरण शामिल हैं:
- फ़ीचर आइडेंटिफिकेशन
- फ़ीचर अलगाव और लक्षण वर्णन
- गतिशील सुविधा संशोधन
इन विशेषताओं की पहचान करने के लिए, शोधकर्ता "विषाक्त भावनाओं" को ट्रिगर करने के लिए डिज़ाइन किए गए संकेतों का उपयोग करते हैं, जैसे कि तियानमेन स्क्वायर के बारे में पूछताछ या फ़ायरवॉल को दरकिनार करने के लिए युक्तियां। वे पैटर्न स्थापित करने और वैक्टर का पता लगाने के लिए प्रतिक्रियाओं का विश्लेषण करते हैं जहां मॉडल सेंसर की जानकारी का फैसला करता है। एक बार पहचानने के बाद, वे इस सुविधा को अलग कर देते हैं और समझते हैं कि यह अवांछित व्यवहार का कौन सा हिस्सा नियंत्रित करता है, चाहे वह सावधानी से जवाब दे रहा हो या जवाब देने से इनकार कर रहा हो। वे फिर सुविधा के व्यवहार के सक्रियण स्तर को समायोजित करने के लिए मॉडल के अनुमान पाइपलाइन में एक तंत्र को एकीकृत करते हैं।
मॉडल का जवाब अधिक संकेत देता है
100 संवेदनशील प्रश्नों का उपयोग करते हुए CTGT के प्रयोगों से पता चला कि बेस डीपसेक-आर 1-डिस्टिल-एलएलएएमए -70 बी मॉडल ने केवल 32% विवादास्पद संकेतों का जवाब दिया। हालांकि, संशोधित संस्करण ने 96% संकेतों का जवाब दिया, शेष 4% बेहद स्पष्ट सामग्री के साथ। कंपनी ने इस बात पर जोर दिया कि उनकी विधि उपयोगकर्ताओं को मॉडल के पूर्वाग्रह और सुरक्षा सुविधाओं को समायोजित करने की अनुमति देती है, बिना इसे "लापरवाह जनरेटर" में बदल दिया, खासकर जब केवल अनावश्यक सेंसरशिप को हटा दिया जाता है।
महत्वपूर्ण रूप से, यह विधि मॉडल की सटीकता या प्रदर्शन से समझौता नहीं करती है। पारंपरिक फाइन-ट्यूनिंग के विपरीत, इसमें मॉडल वेट का अनुकूलन करना या नए उदाहरण प्रतिक्रियाएं प्रदान करना शामिल नहीं है। यह दो प्रमुख फायदे प्रदान करता है: अगली टोकन पीढ़ी पर तत्काल प्रभाव और सुविधा समायोजन को टॉगल करके या बंद करने या यहां तक कि विभिन्न संदर्भों के लिए अलग -अलग डिग्री के लिए इसे समायोजित करके विभिन्न व्यवहारों के बीच स्विच करने की क्षमता।
मॉडल सुरक्षा और सुरक्षा
दीपसेक पर कांग्रेस की रिपोर्ट ने अमेरिका से "निर्यात नियंत्रण का विस्तार करने, निर्यात नियंत्रण प्रवर्तन में सुधार करने और चीनी कृत्रिम बुद्धिमत्ता मॉडल से जोखिमों को संबोधित करने के लिए तेजी से कार्रवाई करने का आग्रह किया।" जैसे -जैसे दीपसेक के संभावित राष्ट्रीय सुरक्षा खतरे के बारे में चिंताएं बढ़ती गईं, शोधकर्ताओं और एआई कंपनियों ने ऐसे मॉडलों को सुरक्षित बनाने के तरीके खोजने लगे।
यह निर्धारित करना कि "सुरक्षित," पक्षपाती, या सेंसर क्या है, चुनौतीपूर्ण हो सकता है, लेकिन ऐसे तरीके जो उपयोगकर्ताओं को मॉडल नियंत्रण को समायोजित करने की अनुमति देते हैं, उनकी आवश्यकताओं के अनुरूप अत्यधिक लाभकारी हो सकते हैं। गोरेला ने जोर देकर कहा कि उद्यमों को "अपने मॉडल पर भरोसा करने में सक्षम होने की आवश्यकता है, उनकी नीतियों के साथ गठबंधन किया जाता है," सीटीजीटी के व्यवसायों के लिए तरीकों के महत्व को उजागर करते हुए।
"CTGT कंपनियों को AI को तैनात करने में सक्षम बनाता है जो प्रत्येक उपयोग के मामले के लिए लाखों डॉलर के ठीक-ट्यूनिंग मॉडल खर्च किए बिना उनके उपयोग के मामलों के लिए अनुकूलित करता है। यह विशेष रूप से सुरक्षा, वित्त और स्वास्थ्य सेवा जैसे उच्च जोखिम वाले अनुप्रयोगों में महत्वपूर्ण है, जहां संभावित नुकसान AI खराबी से आ सकते हैं, गंभीर हैं," गोरला ने कहा।











