घर समाचार दीपसेक की एआईएस सच्ची मानव इच्छाओं को उजागर करती है

दीपसेक की एआईएस सच्ची मानव इच्छाओं को उजागर करती है

25 अप्रैल 2025
CharlesWhite
1

एआई इनाम मॉडल में दीपसेक की सफलता: एआई तर्क और प्रतिक्रिया को बढ़ाना

चीनी एआई स्टार्टअप दीपसेक, त्सिंघुआ विश्वविद्यालय के सहयोग से, एआई अनुसंधान में एक महत्वपूर्ण मील का पत्थर हासिल किया है। एआई इनाम मॉडल के लिए उनका अभिनव दृष्टिकोण यह बताने का वादा करता है कि एआई सिस्टम मानव वरीयताओं से कैसे सीखते हैं, संभवतः अधिक उत्तरदायी और संरेखित एआई सिस्टम के लिए अग्रणी हैं। यह सफलता, उनके पेपर में विस्तृत है "जनरलिस्ट इनाम मॉडलिंग के लिए निष्कर्ष-समय स्केलिंग," एक ऐसी विधि दिखाती है जो मौजूदा इनाम मॉडलिंग तकनीकों को बेहतर बनाती है।

एआई इनाम मॉडल को समझना

एआई इनाम मॉडल सुदृढीकरण सीखने के क्षेत्र में एक महत्वपूर्ण भूमिका निभाते हैं, विशेष रूप से बड़ी भाषा मॉडल (एलएलएम) के लिए। ये मॉडल डिजिटल शिक्षकों के रूप में कार्य करते हैं, जो प्रतिक्रिया प्रदान करते हैं जो एआई सिस्टम को उन परिणामों की ओर ले जाता है जो मानव इच्छाओं के साथ संरेखित करते हैं। दीपसेक पेपर इस बात पर जोर देता है कि "इनाम मॉडलिंग एक ऐसी प्रक्रिया है जो मानव वरीयताओं की ओर एक एलएलएम का मार्गदर्शन करती है," एआई अनुप्रयोगों के रूप में इसके महत्व को उजागर करना अधिक जटिल डोमेन में विस्तारित होता है।

पारंपरिक इनाम मॉडल स्पष्ट, सत्यापन योग्य मानदंडों के साथ परिदृश्यों में उत्कृष्टता प्राप्त करते हैं, लेकिन सामान्य डोमेन की विविध और बारीक मांगों के साथ सामना करने पर लड़खड़ाते हैं। दीपसेक का नवाचार इस मुद्दे से निपटता है, जिसका उद्देश्य विभिन्न संदर्भों में इनाम संकेतों की सटीकता को परिष्कृत करना है।

दीपसेक का अभिनव दृष्टिकोण

दीपसेक की विधि दो उपन्यास तकनीकों को एकीकृत करती है:

  1. जनरेटिव रिवार्ड मॉडलिंग (जीआरएम): यह दृष्टिकोण इंट्रेंस के दौरान अधिक लचीलेपन और स्केलेबिलिटी के लिए अनुमति देता है, भाषा के माध्यम से पुरस्कारों के अधिक विस्तृत प्रतिनिधित्व की पेशकश करता है, बजाय सरल स्केलर या अर्ध-स्केलर विधियों पर भरोसा करने के।
  2. सेल्फ-प्रिंकप्लाइज़्ड क्रिटिक ट्यूनिंग (एसपीसीटी): यह सीखने की विधि ऑनलाइन सुदृढीकरण सीखने के माध्यम से स्केलेबल इनाम पीढ़ी को बढ़ावा देकर जीआरएम को बढ़ाती है, गतिशील रूप से इनपुट और प्रतिक्रियाओं के साथ संरेखित करने वाले सिद्धांतों को उत्पन्न करती है।

त्सिंघुआ विश्वविद्यालय और दीपसेक-एआई के एक शोधकर्ता ज़िजुन लियू के अनुसार, यह दोहरी दृष्टिकोण "इनपुट क्वेरी और प्रतिक्रियाओं के आधार पर उत्पन्न होने वाले सिद्धांतों को सक्षम बनाता है, अनुकूल रूप से इनाम पीढ़ी प्रक्रिया को संरेखित करता है।" इसके अलावा, तकनीक "अनुमान-समय स्केलिंग" का समर्थन करती है, जो कि समय पर अतिरिक्त कम्प्यूटेशनल संसाधनों का लाभ उठाकर प्रदर्शन में सुधार की अनुमति देती है।

एआई उद्योग पर प्रभाव

डीपसेक की उन्नति एआई विकास में एक महत्वपूर्ण क्षण में आती है, क्योंकि सुदृढीकरण सीखने में बड़े भाषा मॉडल को बढ़ाने के लिए तेजी से अभिन्न हो जाता है। इस सफलता के निहितार्थ गहरा हैं:

  • बढ़ाया AI प्रतिक्रिया: अधिक सटीक इनाम मॉडल समय के साथ AI प्रतिक्रियाओं को परिष्कृत करते हुए अधिक सटीक प्रतिक्रिया के लिए नेतृत्व करते हैं।
  • बढ़ी हुई अनुकूलन क्षमता: अनुमान के दौरान प्रदर्शन को स्केल करने की क्षमता एआई सिस्टम को कम्प्यूटेशनल वातावरण को अलग -अलग करने की अनुमति देती है।
  • व्यापक अनुप्रयोग: सामान्य डोमेन में बेहतर इनाम मॉडलिंग एआई सिस्टम के संभावित अनुप्रयोगों का विस्तार करता है।
  • कुशल संसाधन उपयोग: दीपसेक की विधि से पता चलता है कि प्रशिक्षण के दौरान मॉडल के आकार को बढ़ाने की तुलना में इनवेंशन-टाइम स्केलिंग को बढ़ाना अधिक प्रभावी हो सकता है, जिससे छोटे मॉडल सही संसाधनों के साथ तुलनीय प्रदर्शन प्राप्त करने की अनुमति देते हैं।

दीपसेक का बढ़ता प्रभाव

एंटरप्रेन्योर लियांग वेनफेंग द्वारा 2023 में इसकी स्थापना के बाद से, डीपसेक ने वैश्विक एआई परिदृश्य में जल्दी से प्रमुखता से वृद्धि की है। कंपनी के हाल ही में अपने V3 मॉडल (DEEPSEEK-V3-0324) में अपग्रेड "बढ़ी हुई तर्क क्षमताओं, अनुकूलित फ्रंट-एंड वेब डेवलपमेंट, और अपग्रेड किए गए चीनी लेखन प्रवीणता" का दावा करता है। ओपन-सोर्स एआई के लिए प्रतिबद्ध, डीपसेक ने पांच कोड रिपॉजिटरी जारी की है, समुदाय में सहयोग और नवाचार को बढ़ावा दिया है।

जबकि अफवाहें डीपसेक-आर 2 की संभावित रिलीज के बारे में घूमती हैं, उनके आर 1 रीजनिंग मॉडल के उत्तराधिकारी, कंपनी आधिकारिक चैनलों पर तंग रहती है।

एआई इनाम मॉडल का भविष्य

दीपसेक ने अपने जीआरएम मॉडल को खोलने की योजना बनाई है, हालांकि एक विशिष्ट समयरेखा अज्ञात है। इस कदम से व्यापक प्रयोग और सहयोग को सक्षम करके इनाम मॉडलिंग में प्रगति में तेजी लाने की उम्मीद है।

जैसा कि सुदृढीकरण सीखने के लिए एआई के भविष्य को आकार देना जारी है, त्सिंघुआ विश्वविद्यालय के साथ दीपसेक का काम एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है। फीडबैक की गुणवत्ता और स्केलेबिलिटी पर ध्यान केंद्रित करके, वे एआई सिस्टम बनाने में मुख्य चुनौतियों में से एक से निपट रहे हैं जो मानव वरीयताओं के साथ बेहतर समझ और संरेखित करते हैं।

यह इस बात पर ध्यान केंद्रित करता है कि मॉडल कैसे और कब सीखते हैं, केवल उनके आकार के बजाय, एआई विकास में अभिनव दृष्टिकोण के महत्व को रेखांकित करते हैं। दीपसेक के प्रयास वैश्विक प्रौद्योगिकी को विभाजित कर रहे हैं और एआई को प्राप्त कर सकते हैं की सीमाओं को आगे बढ़ा रहे हैं।

संबंधित लेख
“退化”合成面可能會增強面部識別技術 “退化”合成面可能會增強面部識別技術 密歇根州立大學的研究人員提出了一種創新的方式,將合成面孔用於崇高的原因 - 增強圖像識別系統的準確性。這些合成面無代替導致深層現象的貢獻
DeepCoder通過14B開放模型實現高編碼效率 DeepCoder通過14B開放模型實現高編碼效率 介紹DeepCoder-14b:開源編碼模型的新領域,AI和Agentica的團隊揭幕了DeepCoder-14b,這是一種開創性的編碼模型,與Openai的O3-Mini(例如Openai的O3-Mini)肩並肩。這種令人興奮的發展是基於FO的
使用手機數據和機器學習探索我們的“隱藏訪問” 使用手機數據和機器學習探索我們的“隱藏訪問” 如果您曾經想知道研究人員如何在不依靠電話的情況下跟踪我們整個國家的運動,那麼中國和美國的研究人員的一項令人著迷的研究提供了一些見識。他們的協作工作深入研究了使用機器學習來揭示“隱藏訪問”
सूचना (0)
शीर्ष समाचार
AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है IPhone और iPad पर LiDAR का उपयोग करने के लिए 8 अभिनव तरीके प्रकट हुए "समूह एआई के इको प्रभाव को कम करने के लिए स्विफ्ट उपायों का आग्रह करते हैं" Google.org Unveils $15M AI Training Grants for Government Workers 7 कारण किंडल एक महान खरीद रहे हैं, यहां तक ​​कि डाउनलोड के बिना भी टेलि, एक वाईसी फिटकिरी, एआई वॉयस एजेंटों के लिए पूर्व-बीज फंडिंग सुरक्षित करता है Nvidia नेक्स्ट-जेन GPUs का अनावरण किया: ब्लैकवेल अल्ट्रा, वेरा रुबिन, फेनमैन चुपके पीक: एडोब की नवीनतम परियोजनाओं में उन्नत एआई एजेंट हैं टिंडर उपयोगकर्ता की गिरावट के बीच एआई मैचिंग की खोज करता है

अपने ऑनलाइन डेटा गोपनीयता को पुनः प्राप्त करने के लिए 5 आसान कदम - आज शुरू करें

अधिक
OR