Google की दीपमाइंड यूनिट का कहना है कि AI मानव ज्ञान से परे हो गया है
25 अप्रैल 2025
JuanLewis
0
पारंपरिक परीक्षणों से परे एआई को आगे बढ़ाना: अनुभवात्मक सीखने का उदय
आर्टिफिशियल इंटेलिजेंस (एआई) का क्षेत्र ट्यूरिंग टेस्ट की तरह पारंपरिक बेंचमार्क की सीमाओं से परे जेनेरिक एआई को आगे बढ़ाने के प्रयासों से गुलजार है, जो कई मॉडल पहले ही पार हो चुके हैं। ध्यान अब एआई को विकसित करने के लिए बदल जाता है जो केवल इन परीक्षणों को इक्का करने के लिए डिज़ाइन नहीं किया गया है, बल्कि एक अधिक गतिशील प्रक्रिया के माध्यम से विकसित करने के लिए है।
डेविड सिल्वर और रिचर्ड सटन जैसे किंवदंतियों सहित Google के दीपमाइंड के शोधकर्ताओं ने अपने पेपर में अनुभव के युग में स्वागत किया है कि नई AI क्षमताओं को अनलॉक करने की कुंजी परीक्षणों में नहीं है, लेकिन जिस तरह से AI को प्रशिक्षित किया जाता है। वे सुझाव देते हैं कि वर्तमान में उपयोग किए जाने वाले स्थैतिक डेटासेट महत्वपूर्ण प्रगति को बढ़ावा देने के लिए बहुत सीमित हैं।
उनका समाधान? एआई को दुनिया के साथ अधिक अनुभवात्मक तरीके से संलग्न करने की आवश्यकता है, बातचीत से सीखना और पर्यावरणीय प्रतिक्रिया के आधार पर लक्ष्यों को निर्धारित करना। "अविश्वसनीय नई क्षमताएं उत्पन्न होंगी एक बार एक बार अनुभवात्मक सीखने की पूरी क्षमता का दोहन किया जाता है," वे जोर देते हैं। सिल्वर, अल्फाज़ेरो पर अपने काम के लिए जाना जाता है, जिसने शतरंज और गो में मनुष्यों को सर्वश्रेष्ठ किया, और सुदृढीकरण सीखने में एक अग्रणी, सटन, वर्तमान बड़े भाषा मॉडल (एलएलएम) की सीमाओं को पार करने के लिए "धाराओं" नामक एक नए दृष्टिकोण का प्रस्ताव करता है।

Google DeepMind
सुदृढीकरण सीखने से लेकर जेनेरिक एआई तक: एक शिफ्ट और इसके परिणाम
अल्फाज़ेरो और अल्फ़ागो की सफलताओं के बाद, एआई समुदाय ने चैटगिप जैसे जनरेटिव एआई मॉडल की ओर एक बदलाव देखा, जो काफी हद तक सुदृढीकरण सीखने से दूर चला गया। जबकि इसने एआई को सहज मानव इनपुट की एक विस्तृत श्रृंखला को संभालने की अनुमति दी, इसका मतलब यह भी था कि आत्म-खोज पहलू को खोना जो सुदृढीकरण सीखने में सक्षम था।
सिल्वर और सटन के अनुसार, वर्तमान एलएलएम शीघ्र चरण में मानव निर्णय पर बहुत भरोसा करते हैं, जो उनकी क्षमता को सीमित करता है। "एजेंट मानव रैटर द्वारा कम से कम बेहतर रणनीतियों की खोज नहीं कर सकता है," वे समझाते हैं। इसके अलावा, त्वरित बातचीत की छोटी, क्लिप्ड प्रकृति एआई को सरल प्रश्न-और-विषम एक्सचेंजों से परे विकसित करने की अनुमति नहीं देती है।
परिचय धाराएँ: एआई लर्निंग के लिए एक नया प्रतिमान
प्रस्तावित "अनुभव की आयु" में एआई एजेंट शामिल हैं जो निरंतर बातचीत के "धाराओं" के भीतर काम कर रहे हैं, जैसे कि मनुष्य जीवन भर सीखते हैं। सिल्वर और सटन ने एआई एजेंटों को अपने स्वयं के दीर्घकालिक धाराओं के साथ कल्पना की, जिससे वे तत्काल कार्यों से परे लक्ष्यों को आगे बढ़ाने में सक्षम बनाते हैं।
यह दृष्टिकोण सुदृढीकरण सीखने पर बनाता है, जहां एआई एजेंट दुनिया के एक मॉडल के साथ बातचीत करते हैं, पुरस्कारों के रूप में प्रतिक्रिया प्राप्त करते हैं। ये पुरस्कार एआई को यह जानने में मदद करते हैं कि विभिन्न संदर्भों में कौन से कार्य मूल्यवान हैं। शोधकर्ता बताते हैं कि दुनिया उन संकेतों से समृद्ध है जो आर्थिक संकेतकों से लेकर स्वास्थ्य मैट्रिक्स तक, पुरस्कार के रूप में काम कर सकते हैं।
दीर्घकालिक लक्ष्यों के साथ एआई एजेंटों का निर्माण
इस प्रक्रिया को किकस्टार्ट करने के लिए, एआई डेवलपर्स एक "विश्व मॉडल" सिमुलेशन का उपयोग कर सकते हैं, एआई को भविष्यवाणियां करने, वास्तविकता में उनका परीक्षण करने और परिणामों के आधार पर इसके मॉडल को परिष्कृत करने की अनुमति देता है। जैसा कि एआई दुनिया के साथ बातचीत करना जारी रखता है, इसकी समझ विकसित होती है, नए डेटा के अनुकूल होती है और त्रुटियों को सही करती है।
मनुष्य अभी भी व्यापक लक्ष्यों को निर्धारित करने में एक भूमिका निभाएगा, जैसे कि फिटनेस में सुधार करना या एक नई भाषा सीखना, एआई के इनाम समारोह के साथ इन उद्देश्यों से जुड़ा हुआ है। यह सेटअप एआई सहायकों को जन्म दे सकता है जो विस्तारित अवधि में स्वास्थ्य या शिक्षा को ट्रैक और सलाह देते हैं, या यहां तक कि नई सामग्रियों की खोज या कार्बन उत्सर्जन को कम करने जैसे महत्वाकांक्षी वैज्ञानिक लक्ष्यों का पीछा करते हैं।
एआई का भविष्य: अनुभवात्मक सीखने के लिए तर्क से परे
शोधकर्ताओं का मानना है कि लंबे समय तक अनुभवात्मक सीखने में सक्षम एआई एजेंट मिथुन और डीपसेक के आर 1 जैसे वर्तमान "तर्क" एआई मॉडल को पार कर सकते हैं। उनका तर्क है कि तर्क मॉडल अक्सर मानव विचार की नकल करते हैं, जो पुरानी मान्यताओं द्वारा सीमित हो सकता है। इसके विपरीत, अनुभवात्मक एजेंट अभूतपूर्व क्षमताओं को अनलॉक कर सकते हैं, जो हमने जो देखा है उससे भविष्य के लिए एक भविष्य के लिए अग्रणी है।
हालांकि, यह बदलाव भी जोखिम लाता है, जैसे कि नौकरी विस्थापन और एआई एजेंटों को नियंत्रित करने की चुनौती जो लंबे समय तक स्वायत्त रूप से काम कर सकते हैं। दूसरी तरफ, अनुकूलनीय एआई प्रतिक्रिया के आधार पर इसके व्यवहार को समायोजित करके मनुष्यों पर नकारात्मक प्रभावों को कम करना सीख सकता है।
सिल्वर और सटन को भरोसा है कि अनुभवात्मक डेटा मानव-जनित डेटा के पैमाने और गुणवत्ता को पार कर जाएगा, संभवतः कृत्रिम सामान्य बुद्धि या सुपर-इंटेलिजेंस के लिए अग्रणी है। यह प्रतिमान बदलाव, सुदृढीकरण सीखने में प्रगति के साथ मिलकर, कई डोमेन में मानव पहुंच से परे नई क्षमताओं को अनलॉक कर सकता है।
सिल्वर ने हाल ही में दीपमाइंड पॉडकास्ट में इन विचारों पर चर्चा की, एआई को अनुभव के युग में स्थानांतरित करने की क्षमता और चुनौतियों को उजागर किया।
संबंधित लेख
Microsoft Copilot बनाम Copilot Pro: क्या सदस्यता लागत के लायक है?
Microsoft का कोपिलॉट टूल एक बहुमुखी AI चैटबोट है जिसे आप एक समर्पित वेबपेज, एक मोबाइल ऐप, या विंडोज में अंतर्निहित सुविधा के रूप में मुफ्त में एक्सेस कर सकते हैं। यह आपके प्रश्नों का उत्तर देने, सामग्री उत्पन्न करने और यहां तक कि छवियों बनाने के लिए डिज़ाइन किया गया है। हालाँकि, यदि आप अधिक उन्नत सुविधाओं की तलाश कर रहे हैं, तो माइक
चाइम नोट एआई वॉयस रिकॉर्डर की समीक्षा: सुविधाएँ और व्यावहारिक अनुप्रयोग
हमारी तेज-तर्रार दुनिया में, प्रभावी रूप से जानकारी का प्रबंधन करना आवश्यक हो गया है। चाइम नोट एआई वॉयस रिकॉर्डर दर्ज करें, एक गेम-चेंजर जो उपयोगकर्ता के अनुकूल डिजाइन के साथ अत्याधुनिक एआई तकनीक को जोड़ती है। यह डिवाइस रिकॉर्डिंग से लेकर ट्रांसक्राइबिंग तक वॉयस डेटा को संभालने के तरीके को बदलने के लिए सेट है
Microsoft कर्मचारी को समाप्त करता है जिसने AI कार्यकारी को 'युद्ध मुनाफाखोर' कहा है
Microsoft 50 वीं वर्षगांठ की घटना में विघटन के बाद कर्मचारी को समाप्त कर देता है, Microsoft ने कंपनी के 50 वें-वर्षगांठ समारोह में एक व्यवधान के बाद एक कर्मचारी, इब्टीहल अबसैड को खारिज कर दिया है। द वर्ज द्वारा प्राप्त एक ईमेल के अनुसार, Microsoft ने "कदाचार के कृत्यों" का हवाला दिया क्योंकि एक कारण के रूप में
सूचना (0)
0/200






पारंपरिक परीक्षणों से परे एआई को आगे बढ़ाना: अनुभवात्मक सीखने का उदय
आर्टिफिशियल इंटेलिजेंस (एआई) का क्षेत्र ट्यूरिंग टेस्ट की तरह पारंपरिक बेंचमार्क की सीमाओं से परे जेनेरिक एआई को आगे बढ़ाने के प्रयासों से गुलजार है, जो कई मॉडल पहले ही पार हो चुके हैं। ध्यान अब एआई को विकसित करने के लिए बदल जाता है जो केवल इन परीक्षणों को इक्का करने के लिए डिज़ाइन नहीं किया गया है, बल्कि एक अधिक गतिशील प्रक्रिया के माध्यम से विकसित करने के लिए है।
डेविड सिल्वर और रिचर्ड सटन जैसे किंवदंतियों सहित Google के दीपमाइंड के शोधकर्ताओं ने अपने पेपर में अनुभव के युग में स्वागत किया है कि नई AI क्षमताओं को अनलॉक करने की कुंजी परीक्षणों में नहीं है, लेकिन जिस तरह से AI को प्रशिक्षित किया जाता है। वे सुझाव देते हैं कि वर्तमान में उपयोग किए जाने वाले स्थैतिक डेटासेट महत्वपूर्ण प्रगति को बढ़ावा देने के लिए बहुत सीमित हैं।
उनका समाधान? एआई को दुनिया के साथ अधिक अनुभवात्मक तरीके से संलग्न करने की आवश्यकता है, बातचीत से सीखना और पर्यावरणीय प्रतिक्रिया के आधार पर लक्ष्यों को निर्धारित करना। "अविश्वसनीय नई क्षमताएं उत्पन्न होंगी एक बार एक बार अनुभवात्मक सीखने की पूरी क्षमता का दोहन किया जाता है," वे जोर देते हैं। सिल्वर, अल्फाज़ेरो पर अपने काम के लिए जाना जाता है, जिसने शतरंज और गो में मनुष्यों को सर्वश्रेष्ठ किया, और सुदृढीकरण सीखने में एक अग्रणी, सटन, वर्तमान बड़े भाषा मॉडल (एलएलएम) की सीमाओं को पार करने के लिए "धाराओं" नामक एक नए दृष्टिकोण का प्रस्ताव करता है।
सुदृढीकरण सीखने से लेकर जेनेरिक एआई तक: एक शिफ्ट और इसके परिणाम
अल्फाज़ेरो और अल्फ़ागो की सफलताओं के बाद, एआई समुदाय ने चैटगिप जैसे जनरेटिव एआई मॉडल की ओर एक बदलाव देखा, जो काफी हद तक सुदृढीकरण सीखने से दूर चला गया। जबकि इसने एआई को सहज मानव इनपुट की एक विस्तृत श्रृंखला को संभालने की अनुमति दी, इसका मतलब यह भी था कि आत्म-खोज पहलू को खोना जो सुदृढीकरण सीखने में सक्षम था।
सिल्वर और सटन के अनुसार, वर्तमान एलएलएम शीघ्र चरण में मानव निर्णय पर बहुत भरोसा करते हैं, जो उनकी क्षमता को सीमित करता है। "एजेंट मानव रैटर द्वारा कम से कम बेहतर रणनीतियों की खोज नहीं कर सकता है," वे समझाते हैं। इसके अलावा, त्वरित बातचीत की छोटी, क्लिप्ड प्रकृति एआई को सरल प्रश्न-और-विषम एक्सचेंजों से परे विकसित करने की अनुमति नहीं देती है।
परिचय धाराएँ: एआई लर्निंग के लिए एक नया प्रतिमान
प्रस्तावित "अनुभव की आयु" में एआई एजेंट शामिल हैं जो निरंतर बातचीत के "धाराओं" के भीतर काम कर रहे हैं, जैसे कि मनुष्य जीवन भर सीखते हैं। सिल्वर और सटन ने एआई एजेंटों को अपने स्वयं के दीर्घकालिक धाराओं के साथ कल्पना की, जिससे वे तत्काल कार्यों से परे लक्ष्यों को आगे बढ़ाने में सक्षम बनाते हैं।
यह दृष्टिकोण सुदृढीकरण सीखने पर बनाता है, जहां एआई एजेंट दुनिया के एक मॉडल के साथ बातचीत करते हैं, पुरस्कारों के रूप में प्रतिक्रिया प्राप्त करते हैं। ये पुरस्कार एआई को यह जानने में मदद करते हैं कि विभिन्न संदर्भों में कौन से कार्य मूल्यवान हैं। शोधकर्ता बताते हैं कि दुनिया उन संकेतों से समृद्ध है जो आर्थिक संकेतकों से लेकर स्वास्थ्य मैट्रिक्स तक, पुरस्कार के रूप में काम कर सकते हैं।
दीर्घकालिक लक्ष्यों के साथ एआई एजेंटों का निर्माण
इस प्रक्रिया को किकस्टार्ट करने के लिए, एआई डेवलपर्स एक "विश्व मॉडल" सिमुलेशन का उपयोग कर सकते हैं, एआई को भविष्यवाणियां करने, वास्तविकता में उनका परीक्षण करने और परिणामों के आधार पर इसके मॉडल को परिष्कृत करने की अनुमति देता है। जैसा कि एआई दुनिया के साथ बातचीत करना जारी रखता है, इसकी समझ विकसित होती है, नए डेटा के अनुकूल होती है और त्रुटियों को सही करती है।
मनुष्य अभी भी व्यापक लक्ष्यों को निर्धारित करने में एक भूमिका निभाएगा, जैसे कि फिटनेस में सुधार करना या एक नई भाषा सीखना, एआई के इनाम समारोह के साथ इन उद्देश्यों से जुड़ा हुआ है। यह सेटअप एआई सहायकों को जन्म दे सकता है जो विस्तारित अवधि में स्वास्थ्य या शिक्षा को ट्रैक और सलाह देते हैं, या यहां तक कि नई सामग्रियों की खोज या कार्बन उत्सर्जन को कम करने जैसे महत्वाकांक्षी वैज्ञानिक लक्ष्यों का पीछा करते हैं।
एआई का भविष्य: अनुभवात्मक सीखने के लिए तर्क से परे
शोधकर्ताओं का मानना है कि लंबे समय तक अनुभवात्मक सीखने में सक्षम एआई एजेंट मिथुन और डीपसेक के आर 1 जैसे वर्तमान "तर्क" एआई मॉडल को पार कर सकते हैं। उनका तर्क है कि तर्क मॉडल अक्सर मानव विचार की नकल करते हैं, जो पुरानी मान्यताओं द्वारा सीमित हो सकता है। इसके विपरीत, अनुभवात्मक एजेंट अभूतपूर्व क्षमताओं को अनलॉक कर सकते हैं, जो हमने जो देखा है उससे भविष्य के लिए एक भविष्य के लिए अग्रणी है।
हालांकि, यह बदलाव भी जोखिम लाता है, जैसे कि नौकरी विस्थापन और एआई एजेंटों को नियंत्रित करने की चुनौती जो लंबे समय तक स्वायत्त रूप से काम कर सकते हैं। दूसरी तरफ, अनुकूलनीय एआई प्रतिक्रिया के आधार पर इसके व्यवहार को समायोजित करके मनुष्यों पर नकारात्मक प्रभावों को कम करना सीख सकता है।
सिल्वर और सटन को भरोसा है कि अनुभवात्मक डेटा मानव-जनित डेटा के पैमाने और गुणवत्ता को पार कर जाएगा, संभवतः कृत्रिम सामान्य बुद्धि या सुपर-इंटेलिजेंस के लिए अग्रणी है। यह प्रतिमान बदलाव, सुदृढीकरण सीखने में प्रगति के साथ मिलकर, कई डोमेन में मानव पहुंच से परे नई क्षमताओं को अनलॉक कर सकता है।
सिल्वर ने हाल ही में दीपमाइंड पॉडकास्ट में इन विचारों पर चर्चा की, एआई को अनुभव के युग में स्थानांतरित करने की क्षमता और चुनौतियों को उजागर किया।












