घर समाचार पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन

पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन

4 मई 2025
DavidMartínez
0

पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन

एआई एजेंटों का वर्ष: 2025 की अपेक्षाओं और वास्तविकताओं पर एक करीबी नज़र

2025 को कई विशेषज्ञों द्वारा उस वर्ष के रूप में हेराल्ड किया गया था जब एआई एजेंटों ने उन्नत बड़ी भाषा और ओपनईएआई, एन्थ्रोप्रोपिक, गूगल और डीपसेक जैसी कंपनियों से मल्टीमॉडल मॉडल द्वारा संचालित एआई सिस्टम को अंततः केंद्र चरण लिया था। हालांकि, सोशल नेटवर्क एक्स पर हाल ही में एक वेंचरबीट पोल के अनुसार, अधिकांश एआई एजेंट अभी भी प्रयोगात्मक चरणों में सुस्त हैं, एक प्रकार के कॉर्पोरेट लिम्बो में पकड़े गए हैं।

लेकिन क्षितिज पर आशा की एक झलक है। नॉर्थवेस्टर्न यूनिवर्सिटी, माइक्रोसॉफ्ट, स्टैनफोर्ड और वाशिंगटन विश्वविद्यालय के शोधकर्ताओं के एक सहयोगी प्रयास, ज़ीहान वांग सहित, एक पूर्व दीपसेक शोधकर्ता, जो अब नॉर्थवेस्टर्न में कंप्यूटर विज्ञान में पीएचडी कर रहे हैं, ने रागन को पेश किया है। इस नई प्रणाली का उद्देश्य वास्तविक दुनिया, उद्यम उपयोग के लिए उन्हें अधिक विश्वसनीय और अनुकूल बनाने के लिए एआई एजेंटों को प्रशिक्षित करना और मूल्यांकन करना है।

रैगेन: एआई एजेंटों को प्रशिक्षण देने के लिए एक नया दृष्टिकोण

गणित हल करने या कोड जनरेशन जैसे स्थैतिक कार्यों के विपरीत, रेगेन गतिशील, बहु-टर्न इंटरैक्शन पर ध्यान केंद्रित करता है जहां एजेंटों को अनिश्चितता के बीच अनुकूल, याद रखने और कारण करने की आवश्यकता होती है। सिस्टम एक कस्टम सुदृढीकरण लर्निंग (आरएल) फ्रेमवर्क पर बनाया गया है जिसे स्टारपो (राज्य-सोच-क्रिया-एक्ट-इंडर-इंडरिस नीति अनुकूलन) कहा जाता है, जो रोटे मेमोराइजेशन के बजाय अनुभव के माध्यम से सीखने पर जोर देता है। Starpo पूरे निर्णय लेने के दृश्यों को देखता है, न कि केवल एकल-चरण प्रतिक्रियाओं को।

Starpo दो चरणों में संचालित होता है: एक रोलआउट चरण जहां LLM तर्क द्वारा निर्देशित पूर्ण बातचीत अनुक्रम उत्पन्न करता है, और एक अद्यतन चरण जहां मॉडल को सामान्यीकृत संचयी पुरस्कारों का उपयोग करके अनुकूलित किया जाता है। यह दृष्टिकोण पारंपरिक नीति अनुकूलन विधियों की तुलना में अधिक स्थिर और व्याख्यात्मक सीखने का लूप प्रदान करता है।

शोधकर्ताओं ने अलीबाबा के क्यूवेन मॉडल, विशेष रूप से क्यूवेन 1.5 और क्यूवेन 2.5 के ठीक ट्यून किए गए संस्करणों का उपयोग करके इस ढांचे का परीक्षण किया, उनके खुले वजन और मजबूत निर्देश-निम्नलिखित क्षमताओं के लिए चुना गया। इस विकल्प ने प्रतीकात्मक कार्यों में प्रजनन क्षमता और सुसंगत आधारभूत तुलनाओं को सुविधाजनक बनाया।

इको ट्रैप: सुदृढीकरण सीखने में एक चुनौती

Zihan Wang ने एक व्यापक रूप से साझा किए गए X थ्रेड में RL प्रशिक्षण में एक महत्वपूर्ण मुद्दे पर प्रकाश डाला: * आपका RL प्रशिक्षण हमेशा क्यों ढह जाता है? * टीम ने पहचान की कि LLM एजेंट शुरू में अच्छी तरह से पुनर्जीवित प्रतिक्रियाएं देते हैं, RL सिस्टम अक्सर शॉर्टकट को पुरस्कृत करते हैं, जो दोहराए जाने वाले व्यवहारों के लिए अग्रणी होते हैं, जो कि "प्रतिध्वनि" को कम करते हैं-एक फेनोमेनन ने कहा कि एक फेनोमेनन।

इस प्रतिगमन को फीडबैक लूप्स द्वारा ईंधन दिया जाता है, जहां कुछ वाक्यांश या रणनीतियाँ उच्च पुरस्कार अर्जित करते हैं, जो अति प्रयोग और स्टिफ़लिंग अन्वेषण को प्रोत्साहित करते हैं। लक्षण स्पष्ट हैं: इनाम विचरण चट्टानों, ढाल स्पाइक्स, और तर्क के निशान को गायब करना।

रैगेन का परीक्षण वातावरण

एक नियंत्रित सेटिंग में इन व्यवहारों का अध्ययन करने के लिए, रैगेन तीन प्रतीकात्मक वातावरणों में एजेंटों का मूल्यांकन करता है:

  • दस्यु: एक एकल-टर्न, स्टोकेस्टिक कार्य जो प्रतीकात्मक जोखिम-इनाम तर्क का परीक्षण करता है।
  • सोकोबान: एक बहु-टर्न, नियतात्मक पहेली जिसमें अपरिवर्तनीय निर्णय शामिल हैं।
  • जमे हुए झील: एक स्टोकेस्टिक, बहु-टर्न कार्य के लिए अनुकूली योजना की आवश्यकता होती है।

प्रत्येक वातावरण को वास्तविक दुनिया के पुजारियों को कम करने और प्रशिक्षण के दौरान विकसित निर्णय लेने की रणनीतियों पर ध्यान केंद्रित करने के लिए डिज़ाइन किया गया है। उदाहरण के लिए, दस्यु वातावरण में, एजेंटों को ड्रैगन और फीनिक्स हथियारों के बारे में प्रतीकात्मक रूप से तर्क करना चाहिए, जो विभिन्न इनाम वितरणों का प्रतिनिधित्व करते हैं, उन्हें परिणामों की भविष्यवाणी करने के लिए "शक्ति" और "आशा" के रूप में व्याख्या करते हैं।

Starpo-S के साथ सुदृढीकरण सीखने को स्थिर करना

प्रशिक्षण के पतन का मुकाबला करने के लिए, शोधकर्ताओं ने स्टारपो-एस की शुरुआत की, जो मूल ढांचे का एक स्थिर संस्करण था। Starpo-S में तीन प्रमुख हस्तक्षेप शामिल हैं:

  1. अनिश्चितता-आधारित रोलआउट फ़िल्टरिंग: रोलआउट को प्राथमिकता देना जहां एजेंट परिणाम अनिश्चितता दिखाता है।
  2. केएल पेनल्टी रिमूवल: मॉडल को अपनी मूल नीति से अधिक स्वतंत्र रूप से विचलित करने और नए व्यवहारों का पता लगाने की अनुमति देना।
  3. असममित पीपीओ क्लिपिंग: सीखने को बढ़ावा देने के लिए कम-इनाम वाले से अधिक उच्च-इनाम वाले प्रक्षेपवक्रों को बढ़ाना।

ये परिवर्तन प्रशिक्षण पतन में देरी या समाप्त करने में मदद करते हैं और तीनों कार्यों में प्रदर्शन में सुधार करते हैं। जैसा कि वांग ने कहा, "Starpo-S ... सभी 3 कार्यों में काम करता है। पतन से राहत देता है। बेहतर इनाम।"

एक अच्छा एजेंट एआई मॉडल क्या बनाता है?

आरएल प्रशिक्षण की सफलता न केवल वास्तुकला पर बल्कि एजेंटों द्वारा उत्पन्न डेटा की गुणवत्ता पर भी निर्भर करती है। टीम ने तीन महत्वपूर्ण आयामों की पहचान की जो प्रशिक्षण को काफी प्रभावित करते हैं:

  • कार्य विविधता: मॉडल को प्रारंभिक परिदृश्यों की एक विस्तृत श्रृंखला में उजागर करना सामान्यीकरण में सुधार करता है।
  • इंटरैक्शन ग्रैन्युलैरिटी: प्रति मोड़ कई कार्यों की अनुमति अधिक सार्थक योजना बनाने में सक्षम बनाता है।
  • रोलआउट ताजगी: प्रशिक्षण डेटा को वर्तमान मॉडल नीति के साथ संरेखित रखना पुरानी सीखने के संकेतों से बचा जाता है।

ये कारक अधिक स्थिर और प्रभावी प्रशिक्षण प्रक्रिया में योगदान करते हैं। GitHub पर एक इंटरैक्टिव डेमो साइट एजेंट रोलआउट को पूर्ण संवाद के रूप में देखती है, जिसमें न केवल क्रियाएं भी शामिल हैं, बल्कि चरण-दर-चरण विचार प्रक्रिया जो उन्हें पहले करती है। उदाहरण के लिए, एक गणित की समस्या को हल करने में, एक एजेंट पहले 'x = 5' जैसे उत्तर को प्रस्तुत करने से पहले एक चर को अलग करने के बारे में 'सोच' सकता है। ये मध्यवर्ती विचार दिखाई देते हैं और पता लगाने योग्य हैं, जिससे एजेंट निर्णय लेते हैं कि पारदर्शिता को जोड़ते हैं।

जब तर्क बाहर निकलता है

जबकि स्पष्ट तर्क बैंडिट जैसे सरल, एकल-टर्न कार्यों में प्रदर्शन को बढ़ाता है, यह मल्टी-टर्न प्रशिक्षण के दौरान क्षय हो जाता है। संरचित संकेतों और टोकन का उपयोग करने के बावजूद, तर्क के निशान अक्सर सिकुड़ जाते हैं या गायब हो जाते हैं जब तक कि सीधे पुरस्कृत न हो। यह एक सीमा पर प्रकाश डालता है कि पुरस्कारों को आमतौर पर कैसे डिज़ाइन किया जाता है: कार्य पूरा होने पर ध्यान केंद्रित करने से इसके पीछे प्रक्रिया की गुणवत्ता की उपेक्षा हो सकती है। टीम ने बेहतर-संरचित तर्क को प्रोत्साहित करने के लिए प्रारूप-आधारित दंड के साथ प्रयोग किया, लेकिन स्वीकार किया कि अधिक परिष्कृत इनाम आकार देने की आवश्यकता है।

खुले उपकरण और भविष्य के निर्देश

Ragen, अपने Starpo और Starpo-S फ्रेमवर्क के साथ, अब https://github.com/ragen-ai/ragen पर एक ओपन-सोर्स परियोजना के रूप में उपलब्ध है। हालांकि, लेखन के समय, कोई स्पष्ट लाइसेंस GitHub रिपॉजिटरी में सूचीबद्ध नहीं है, जो इसके उपयोग या पुनर्वितरण को दूसरों द्वारा सीमित कर सकता है।

सिस्टम एआई एजेंटों को विकसित करने में रुचि रखने वालों के लिए एक मूल्यवान नींव प्रदान करता है जो न केवल पूर्ण कार्यों को पूरा करते हैं, बल्कि सोचते हैं, योजना बनाते हैं, और विकसित होते हैं। जैसा कि एआई अधिक स्वायत्तता की ओर बढ़ता है, रैगेन जैसी परियोजनाएं उन मॉडल को प्रशिक्षित करने में मदद करती हैं जो अपने स्वयं के कार्यों के परिणामों से सीखते हैं।

वास्तविक दुनिया के उद्यम गोद लेने के लिए बकाया प्रश्न

जबकि रैगेन पेपर एक विस्तृत तकनीकी रोडमैप प्रदान करता है, एंटरप्राइज़ सेटिंग्स में इन तरीकों को लागू करने के इच्छुक लोगों के लिए कई व्यावहारिक प्रश्न बने हुए हैं। उदाहरण के लिए, स्टाइल, प्रतीकात्मक कार्यों से परे रेगेन का दृष्टिकोण कितना हस्तांतरणीय है? क्या व्यवसायों को इस प्रणाली का उपयोग करने के लिए पूरी तरह से नए वातावरण और पुरस्कृत कार्यों को डिजाइन करने की आवश्यकता होगी जैसे कि इनवॉइस प्रसंस्करण या ग्राहक सहायता जैसे वर्कफ़्लोज़ में?

वांग, एक्स पर उद्यम करने के लिए एक सीधा संदेश में, सुझाव दिया कि कार्य विविधता में सुधार करने से मदद मिल सकती है, क्योंकि वर्तमान गेमिंग कार्यों में केवल ग्रिड प्रतिनिधित्व समान है, लेकिन अर्थ संबंधी जानकारी की कमी है। उन्होंने रागन का उपयोग करके एआई एजेंटों के लिए अपने स्वयं के प्रशिक्षण अभ्यासों को डिजाइन करने वाले व्यवसायों के बारे में आशावाद भी व्यक्त किया, यह देखते हुए कि GitHub लिंक नए वातावरण को जोड़ने के लिए एक सरल परिचय प्रदान करता है।

एक और महत्वपूर्ण क्षेत्र स्केलेबिलिटी है। यहां तक ​​कि Starpo-S द्वारा प्रदान की गई संवर्द्धन के साथ, पेपर स्वीकार करता है कि प्रशिक्षण अभी भी अंततः लंबे समय तक क्षितिज पर ढह जाता है। यह सवाल उठाता है: क्या खुले अंत या लगातार विकसित होने वाले कार्य अनुक्रमों पर तर्क को बनाए रखने के लिए एक सैद्धांतिक या व्यावहारिक मार्ग है?

लेखन के समय, कोई भी स्पष्ट लाइसेंस रैगेन गिथब रिपॉजिटरी या प्रलेखन में सूचीबद्ध नहीं है, जो उपयोग के अधिकारों के बारे में खुले प्रश्न छोड़ता है। बहरहाल, रैगेन न केवल एक तकनीकी योगदान के रूप में, बल्कि अधिक स्वायत्त, तर्क-सक्षम एआई एजेंटों की ओर एक वैचारिक कदम के रूप में बाहर खड़ा है। चाहे वह एंटरप्राइज एआई स्टैक का हिस्सा बन जाए, यह देखा जाना बाकी है, लेकिन एजेंट लर्निंग डायनेमिक्स में इसकी अंतर्दृष्टि पहले से ही एलएलएम प्रशिक्षण के सीमा को फिर से परिभाषित करने में मदद कर रही है।

संबंधित लेख
Gaia presenta un nuevo punto de referencia en busca de la verdadera inteligencia más allá de Arc-Agi Gaia presenta un nuevo punto de referencia en busca de la verdadera inteligencia más allá de Arc-Agi La inteligencia está en todas partes, pero medirla con precisión se siente como tratar de atrapar una nube con las manos desnudas. Utilizamos pruebas y puntos de referencia, como los exámenes de ingreso a la universidad, para tener una idea aproximada. Cada año, los estudiantes se agrupan por estas pruebas, a veces incluso anotando un 100%perfecto. Pero ese puntaje perfecto m
Llega la búsqueda profunda abierta para desafiar la perplejidad y la búsqueda de chatgpt Llega la búsqueda profunda abierta para desafiar la perplejidad y la búsqueda de chatgpt Si está en el mundo tecnológico, es probable que haya escuchado sobre el rumor que rodea Open Deep Search (ODS), el nuevo marco de código abierto de la Fundación Sentient. ODS está haciendo olas ofreciendo una alternativa robusta a los motores de búsqueda de IA patentados como la perplejidad y la búsqueda de chatgpt, y se trata de
MCP estandariza la conectividad de IA con herramientas y datos: surge un nuevo protocolo MCP estandariza la conectividad de IA con herramientas y datos: surge un nuevo protocolo Si te estás sumergiendo en el mundo de la inteligencia artificial (IA), probablemente hayas notado lo crucial que es obtener diferentes modelos de IA, fuentes de datos y herramientas para jugar bien juntos. Ahí es donde entra el Protocolo de contexto del modelo (MCP), actuando como un cambio de juego en la estandarización de la conectividad de IA. T
सूचना (0)
शीर्ष समाचार
यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं वाइल्डफायर डिटेक्शन में एक सफलता: कैसे उपग्रहों का एक नया नक्षत्र पहले छोटे जंगल की आग का पता लगा सकता है एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है Google.org Unveils $15M AI Training Grants for Government Workers एआई नैतिकता की उपेक्षा करना भारी जोखिम पैदा करता है: एआई को जिम्मेदारी से कैसे लागू किया जाए AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है Adobe 10 विशिष्ट AI एजेंटों का अनावरण करता है: उनके व्यावसायिक अनुप्रयोगों की खोज करें AI एप्लिकेशन में उद्यमों का मार्गदर्शन करने के लिए Workhelix अनुसंधान के वर्षों का लाभ उठाता है
अधिक
Back to Top
OR