पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन

एआई एजेंटों का वर्ष: 2025 की अपेक्षाओं और वास्तविकताओं पर एक करीबी नज़र
2025 को कई विशेषज्ञों द्वारा उस वर्ष के रूप में हेराल्ड किया गया था जब एआई एजेंटों ने उन्नत बड़ी भाषा और ओपनईएआई, एन्थ्रोप्रोपिक, गूगल और डीपसेक जैसी कंपनियों से मल्टीमॉडल मॉडल द्वारा संचालित एआई सिस्टम को अंततः केंद्र चरण लिया था। हालांकि, सोशल नेटवर्क एक्स पर हाल ही में एक वेंचरबीट पोल के अनुसार, अधिकांश एआई एजेंट अभी भी प्रयोगात्मक चरणों में सुस्त हैं, एक प्रकार के कॉर्पोरेट लिम्बो में पकड़े गए हैं।
लेकिन क्षितिज पर आशा की एक झलक है। नॉर्थवेस्टर्न यूनिवर्सिटी, माइक्रोसॉफ्ट, स्टैनफोर्ड और वाशिंगटन विश्वविद्यालय के शोधकर्ताओं के एक सहयोगी प्रयास, ज़ीहान वांग सहित, एक पूर्व दीपसेक शोधकर्ता, जो अब नॉर्थवेस्टर्न में कंप्यूटर विज्ञान में पीएचडी कर रहे हैं, ने रागन को पेश किया है। इस नई प्रणाली का उद्देश्य वास्तविक दुनिया, उद्यम उपयोग के लिए उन्हें अधिक विश्वसनीय और अनुकूल बनाने के लिए एआई एजेंटों को प्रशिक्षित करना और मूल्यांकन करना है।
रैगेन: एआई एजेंटों को प्रशिक्षण देने के लिए एक नया दृष्टिकोण
गणित हल करने या कोड जनरेशन जैसे स्थैतिक कार्यों के विपरीत, रेगेन गतिशील, बहु-टर्न इंटरैक्शन पर ध्यान केंद्रित करता है जहां एजेंटों को अनिश्चितता के बीच अनुकूल, याद रखने और कारण करने की आवश्यकता होती है। सिस्टम एक कस्टम सुदृढीकरण लर्निंग (आरएल) फ्रेमवर्क पर बनाया गया है जिसे स्टारपो (राज्य-सोच-क्रिया-एक्ट-इंडर-इंडरिस नीति अनुकूलन) कहा जाता है, जो रोटे मेमोराइजेशन के बजाय अनुभव के माध्यम से सीखने पर जोर देता है। Starpo पूरे निर्णय लेने के दृश्यों को देखता है, न कि केवल एकल-चरण प्रतिक्रियाओं को।
Starpo दो चरणों में संचालित होता है: एक रोलआउट चरण जहां LLM तर्क द्वारा निर्देशित पूर्ण बातचीत अनुक्रम उत्पन्न करता है, और एक अद्यतन चरण जहां मॉडल को सामान्यीकृत संचयी पुरस्कारों का उपयोग करके अनुकूलित किया जाता है। यह दृष्टिकोण पारंपरिक नीति अनुकूलन विधियों की तुलना में अधिक स्थिर और व्याख्यात्मक सीखने का लूप प्रदान करता है।
शोधकर्ताओं ने अलीबाबा के क्यूवेन मॉडल, विशेष रूप से क्यूवेन 1.5 और क्यूवेन 2.5 के ठीक ट्यून किए गए संस्करणों का उपयोग करके इस ढांचे का परीक्षण किया, उनके खुले वजन और मजबूत निर्देश-निम्नलिखित क्षमताओं के लिए चुना गया। इस विकल्प ने प्रतीकात्मक कार्यों में प्रजनन क्षमता और सुसंगत आधारभूत तुलनाओं को सुविधाजनक बनाया।
इको ट्रैप: सुदृढीकरण सीखने में एक चुनौती
Zihan Wang ने एक व्यापक रूप से साझा किए गए X थ्रेड में RL प्रशिक्षण में एक महत्वपूर्ण मुद्दे पर प्रकाश डाला: * आपका RL प्रशिक्षण हमेशा क्यों ढह जाता है? * टीम ने पहचान की कि LLM एजेंट शुरू में अच्छी तरह से पुनर्जीवित प्रतिक्रियाएं देते हैं, RL सिस्टम अक्सर शॉर्टकट को पुरस्कृत करते हैं, जो दोहराए जाने वाले व्यवहारों के लिए अग्रणी होते हैं, जो कि "प्रतिध्वनि" को कम करते हैं-एक फेनोमेनन ने कहा कि एक फेनोमेनन।
इस प्रतिगमन को फीडबैक लूप्स द्वारा ईंधन दिया जाता है, जहां कुछ वाक्यांश या रणनीतियाँ उच्च पुरस्कार अर्जित करते हैं, जो अति प्रयोग और स्टिफ़लिंग अन्वेषण को प्रोत्साहित करते हैं। लक्षण स्पष्ट हैं: इनाम विचरण चट्टानों, ढाल स्पाइक्स, और तर्क के निशान को गायब करना।
रैगेन का परीक्षण वातावरण
एक नियंत्रित सेटिंग में इन व्यवहारों का अध्ययन करने के लिए, रैगेन तीन प्रतीकात्मक वातावरणों में एजेंटों का मूल्यांकन करता है:
- दस्यु: एक एकल-टर्न, स्टोकेस्टिक कार्य जो प्रतीकात्मक जोखिम-इनाम तर्क का परीक्षण करता है।
- सोकोबान: एक बहु-टर्न, नियतात्मक पहेली जिसमें अपरिवर्तनीय निर्णय शामिल हैं।
- जमे हुए झील: एक स्टोकेस्टिक, बहु-टर्न कार्य के लिए अनुकूली योजना की आवश्यकता होती है।
प्रत्येक वातावरण को वास्तविक दुनिया के पुजारियों को कम करने और प्रशिक्षण के दौरान विकसित निर्णय लेने की रणनीतियों पर ध्यान केंद्रित करने के लिए डिज़ाइन किया गया है। उदाहरण के लिए, दस्यु वातावरण में, एजेंटों को ड्रैगन और फीनिक्स हथियारों के बारे में प्रतीकात्मक रूप से तर्क करना चाहिए, जो विभिन्न इनाम वितरणों का प्रतिनिधित्व करते हैं, उन्हें परिणामों की भविष्यवाणी करने के लिए "शक्ति" और "आशा" के रूप में व्याख्या करते हैं।
Starpo-S के साथ सुदृढीकरण सीखने को स्थिर करना
प्रशिक्षण के पतन का मुकाबला करने के लिए, शोधकर्ताओं ने स्टारपो-एस की शुरुआत की, जो मूल ढांचे का एक स्थिर संस्करण था। Starpo-S में तीन प्रमुख हस्तक्षेप शामिल हैं:
- अनिश्चितता-आधारित रोलआउट फ़िल्टरिंग: रोलआउट को प्राथमिकता देना जहां एजेंट परिणाम अनिश्चितता दिखाता है।
- केएल पेनल्टी रिमूवल: मॉडल को अपनी मूल नीति से अधिक स्वतंत्र रूप से विचलित करने और नए व्यवहारों का पता लगाने की अनुमति देना।
- असममित पीपीओ क्लिपिंग: सीखने को बढ़ावा देने के लिए कम-इनाम वाले से अधिक उच्च-इनाम वाले प्रक्षेपवक्रों को बढ़ाना।
ये परिवर्तन प्रशिक्षण पतन में देरी या समाप्त करने में मदद करते हैं और तीनों कार्यों में प्रदर्शन में सुधार करते हैं। जैसा कि वांग ने कहा, "Starpo-S ... सभी 3 कार्यों में काम करता है। पतन से राहत देता है। बेहतर इनाम।"
एक अच्छा एजेंट एआई मॉडल क्या बनाता है?
आरएल प्रशिक्षण की सफलता न केवल वास्तुकला पर बल्कि एजेंटों द्वारा उत्पन्न डेटा की गुणवत्ता पर भी निर्भर करती है। टीम ने तीन महत्वपूर्ण आयामों की पहचान की जो प्रशिक्षण को काफी प्रभावित करते हैं:
- कार्य विविधता: मॉडल को प्रारंभिक परिदृश्यों की एक विस्तृत श्रृंखला में उजागर करना सामान्यीकरण में सुधार करता है।
- इंटरैक्शन ग्रैन्युलैरिटी: प्रति मोड़ कई कार्यों की अनुमति अधिक सार्थक योजना बनाने में सक्षम बनाता है।
- रोलआउट ताजगी: प्रशिक्षण डेटा को वर्तमान मॉडल नीति के साथ संरेखित रखना पुरानी सीखने के संकेतों से बचा जाता है।
ये कारक अधिक स्थिर और प्रभावी प्रशिक्षण प्रक्रिया में योगदान करते हैं। GitHub पर एक इंटरैक्टिव डेमो साइट एजेंट रोलआउट को पूर्ण संवाद के रूप में देखती है, जिसमें न केवल क्रियाएं भी शामिल हैं, बल्कि चरण-दर-चरण विचार प्रक्रिया जो उन्हें पहले करती है। उदाहरण के लिए, एक गणित की समस्या को हल करने में, एक एजेंट पहले 'x = 5' जैसे उत्तर को प्रस्तुत करने से पहले एक चर को अलग करने के बारे में 'सोच' सकता है। ये मध्यवर्ती विचार दिखाई देते हैं और पता लगाने योग्य हैं, जिससे एजेंट निर्णय लेते हैं कि पारदर्शिता को जोड़ते हैं।
जब तर्क बाहर निकलता है
जबकि स्पष्ट तर्क बैंडिट जैसे सरल, एकल-टर्न कार्यों में प्रदर्शन को बढ़ाता है, यह मल्टी-टर्न प्रशिक्षण के दौरान क्षय हो जाता है। संरचित संकेतों और टोकन का उपयोग करने के बावजूद, तर्क के निशान अक्सर सिकुड़ जाते हैं या गायब हो जाते हैं जब तक कि सीधे पुरस्कृत न हो। यह एक सीमा पर प्रकाश डालता है कि पुरस्कारों को आमतौर पर कैसे डिज़ाइन किया जाता है: कार्य पूरा होने पर ध्यान केंद्रित करने से इसके पीछे प्रक्रिया की गुणवत्ता की उपेक्षा हो सकती है। टीम ने बेहतर-संरचित तर्क को प्रोत्साहित करने के लिए प्रारूप-आधारित दंड के साथ प्रयोग किया, लेकिन स्वीकार किया कि अधिक परिष्कृत इनाम आकार देने की आवश्यकता है।
खुले उपकरण और भविष्य के निर्देश
Ragen, अपने Starpo और Starpo-S फ्रेमवर्क के साथ, अब https://github.com/ragen-ai/ragen पर एक ओपन-सोर्स परियोजना के रूप में उपलब्ध है। हालांकि, लेखन के समय, कोई स्पष्ट लाइसेंस GitHub रिपॉजिटरी में सूचीबद्ध नहीं है, जो इसके उपयोग या पुनर्वितरण को दूसरों द्वारा सीमित कर सकता है।
सिस्टम एआई एजेंटों को विकसित करने में रुचि रखने वालों के लिए एक मूल्यवान नींव प्रदान करता है जो न केवल पूर्ण कार्यों को पूरा करते हैं, बल्कि सोचते हैं, योजना बनाते हैं, और विकसित होते हैं। जैसा कि एआई अधिक स्वायत्तता की ओर बढ़ता है, रैगेन जैसी परियोजनाएं उन मॉडल को प्रशिक्षित करने में मदद करती हैं जो अपने स्वयं के कार्यों के परिणामों से सीखते हैं।
वास्तविक दुनिया के उद्यम गोद लेने के लिए बकाया प्रश्न
जबकि रैगेन पेपर एक विस्तृत तकनीकी रोडमैप प्रदान करता है, एंटरप्राइज़ सेटिंग्स में इन तरीकों को लागू करने के इच्छुक लोगों के लिए कई व्यावहारिक प्रश्न बने हुए हैं। उदाहरण के लिए, स्टाइल, प्रतीकात्मक कार्यों से परे रेगेन का दृष्टिकोण कितना हस्तांतरणीय है? क्या व्यवसायों को इस प्रणाली का उपयोग करने के लिए पूरी तरह से नए वातावरण और पुरस्कृत कार्यों को डिजाइन करने की आवश्यकता होगी जैसे कि इनवॉइस प्रसंस्करण या ग्राहक सहायता जैसे वर्कफ़्लोज़ में?
वांग, एक्स पर उद्यम करने के लिए एक सीधा संदेश में, सुझाव दिया कि कार्य विविधता में सुधार करने से मदद मिल सकती है, क्योंकि वर्तमान गेमिंग कार्यों में केवल ग्रिड प्रतिनिधित्व समान है, लेकिन अर्थ संबंधी जानकारी की कमी है। उन्होंने रागन का उपयोग करके एआई एजेंटों के लिए अपने स्वयं के प्रशिक्षण अभ्यासों को डिजाइन करने वाले व्यवसायों के बारे में आशावाद भी व्यक्त किया, यह देखते हुए कि GitHub लिंक नए वातावरण को जोड़ने के लिए एक सरल परिचय प्रदान करता है।
एक और महत्वपूर्ण क्षेत्र स्केलेबिलिटी है। यहां तक कि Starpo-S द्वारा प्रदान की गई संवर्द्धन के साथ, पेपर स्वीकार करता है कि प्रशिक्षण अभी भी अंततः लंबे समय तक क्षितिज पर ढह जाता है। यह सवाल उठाता है: क्या खुले अंत या लगातार विकसित होने वाले कार्य अनुक्रमों पर तर्क को बनाए रखने के लिए एक सैद्धांतिक या व्यावहारिक मार्ग है?
लेखन के समय, कोई भी स्पष्ट लाइसेंस रैगेन गिथब रिपॉजिटरी या प्रलेखन में सूचीबद्ध नहीं है, जो उपयोग के अधिकारों के बारे में खुले प्रश्न छोड़ता है। बहरहाल, रैगेन न केवल एक तकनीकी योगदान के रूप में, बल्कि अधिक स्वायत्त, तर्क-सक्षम एआई एजेंटों की ओर एक वैचारिक कदम के रूप में बाहर खड़ा है। चाहे वह एंटरप्राइज एआई स्टैक का हिस्सा बन जाए, यह देखा जाना बाकी है, लेकिन एजेंट लर्निंग डायनेमिक्स में इसकी अंतर्दृष्टि पहले से ही एलएलएम प्रशिक्षण के सीमा को फिर से परिभाषित करने में मदद कर रही है।
संबंधित लेख
Google ने उद्यम बाजार में OpenAI के साथ प्रतिस्पर्धा करने के लिए उत्पादन-तैयार Gemini 2.5 AI मॉडल्स का अनावरण किया
Google ने सोमवार को अपनी AI रणनीति को और मजबूत किया, उद्यम उपयोग के लिए अपने उन्नत Gemini 2.5 मॉडल्स को लॉन्च किया और कीमत व प्रदर्शन पर प्रतिस्पर्धा करने के लिए एक लागत-कुशल संस्करण पेश किया।Alphabet
अलीबाबा ने Wan2.1-VACE का अनावरण किया: ओपन-सोर्स AI वीडियो समाधान
अलीबाबा ने Wan2.1-VACE पेश किया है, जो एक ओपन-सोर्स AI मॉडल है और वीडियो निर्माण और संपादन प्रक्रियाओं को बदलने के लिए तैयार है।VACE अलीबाबा के Wan2.1 वीडियो AI मॉडल परिवार का एक प्रमुख घटक है, कंपनी
AI-चालित रिटेल प्रयोग Anthropic में शानदार ढंग से विफल
कल्पना करें कि एक छोटी दुकान को कृत्रिम बुद्धिमत्ता को सौंप दिया जाए, जिसमें मूल्य निर्धारण से लेकर ग्राहक संवाद तक सब कुछ शामिल हो। क्या गलत हो सकता है?Anthropic का एक हालिया अध्ययन, जो शुक्रवार को ज
सूचना (6)
0/200
JimmyRamirez
23 जुलाई 2025 10:29:29 पूर्वाह्न IST
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
6 मई 2025 1:18:04 अपराह्न IST
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
6 मई 2025 4:15:54 पूर्वाह्न IST
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
5 मई 2025 9:15:04 पूर्वाह्न IST
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
5 मई 2025 1:30:48 पूर्वाह्न IST
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
MateoAdams
4 मई 2025 8:44:20 अपराह्न IST
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
एआई एजेंटों का वर्ष: 2025 की अपेक्षाओं और वास्तविकताओं पर एक करीबी नज़र
2025 को कई विशेषज्ञों द्वारा उस वर्ष के रूप में हेराल्ड किया गया था जब एआई एजेंटों ने उन्नत बड़ी भाषा और ओपनईएआई, एन्थ्रोप्रोपिक, गूगल और डीपसेक जैसी कंपनियों से मल्टीमॉडल मॉडल द्वारा संचालित एआई सिस्टम को अंततः केंद्र चरण लिया था। हालांकि, सोशल नेटवर्क एक्स पर हाल ही में एक वेंचरबीट पोल के अनुसार, अधिकांश एआई एजेंट अभी भी प्रयोगात्मक चरणों में सुस्त हैं, एक प्रकार के कॉर्पोरेट लिम्बो में पकड़े गए हैं।
लेकिन क्षितिज पर आशा की एक झलक है। नॉर्थवेस्टर्न यूनिवर्सिटी, माइक्रोसॉफ्ट, स्टैनफोर्ड और वाशिंगटन विश्वविद्यालय के शोधकर्ताओं के एक सहयोगी प्रयास, ज़ीहान वांग सहित, एक पूर्व दीपसेक शोधकर्ता, जो अब नॉर्थवेस्टर्न में कंप्यूटर विज्ञान में पीएचडी कर रहे हैं, ने रागन को पेश किया है। इस नई प्रणाली का उद्देश्य वास्तविक दुनिया, उद्यम उपयोग के लिए उन्हें अधिक विश्वसनीय और अनुकूल बनाने के लिए एआई एजेंटों को प्रशिक्षित करना और मूल्यांकन करना है।
रैगेन: एआई एजेंटों को प्रशिक्षण देने के लिए एक नया दृष्टिकोण
गणित हल करने या कोड जनरेशन जैसे स्थैतिक कार्यों के विपरीत, रेगेन गतिशील, बहु-टर्न इंटरैक्शन पर ध्यान केंद्रित करता है जहां एजेंटों को अनिश्चितता के बीच अनुकूल, याद रखने और कारण करने की आवश्यकता होती है। सिस्टम एक कस्टम सुदृढीकरण लर्निंग (आरएल) फ्रेमवर्क पर बनाया गया है जिसे स्टारपो (राज्य-सोच-क्रिया-एक्ट-इंडर-इंडरिस नीति अनुकूलन) कहा जाता है, जो रोटे मेमोराइजेशन के बजाय अनुभव के माध्यम से सीखने पर जोर देता है। Starpo पूरे निर्णय लेने के दृश्यों को देखता है, न कि केवल एकल-चरण प्रतिक्रियाओं को।
Starpo दो चरणों में संचालित होता है: एक रोलआउट चरण जहां LLM तर्क द्वारा निर्देशित पूर्ण बातचीत अनुक्रम उत्पन्न करता है, और एक अद्यतन चरण जहां मॉडल को सामान्यीकृत संचयी पुरस्कारों का उपयोग करके अनुकूलित किया जाता है। यह दृष्टिकोण पारंपरिक नीति अनुकूलन विधियों की तुलना में अधिक स्थिर और व्याख्यात्मक सीखने का लूप प्रदान करता है।
शोधकर्ताओं ने अलीबाबा के क्यूवेन मॉडल, विशेष रूप से क्यूवेन 1.5 और क्यूवेन 2.5 के ठीक ट्यून किए गए संस्करणों का उपयोग करके इस ढांचे का परीक्षण किया, उनके खुले वजन और मजबूत निर्देश-निम्नलिखित क्षमताओं के लिए चुना गया। इस विकल्प ने प्रतीकात्मक कार्यों में प्रजनन क्षमता और सुसंगत आधारभूत तुलनाओं को सुविधाजनक बनाया।
इको ट्रैप: सुदृढीकरण सीखने में एक चुनौती
Zihan Wang ने एक व्यापक रूप से साझा किए गए X थ्रेड में RL प्रशिक्षण में एक महत्वपूर्ण मुद्दे पर प्रकाश डाला: * आपका RL प्रशिक्षण हमेशा क्यों ढह जाता है? * टीम ने पहचान की कि LLM एजेंट शुरू में अच्छी तरह से पुनर्जीवित प्रतिक्रियाएं देते हैं, RL सिस्टम अक्सर शॉर्टकट को पुरस्कृत करते हैं, जो दोहराए जाने वाले व्यवहारों के लिए अग्रणी होते हैं, जो कि "प्रतिध्वनि" को कम करते हैं-एक फेनोमेनन ने कहा कि एक फेनोमेनन।
इस प्रतिगमन को फीडबैक लूप्स द्वारा ईंधन दिया जाता है, जहां कुछ वाक्यांश या रणनीतियाँ उच्च पुरस्कार अर्जित करते हैं, जो अति प्रयोग और स्टिफ़लिंग अन्वेषण को प्रोत्साहित करते हैं। लक्षण स्पष्ट हैं: इनाम विचरण चट्टानों, ढाल स्पाइक्स, और तर्क के निशान को गायब करना।
रैगेन का परीक्षण वातावरण
एक नियंत्रित सेटिंग में इन व्यवहारों का अध्ययन करने के लिए, रैगेन तीन प्रतीकात्मक वातावरणों में एजेंटों का मूल्यांकन करता है:
- दस्यु: एक एकल-टर्न, स्टोकेस्टिक कार्य जो प्रतीकात्मक जोखिम-इनाम तर्क का परीक्षण करता है।
- सोकोबान: एक बहु-टर्न, नियतात्मक पहेली जिसमें अपरिवर्तनीय निर्णय शामिल हैं।
- जमे हुए झील: एक स्टोकेस्टिक, बहु-टर्न कार्य के लिए अनुकूली योजना की आवश्यकता होती है।
प्रत्येक वातावरण को वास्तविक दुनिया के पुजारियों को कम करने और प्रशिक्षण के दौरान विकसित निर्णय लेने की रणनीतियों पर ध्यान केंद्रित करने के लिए डिज़ाइन किया गया है। उदाहरण के लिए, दस्यु वातावरण में, एजेंटों को ड्रैगन और फीनिक्स हथियारों के बारे में प्रतीकात्मक रूप से तर्क करना चाहिए, जो विभिन्न इनाम वितरणों का प्रतिनिधित्व करते हैं, उन्हें परिणामों की भविष्यवाणी करने के लिए "शक्ति" और "आशा" के रूप में व्याख्या करते हैं।
Starpo-S के साथ सुदृढीकरण सीखने को स्थिर करना
प्रशिक्षण के पतन का मुकाबला करने के लिए, शोधकर्ताओं ने स्टारपो-एस की शुरुआत की, जो मूल ढांचे का एक स्थिर संस्करण था। Starpo-S में तीन प्रमुख हस्तक्षेप शामिल हैं:
- अनिश्चितता-आधारित रोलआउट फ़िल्टरिंग: रोलआउट को प्राथमिकता देना जहां एजेंट परिणाम अनिश्चितता दिखाता है।
- केएल पेनल्टी रिमूवल: मॉडल को अपनी मूल नीति से अधिक स्वतंत्र रूप से विचलित करने और नए व्यवहारों का पता लगाने की अनुमति देना।
- असममित पीपीओ क्लिपिंग: सीखने को बढ़ावा देने के लिए कम-इनाम वाले से अधिक उच्च-इनाम वाले प्रक्षेपवक्रों को बढ़ाना।
ये परिवर्तन प्रशिक्षण पतन में देरी या समाप्त करने में मदद करते हैं और तीनों कार्यों में प्रदर्शन में सुधार करते हैं। जैसा कि वांग ने कहा, "Starpo-S ... सभी 3 कार्यों में काम करता है। पतन से राहत देता है। बेहतर इनाम।"
एक अच्छा एजेंट एआई मॉडल क्या बनाता है?
आरएल प्रशिक्षण की सफलता न केवल वास्तुकला पर बल्कि एजेंटों द्वारा उत्पन्न डेटा की गुणवत्ता पर भी निर्भर करती है। टीम ने तीन महत्वपूर्ण आयामों की पहचान की जो प्रशिक्षण को काफी प्रभावित करते हैं:
- कार्य विविधता: मॉडल को प्रारंभिक परिदृश्यों की एक विस्तृत श्रृंखला में उजागर करना सामान्यीकरण में सुधार करता है।
- इंटरैक्शन ग्रैन्युलैरिटी: प्रति मोड़ कई कार्यों की अनुमति अधिक सार्थक योजना बनाने में सक्षम बनाता है।
- रोलआउट ताजगी: प्रशिक्षण डेटा को वर्तमान मॉडल नीति के साथ संरेखित रखना पुरानी सीखने के संकेतों से बचा जाता है।
ये कारक अधिक स्थिर और प्रभावी प्रशिक्षण प्रक्रिया में योगदान करते हैं। GitHub पर एक इंटरैक्टिव डेमो साइट एजेंट रोलआउट को पूर्ण संवाद के रूप में देखती है, जिसमें न केवल क्रियाएं भी शामिल हैं, बल्कि चरण-दर-चरण विचार प्रक्रिया जो उन्हें पहले करती है। उदाहरण के लिए, एक गणित की समस्या को हल करने में, एक एजेंट पहले 'x = 5' जैसे उत्तर को प्रस्तुत करने से पहले एक चर को अलग करने के बारे में 'सोच' सकता है। ये मध्यवर्ती विचार दिखाई देते हैं और पता लगाने योग्य हैं, जिससे एजेंट निर्णय लेते हैं कि पारदर्शिता को जोड़ते हैं।
जब तर्क बाहर निकलता है
जबकि स्पष्ट तर्क बैंडिट जैसे सरल, एकल-टर्न कार्यों में प्रदर्शन को बढ़ाता है, यह मल्टी-टर्न प्रशिक्षण के दौरान क्षय हो जाता है। संरचित संकेतों और टोकन का उपयोग करने के बावजूद, तर्क के निशान अक्सर सिकुड़ जाते हैं या गायब हो जाते हैं जब तक कि सीधे पुरस्कृत न हो। यह एक सीमा पर प्रकाश डालता है कि पुरस्कारों को आमतौर पर कैसे डिज़ाइन किया जाता है: कार्य पूरा होने पर ध्यान केंद्रित करने से इसके पीछे प्रक्रिया की गुणवत्ता की उपेक्षा हो सकती है। टीम ने बेहतर-संरचित तर्क को प्रोत्साहित करने के लिए प्रारूप-आधारित दंड के साथ प्रयोग किया, लेकिन स्वीकार किया कि अधिक परिष्कृत इनाम आकार देने की आवश्यकता है।
खुले उपकरण और भविष्य के निर्देश
Ragen, अपने Starpo और Starpo-S फ्रेमवर्क के साथ, अब https://github.com/ragen-ai/ragen पर एक ओपन-सोर्स परियोजना के रूप में उपलब्ध है। हालांकि, लेखन के समय, कोई स्पष्ट लाइसेंस GitHub रिपॉजिटरी में सूचीबद्ध नहीं है, जो इसके उपयोग या पुनर्वितरण को दूसरों द्वारा सीमित कर सकता है।
सिस्टम एआई एजेंटों को विकसित करने में रुचि रखने वालों के लिए एक मूल्यवान नींव प्रदान करता है जो न केवल पूर्ण कार्यों को पूरा करते हैं, बल्कि सोचते हैं, योजना बनाते हैं, और विकसित होते हैं। जैसा कि एआई अधिक स्वायत्तता की ओर बढ़ता है, रैगेन जैसी परियोजनाएं उन मॉडल को प्रशिक्षित करने में मदद करती हैं जो अपने स्वयं के कार्यों के परिणामों से सीखते हैं।
वास्तविक दुनिया के उद्यम गोद लेने के लिए बकाया प्रश्न
जबकि रैगेन पेपर एक विस्तृत तकनीकी रोडमैप प्रदान करता है, एंटरप्राइज़ सेटिंग्स में इन तरीकों को लागू करने के इच्छुक लोगों के लिए कई व्यावहारिक प्रश्न बने हुए हैं। उदाहरण के लिए, स्टाइल, प्रतीकात्मक कार्यों से परे रेगेन का दृष्टिकोण कितना हस्तांतरणीय है? क्या व्यवसायों को इस प्रणाली का उपयोग करने के लिए पूरी तरह से नए वातावरण और पुरस्कृत कार्यों को डिजाइन करने की आवश्यकता होगी जैसे कि इनवॉइस प्रसंस्करण या ग्राहक सहायता जैसे वर्कफ़्लोज़ में?
वांग, एक्स पर उद्यम करने के लिए एक सीधा संदेश में, सुझाव दिया कि कार्य विविधता में सुधार करने से मदद मिल सकती है, क्योंकि वर्तमान गेमिंग कार्यों में केवल ग्रिड प्रतिनिधित्व समान है, लेकिन अर्थ संबंधी जानकारी की कमी है। उन्होंने रागन का उपयोग करके एआई एजेंटों के लिए अपने स्वयं के प्रशिक्षण अभ्यासों को डिजाइन करने वाले व्यवसायों के बारे में आशावाद भी व्यक्त किया, यह देखते हुए कि GitHub लिंक नए वातावरण को जोड़ने के लिए एक सरल परिचय प्रदान करता है।
एक और महत्वपूर्ण क्षेत्र स्केलेबिलिटी है। यहां तक कि Starpo-S द्वारा प्रदान की गई संवर्द्धन के साथ, पेपर स्वीकार करता है कि प्रशिक्षण अभी भी अंततः लंबे समय तक क्षितिज पर ढह जाता है। यह सवाल उठाता है: क्या खुले अंत या लगातार विकसित होने वाले कार्य अनुक्रमों पर तर्क को बनाए रखने के लिए एक सैद्धांतिक या व्यावहारिक मार्ग है?
लेखन के समय, कोई भी स्पष्ट लाइसेंस रैगेन गिथब रिपॉजिटरी या प्रलेखन में सूचीबद्ध नहीं है, जो उपयोग के अधिकारों के बारे में खुले प्रश्न छोड़ता है। बहरहाल, रैगेन न केवल एक तकनीकी योगदान के रूप में, बल्कि अधिक स्वायत्त, तर्क-सक्षम एआई एजेंटों की ओर एक वैचारिक कदम के रूप में बाहर खड़ा है। चाहे वह एंटरप्राइज एआई स्टैक का हिस्सा बन जाए, यह देखा जाना बाकी है, लेकिन एजेंट लर्निंग डायनेमिक्स में इसकी अंतर्दृष्टि पहले से ही एलएलएम प्रशिक्षण के सीमा को फिर से परिभाषित करने में मदद कर रही है।




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀












