विकल्प
घर
समाचार
पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन

पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन

4 मई 2025
53

पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन

एआई एजेंटों का वर्ष: 2025 की अपेक्षाओं और वास्तविकताओं पर एक करीबी नज़र

2025 को कई विशेषज्ञों द्वारा उस वर्ष के रूप में हेराल्ड किया गया था जब एआई एजेंटों ने उन्नत बड़ी भाषा और ओपनईएआई, एन्थ्रोप्रोपिक, गूगल और डीपसेक जैसी कंपनियों से मल्टीमॉडल मॉडल द्वारा संचालित एआई सिस्टम को अंततः केंद्र चरण लिया था। हालांकि, सोशल नेटवर्क एक्स पर हाल ही में एक वेंचरबीट पोल के अनुसार, अधिकांश एआई एजेंट अभी भी प्रयोगात्मक चरणों में सुस्त हैं, एक प्रकार के कॉर्पोरेट लिम्बो में पकड़े गए हैं।

लेकिन क्षितिज पर आशा की एक झलक है। नॉर्थवेस्टर्न यूनिवर्सिटी, माइक्रोसॉफ्ट, स्टैनफोर्ड और वाशिंगटन विश्वविद्यालय के शोधकर्ताओं के एक सहयोगी प्रयास, ज़ीहान वांग सहित, एक पूर्व दीपसेक शोधकर्ता, जो अब नॉर्थवेस्टर्न में कंप्यूटर विज्ञान में पीएचडी कर रहे हैं, ने रागन को पेश किया है। इस नई प्रणाली का उद्देश्य वास्तविक दुनिया, उद्यम उपयोग के लिए उन्हें अधिक विश्वसनीय और अनुकूल बनाने के लिए एआई एजेंटों को प्रशिक्षित करना और मूल्यांकन करना है।

रैगेन: एआई एजेंटों को प्रशिक्षण देने के लिए एक नया दृष्टिकोण

गणित हल करने या कोड जनरेशन जैसे स्थैतिक कार्यों के विपरीत, रेगेन गतिशील, बहु-टर्न इंटरैक्शन पर ध्यान केंद्रित करता है जहां एजेंटों को अनिश्चितता के बीच अनुकूल, याद रखने और कारण करने की आवश्यकता होती है। सिस्टम एक कस्टम सुदृढीकरण लर्निंग (आरएल) फ्रेमवर्क पर बनाया गया है जिसे स्टारपो (राज्य-सोच-क्रिया-एक्ट-इंडर-इंडरिस नीति अनुकूलन) कहा जाता है, जो रोटे मेमोराइजेशन के बजाय अनुभव के माध्यम से सीखने पर जोर देता है। Starpo पूरे निर्णय लेने के दृश्यों को देखता है, न कि केवल एकल-चरण प्रतिक्रियाओं को।

Starpo दो चरणों में संचालित होता है: एक रोलआउट चरण जहां LLM तर्क द्वारा निर्देशित पूर्ण बातचीत अनुक्रम उत्पन्न करता है, और एक अद्यतन चरण जहां मॉडल को सामान्यीकृत संचयी पुरस्कारों का उपयोग करके अनुकूलित किया जाता है। यह दृष्टिकोण पारंपरिक नीति अनुकूलन विधियों की तुलना में अधिक स्थिर और व्याख्यात्मक सीखने का लूप प्रदान करता है।

शोधकर्ताओं ने अलीबाबा के क्यूवेन मॉडल, विशेष रूप से क्यूवेन 1.5 और क्यूवेन 2.5 के ठीक ट्यून किए गए संस्करणों का उपयोग करके इस ढांचे का परीक्षण किया, उनके खुले वजन और मजबूत निर्देश-निम्नलिखित क्षमताओं के लिए चुना गया। इस विकल्प ने प्रतीकात्मक कार्यों में प्रजनन क्षमता और सुसंगत आधारभूत तुलनाओं को सुविधाजनक बनाया।

इको ट्रैप: सुदृढीकरण सीखने में एक चुनौती

Zihan Wang ने एक व्यापक रूप से साझा किए गए X थ्रेड में RL प्रशिक्षण में एक महत्वपूर्ण मुद्दे पर प्रकाश डाला: * आपका RL प्रशिक्षण हमेशा क्यों ढह जाता है? * टीम ने पहचान की कि LLM एजेंट शुरू में अच्छी तरह से पुनर्जीवित प्रतिक्रियाएं देते हैं, RL सिस्टम अक्सर शॉर्टकट को पुरस्कृत करते हैं, जो दोहराए जाने वाले व्यवहारों के लिए अग्रणी होते हैं, जो कि "प्रतिध्वनि" को कम करते हैं-एक फेनोमेनन ने कहा कि एक फेनोमेनन।

इस प्रतिगमन को फीडबैक लूप्स द्वारा ईंधन दिया जाता है, जहां कुछ वाक्यांश या रणनीतियाँ उच्च पुरस्कार अर्जित करते हैं, जो अति प्रयोग और स्टिफ़लिंग अन्वेषण को प्रोत्साहित करते हैं। लक्षण स्पष्ट हैं: इनाम विचरण चट्टानों, ढाल स्पाइक्स, और तर्क के निशान को गायब करना।

रैगेन का परीक्षण वातावरण

एक नियंत्रित सेटिंग में इन व्यवहारों का अध्ययन करने के लिए, रैगेन तीन प्रतीकात्मक वातावरणों में एजेंटों का मूल्यांकन करता है:

  • दस्यु: एक एकल-टर्न, स्टोकेस्टिक कार्य जो प्रतीकात्मक जोखिम-इनाम तर्क का परीक्षण करता है।
  • सोकोबान: एक बहु-टर्न, नियतात्मक पहेली जिसमें अपरिवर्तनीय निर्णय शामिल हैं।
  • जमे हुए झील: एक स्टोकेस्टिक, बहु-टर्न कार्य के लिए अनुकूली योजना की आवश्यकता होती है।

प्रत्येक वातावरण को वास्तविक दुनिया के पुजारियों को कम करने और प्रशिक्षण के दौरान विकसित निर्णय लेने की रणनीतियों पर ध्यान केंद्रित करने के लिए डिज़ाइन किया गया है। उदाहरण के लिए, दस्यु वातावरण में, एजेंटों को ड्रैगन और फीनिक्स हथियारों के बारे में प्रतीकात्मक रूप से तर्क करना चाहिए, जो विभिन्न इनाम वितरणों का प्रतिनिधित्व करते हैं, उन्हें परिणामों की भविष्यवाणी करने के लिए "शक्ति" और "आशा" के रूप में व्याख्या करते हैं।

Starpo-S के साथ सुदृढीकरण सीखने को स्थिर करना

प्रशिक्षण के पतन का मुकाबला करने के लिए, शोधकर्ताओं ने स्टारपो-एस की शुरुआत की, जो मूल ढांचे का एक स्थिर संस्करण था। Starpo-S में तीन प्रमुख हस्तक्षेप शामिल हैं:

  1. अनिश्चितता-आधारित रोलआउट फ़िल्टरिंग: रोलआउट को प्राथमिकता देना जहां एजेंट परिणाम अनिश्चितता दिखाता है।
  2. केएल पेनल्टी रिमूवल: मॉडल को अपनी मूल नीति से अधिक स्वतंत्र रूप से विचलित करने और नए व्यवहारों का पता लगाने की अनुमति देना।
  3. असममित पीपीओ क्लिपिंग: सीखने को बढ़ावा देने के लिए कम-इनाम वाले से अधिक उच्च-इनाम वाले प्रक्षेपवक्रों को बढ़ाना।

ये परिवर्तन प्रशिक्षण पतन में देरी या समाप्त करने में मदद करते हैं और तीनों कार्यों में प्रदर्शन में सुधार करते हैं। जैसा कि वांग ने कहा, "Starpo-S ... सभी 3 कार्यों में काम करता है। पतन से राहत देता है। बेहतर इनाम।"

एक अच्छा एजेंट एआई मॉडल क्या बनाता है?

आरएल प्रशिक्षण की सफलता न केवल वास्तुकला पर बल्कि एजेंटों द्वारा उत्पन्न डेटा की गुणवत्ता पर भी निर्भर करती है। टीम ने तीन महत्वपूर्ण आयामों की पहचान की जो प्रशिक्षण को काफी प्रभावित करते हैं:

  • कार्य विविधता: मॉडल को प्रारंभिक परिदृश्यों की एक विस्तृत श्रृंखला में उजागर करना सामान्यीकरण में सुधार करता है।
  • इंटरैक्शन ग्रैन्युलैरिटी: प्रति मोड़ कई कार्यों की अनुमति अधिक सार्थक योजना बनाने में सक्षम बनाता है।
  • रोलआउट ताजगी: प्रशिक्षण डेटा को वर्तमान मॉडल नीति के साथ संरेखित रखना पुरानी सीखने के संकेतों से बचा जाता है।

ये कारक अधिक स्थिर और प्रभावी प्रशिक्षण प्रक्रिया में योगदान करते हैं। GitHub पर एक इंटरैक्टिव डेमो साइट एजेंट रोलआउट को पूर्ण संवाद के रूप में देखती है, जिसमें न केवल क्रियाएं भी शामिल हैं, बल्कि चरण-दर-चरण विचार प्रक्रिया जो उन्हें पहले करती है। उदाहरण के लिए, एक गणित की समस्या को हल करने में, एक एजेंट पहले 'x = 5' जैसे उत्तर को प्रस्तुत करने से पहले एक चर को अलग करने के बारे में 'सोच' सकता है। ये मध्यवर्ती विचार दिखाई देते हैं और पता लगाने योग्य हैं, जिससे एजेंट निर्णय लेते हैं कि पारदर्शिता को जोड़ते हैं।

जब तर्क बाहर निकलता है

जबकि स्पष्ट तर्क बैंडिट जैसे सरल, एकल-टर्न कार्यों में प्रदर्शन को बढ़ाता है, यह मल्टी-टर्न प्रशिक्षण के दौरान क्षय हो जाता है। संरचित संकेतों और टोकन का उपयोग करने के बावजूद, तर्क के निशान अक्सर सिकुड़ जाते हैं या गायब हो जाते हैं जब तक कि सीधे पुरस्कृत न हो। यह एक सीमा पर प्रकाश डालता है कि पुरस्कारों को आमतौर पर कैसे डिज़ाइन किया जाता है: कार्य पूरा होने पर ध्यान केंद्रित करने से इसके पीछे प्रक्रिया की गुणवत्ता की उपेक्षा हो सकती है। टीम ने बेहतर-संरचित तर्क को प्रोत्साहित करने के लिए प्रारूप-आधारित दंड के साथ प्रयोग किया, लेकिन स्वीकार किया कि अधिक परिष्कृत इनाम आकार देने की आवश्यकता है।

खुले उपकरण और भविष्य के निर्देश

Ragen, अपने Starpo और Starpo-S फ्रेमवर्क के साथ, अब https://github.com/ragen-ai/ragen पर एक ओपन-सोर्स परियोजना के रूप में उपलब्ध है। हालांकि, लेखन के समय, कोई स्पष्ट लाइसेंस GitHub रिपॉजिटरी में सूचीबद्ध नहीं है, जो इसके उपयोग या पुनर्वितरण को दूसरों द्वारा सीमित कर सकता है।

सिस्टम एआई एजेंटों को विकसित करने में रुचि रखने वालों के लिए एक मूल्यवान नींव प्रदान करता है जो न केवल पूर्ण कार्यों को पूरा करते हैं, बल्कि सोचते हैं, योजना बनाते हैं, और विकसित होते हैं। जैसा कि एआई अधिक स्वायत्तता की ओर बढ़ता है, रैगेन जैसी परियोजनाएं उन मॉडल को प्रशिक्षित करने में मदद करती हैं जो अपने स्वयं के कार्यों के परिणामों से सीखते हैं।

वास्तविक दुनिया के उद्यम गोद लेने के लिए बकाया प्रश्न

जबकि रैगेन पेपर एक विस्तृत तकनीकी रोडमैप प्रदान करता है, एंटरप्राइज़ सेटिंग्स में इन तरीकों को लागू करने के इच्छुक लोगों के लिए कई व्यावहारिक प्रश्न बने हुए हैं। उदाहरण के लिए, स्टाइल, प्रतीकात्मक कार्यों से परे रेगेन का दृष्टिकोण कितना हस्तांतरणीय है? क्या व्यवसायों को इस प्रणाली का उपयोग करने के लिए पूरी तरह से नए वातावरण और पुरस्कृत कार्यों को डिजाइन करने की आवश्यकता होगी जैसे कि इनवॉइस प्रसंस्करण या ग्राहक सहायता जैसे वर्कफ़्लोज़ में?

वांग, एक्स पर उद्यम करने के लिए एक सीधा संदेश में, सुझाव दिया कि कार्य विविधता में सुधार करने से मदद मिल सकती है, क्योंकि वर्तमान गेमिंग कार्यों में केवल ग्रिड प्रतिनिधित्व समान है, लेकिन अर्थ संबंधी जानकारी की कमी है। उन्होंने रागन का उपयोग करके एआई एजेंटों के लिए अपने स्वयं के प्रशिक्षण अभ्यासों को डिजाइन करने वाले व्यवसायों के बारे में आशावाद भी व्यक्त किया, यह देखते हुए कि GitHub लिंक नए वातावरण को जोड़ने के लिए एक सरल परिचय प्रदान करता है।

एक और महत्वपूर्ण क्षेत्र स्केलेबिलिटी है। यहां तक ​​कि Starpo-S द्वारा प्रदान की गई संवर्द्धन के साथ, पेपर स्वीकार करता है कि प्रशिक्षण अभी भी अंततः लंबे समय तक क्षितिज पर ढह जाता है। यह सवाल उठाता है: क्या खुले अंत या लगातार विकसित होने वाले कार्य अनुक्रमों पर तर्क को बनाए रखने के लिए एक सैद्धांतिक या व्यावहारिक मार्ग है?

लेखन के समय, कोई भी स्पष्ट लाइसेंस रैगेन गिथब रिपॉजिटरी या प्रलेखन में सूचीबद्ध नहीं है, जो उपयोग के अधिकारों के बारे में खुले प्रश्न छोड़ता है। बहरहाल, रैगेन न केवल एक तकनीकी योगदान के रूप में, बल्कि अधिक स्वायत्त, तर्क-सक्षम एआई एजेंटों की ओर एक वैचारिक कदम के रूप में बाहर खड़ा है। चाहे वह एंटरप्राइज एआई स्टैक का हिस्सा बन जाए, यह देखा जाना बाकी है, लेकिन एजेंट लर्निंग डायनेमिक्स में इसकी अंतर्दृष्टि पहले से ही एलएलएम प्रशिक्षण के सीमा को फिर से परिभाषित करने में मदद कर रही है।

संबंधित लेख
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
सूचना (5)
RalphWalker
RalphWalker 6 मई 2025 12:00:00 पूर्वाह्न GMT

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

NicholasAdams
NicholasAdams 6 मई 2025 12:00:00 पूर्वाह्न GMT

RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀

MateoAdams
MateoAdams 4 मई 2025 12:00:00 पूर्वाह्न GMT

RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀

GeorgeTaylor
GeorgeTaylor 5 मई 2025 12:00:00 पूर्वाह्न GMT

RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀

EricLewis
EricLewis 5 मई 2025 12:00:00 पूर्वाह्न GMT

RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀

शीर्ष समाचार
Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया दक्षिण कोरिया स्थानीय दुकानों में दीपसेक ऐप डाउनलोड करता है Adobe 10 विशिष्ट AI एजेंटों का अनावरण करता है: उनके व्यावसायिक अनुप्रयोगों की खोज करें चैट की ऊर्जा का उपयोग अपेक्षा से कम है Openai का O3 मॉडल संभावित रूप से अधिक महंगा है जो शुरू में विचार की तुलना में संचालित होता है नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है
अधिक
शीर्ष पर वापस
OR