डीपकोडर 14 बी ओपन मॉडल के साथ उच्च कोडिंग दक्षता प्राप्त करता है
23 अप्रैल 2025
SamuelRamirez
0
डीपकोडर -14 बी का परिचय: ओपन-सोर्स कोडिंग मॉडल में एक नया फ्रंटियर
एआई और एजेंटिका ने एक साथ टीमों ने डीपकोडर -14 बी का अनावरण किया है, जो एक ग्राउंडब्रेकिंग कोडिंग मॉडल है जो ओपनईआई के ओ 3-मिनी जैसे शीर्ष-स्तरीय मालिकाना मॉडल के साथ कंधे से कंधा मिलाकर खड़ा है। यह रोमांचक विकास डीपसेक-आर 1 की नींव पर बनाया गया है और उच्च प्रदर्शन कोड पीढ़ी को एकीकृत करने और व्यावहारिक अनुप्रयोगों में तर्क के लिए बढ़ाया लचीलापन प्रदान करता है। क्या अधिक है, रचनाकारों ने अपने प्रशिक्षण डेटा, कोड, लॉग और सिस्टम अनुकूलन सहित मॉडल को पूरी तरह से ओपन-सोर्सिंग करके एक सराहनीय कदम उठाया है। यह कदम अनुसंधान को उत्प्रेरित करने और क्षेत्र में प्रगति में तेजी लाने के लिए निर्धारित है।
एक कॉम्पैक्ट पैकेज में प्रभावशाली प्रदर्शन
दीपकोडर -14 बी ने विभिन्न कोडिंग बेंचमार्क जैसे कि LiveCodebench (LCB), CodeForces और HumanEval+में उल्लेखनीय परिणाम दिखाए हैं। अनुसंधान टीम के प्रयोगों ने इस बात पर प्रकाश डाला है कि मॉडल का प्रदर्शन O3-Mini (कम) और O1 जैसे प्रमुख मॉडल के बराबर है। शोधकर्ताओं ने अपने ब्लॉग पोस्ट में गर्व से कहा, "हमारा मॉडल सभी कोडिंग बेंचमार्क में मजबूत प्रदर्शन को प्रदर्शित करता है ... ओ 3-मिनी (कम) और ओ 1 के प्रदर्शन के बराबर है।"
विशेष रूप से पेचीदा यह है कि, मुख्य रूप से कोडिंग कार्यों पर प्रशिक्षित होने के बावजूद, डीपकोडर -14 बी ने गणितीय तर्क में उल्लेखनीय सुधार भी दिखाया है, जो कि Aime 2024 बेंचमार्क पर 73.8% स्कोर प्राप्त करता है। यह अपने बेस मॉडल, डीपसेक-आर 1-डिस्टिल-क्वेन -14 बी पर 4.1% की वृद्धि को चिह्नित करता है, यह सुझाव देता है कि कोड पर सुदृढीकरण सीखने (आरएल) के माध्यम से सम्मानित तर्क कौशल प्रभावी रूप से अन्य डोमेन में स्थानांतरित हो सकता है।

*क्रेडिट: एक साथ ऐ*
शायद डीपकोडर -14 बी की सबसे रोमांचक विशेषता इसकी दक्षता है। केवल 14 बिलियन मापदंडों के साथ, यह कई अन्य प्रमुख मॉडलों की तुलना में काफी छोटा और अधिक संसाधन-कुशल होने के दौरान उच्च प्रदर्शन को प्राप्त करता है।
दीपकोडर की सफलता के पीछे नवाचार
डीपकोडर -14 बी को विकसित करना कई चुनौतियों का सामना करना शामिल था, विशेष रूप से सुदृढीकरण सीखने का उपयोग करके कोडिंग मॉडल को प्रशिक्षण देने में। एक बड़ी बाधा प्रशिक्षण डेटा की अवधि थी। गणितीय कार्यों के विपरीत, जहां उच्च-गुणवत्ता, सत्यापन योग्य डेटा भरपूर मात्रा में है, कोडिंग डेटा दुर्लभ हो सकता है। दीपकोडर टीम ने विभिन्न डेटासेट से उदाहरणों को इकट्ठा करने और फ़िल्टर करने के लिए एक कठोर पाइपलाइन को लागू करके, वैधता, जटिलता और दोहराव से बचने के लिए इसे संबोधित किया। इस प्रक्रिया के परिणामस्वरूप 24,000 उच्च गुणवत्ता वाली समस्याएं हुईं, जिसने आरएल प्रशिक्षण के लिए एक मजबूत नींव बनाई।
टीम ने एक सीधा इनाम फ़ंक्शन भी तैयार किया जो केवल मॉडल को पुरस्कृत करता है यदि उत्पन्न कोड सफलतापूर्वक एक निर्धारित समय सीमा के भीतर सभी नमूना इकाई परीक्षणों को पारित करता है। उच्च गुणवत्ता वाले प्रशिक्षण उदाहरणों के साथ मिलकर इस दृष्टिकोण ने यह सुनिश्चित किया कि मॉडल शॉर्टकट का शोषण करने के बजाय मुख्य समस्याओं को हल करने पर ध्यान केंद्रित करता है।
DEEPCODER-14B का प्रशिक्षण एल्गोरिथ्म समूह सापेक्ष नीति अनुकूलन (GRPO) पर आधारित है, जो DeepSeek-R1 में सफल रहा। हालांकि, टीम ने स्थिरता बढ़ाने और लंबे समय तक प्रशिक्षण अवधि को सक्षम करने के लिए महत्वपूर्ण संशोधन किए।

*Grpo+ deepcoder-14 को क्रेडिट को ढहने के बिना लंबी अवधि के लिए जारी रखने में सक्षम बनाता है: एक साथ ai*
इसके अतिरिक्त, टीम ने मॉडल के संदर्भ विंडो को पुनरावृत्त रूप से बढ़ाया, जो छोटे अनुक्रमों के साथ शुरू हुआ और धीरे -धीरे उन्हें बढ़ा दिया। उन्होंने जटिल संकेतों को हल करते समय संदर्भ सीमाओं से अधिक के लिए मॉडल को दंडित करने से बचने के लिए एक फ़िल्टरिंग विधि भी पेश की।

*डीपकोडर को 32K संदर्भ समस्याओं पर प्रशिक्षित किया गया था, लेकिन 64k कार्यों को हल करने में भी सक्षम था क्रेडिट: एक साथ एआई*
शोधकर्ताओं ने अपने दृष्टिकोण को समझाया: "कुशल प्रशिक्षण को सक्षम करते हुए लंबे समय से संदर्भ तर्क को संरक्षित करने के लिए, हमने ओवरलॉन्ग फ़िल्टरिंग को शामिल किया ... यह तकनीक प्रशिक्षण के दौरान छंटनी अनुक्रमों को बाहर निकालती है ताकि मॉडल को विचारशील लेकिन लंबे आउटपुट उत्पन्न करने के लिए दंडित न करें जो वर्तमान संदर्भ सीमा से अधिक है।" प्रशिक्षण 16K से 32K संदर्भ विंडो तक बढ़ गया, जिससे मॉडल को 64K टोकन तक की आवश्यकता होती है।
लंबे समय से संदर्भ आरएल प्रशिक्षण का अनुकूलन
आरएल के साथ बड़े मॉडल का प्रशिक्षण, विशेष रूप से उन कार्यों पर जो कोडिंग जैसे लंबे अनुक्रम उत्पन्न करते हैं, कुख्यात रूप से धीमी और संसाधन-गहन है। नमूनाकरण कदम, जहां मॉडल प्रति उदाहरण हजारों टोकन उत्पन्न करता है, अक्सर प्रतिक्रिया लंबाई के कारण महत्वपूर्ण देरी की ओर जाता है।
इससे निपटने के लिए, टीम ने वर्ल-पिपलाइन विकसित की, जो मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखने के लिए ओपन-सोर्स वर्ल लाइब्रेरी का एक अनुकूलित विस्तार है। उनके "वन-ऑफ पाइपलाइनिंग" नवाचार ने अड़चनें को कम करने और त्वरक पर निष्क्रिय समय को कम करने के लिए नमूने और मॉडल अपडेट का पुनर्गठन किया।

*एक-बंद पाइपलाइनिंग*
उनके प्रयोगों से पता चला कि एक-बंद पाइपलाइनिंग मानक तरीकों की तुलना में आरएल कार्यों को 2x तक कोडिंग कर सकती है। यह अनुकूलन एक उचित समय सीमा (32 H100s पर 2.5 सप्ताह) के भीतर दीपकोडर -14 बी को प्रशिक्षित करने में महत्वपूर्ण था और अब समुदाय के लिए उत्तोलन के लिए वर्ल-पिपलाइन के हिस्से के रूप में खुला है।
उद्यम प्रभाव और खुला-स्रोत सहयोग
शोधकर्ताओं ने GitHub पर उपलब्ध दीपकोडर -14B के लिए सभी प्रशिक्षण और परिचालन कलाकृतियों को बनाया है और एक अनुमेय लाइसेंस के तहत चेहरे को गले लगाया है। "पूरी तरह से हमारे डेटासेट, कोड और प्रशिक्षण नुस्खा को साझा करके, हम समुदाय को अपने काम को पुन: पेश करने और आरएल प्रशिक्षण को सभी के लिए सुलभ बनाने के लिए सशक्त बनाते हैं," उन्होंने कहा।
DeepCoder-14B AI परिदृश्य में कुशल, खुले तौर पर सुलभ मॉडल की बढ़ती प्रवृत्ति को दर्शाता है। उद्यमों के लिए, इसका अर्थ है अधिक विकल्प और उन्नत मॉडल के लिए अधिक पहुंच। उच्च-प्रदर्शन कोड उत्पादन और तर्क अब बड़े निगमों के लिए अनन्य नहीं हैं या जो कि भारी एपीआई शुल्क का भुगतान करने के इच्छुक हैं। सभी आकारों के संगठन अब इन क्षमताओं का दोहन कर सकते हैं, उनकी विशिष्ट आवश्यकताओं के लिए दर्जी समाधान, और उन्हें अपने वातावरण में सुरक्षित रूप से तैनात कर सकते हैं।
यह पारी एआई गोद लेने के लिए बाधाओं को कम करने के लिए तैयार है, खुले-स्रोत सहयोग द्वारा संचालित एक अधिक प्रतिस्पर्धी और अभिनव पारिस्थितिकी तंत्र को बढ़ावा देता है।
संबंधित लेख
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial
Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros
O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina
Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
सूचना (0)
0/200






डीपकोडर -14 बी का परिचय: ओपन-सोर्स कोडिंग मॉडल में एक नया फ्रंटियर
एआई और एजेंटिका ने एक साथ टीमों ने डीपकोडर -14 बी का अनावरण किया है, जो एक ग्राउंडब्रेकिंग कोडिंग मॉडल है जो ओपनईआई के ओ 3-मिनी जैसे शीर्ष-स्तरीय मालिकाना मॉडल के साथ कंधे से कंधा मिलाकर खड़ा है। यह रोमांचक विकास डीपसेक-आर 1 की नींव पर बनाया गया है और उच्च प्रदर्शन कोड पीढ़ी को एकीकृत करने और व्यावहारिक अनुप्रयोगों में तर्क के लिए बढ़ाया लचीलापन प्रदान करता है। क्या अधिक है, रचनाकारों ने अपने प्रशिक्षण डेटा, कोड, लॉग और सिस्टम अनुकूलन सहित मॉडल को पूरी तरह से ओपन-सोर्सिंग करके एक सराहनीय कदम उठाया है। यह कदम अनुसंधान को उत्प्रेरित करने और क्षेत्र में प्रगति में तेजी लाने के लिए निर्धारित है।
एक कॉम्पैक्ट पैकेज में प्रभावशाली प्रदर्शन
दीपकोडर -14 बी ने विभिन्न कोडिंग बेंचमार्क जैसे कि LiveCodebench (LCB), CodeForces और HumanEval+में उल्लेखनीय परिणाम दिखाए हैं। अनुसंधान टीम के प्रयोगों ने इस बात पर प्रकाश डाला है कि मॉडल का प्रदर्शन O3-Mini (कम) और O1 जैसे प्रमुख मॉडल के बराबर है। शोधकर्ताओं ने अपने ब्लॉग पोस्ट में गर्व से कहा, "हमारा मॉडल सभी कोडिंग बेंचमार्क में मजबूत प्रदर्शन को प्रदर्शित करता है ... ओ 3-मिनी (कम) और ओ 1 के प्रदर्शन के बराबर है।"
विशेष रूप से पेचीदा यह है कि, मुख्य रूप से कोडिंग कार्यों पर प्रशिक्षित होने के बावजूद, डीपकोडर -14 बी ने गणितीय तर्क में उल्लेखनीय सुधार भी दिखाया है, जो कि Aime 2024 बेंचमार्क पर 73.8% स्कोर प्राप्त करता है। यह अपने बेस मॉडल, डीपसेक-आर 1-डिस्टिल-क्वेन -14 बी पर 4.1% की वृद्धि को चिह्नित करता है, यह सुझाव देता है कि कोड पर सुदृढीकरण सीखने (आरएल) के माध्यम से सम्मानित तर्क कौशल प्रभावी रूप से अन्य डोमेन में स्थानांतरित हो सकता है।
शायद डीपकोडर -14 बी की सबसे रोमांचक विशेषता इसकी दक्षता है। केवल 14 बिलियन मापदंडों के साथ, यह कई अन्य प्रमुख मॉडलों की तुलना में काफी छोटा और अधिक संसाधन-कुशल होने के दौरान उच्च प्रदर्शन को प्राप्त करता है।
दीपकोडर की सफलता के पीछे नवाचार
डीपकोडर -14 बी को विकसित करना कई चुनौतियों का सामना करना शामिल था, विशेष रूप से सुदृढीकरण सीखने का उपयोग करके कोडिंग मॉडल को प्रशिक्षण देने में। एक बड़ी बाधा प्रशिक्षण डेटा की अवधि थी। गणितीय कार्यों के विपरीत, जहां उच्च-गुणवत्ता, सत्यापन योग्य डेटा भरपूर मात्रा में है, कोडिंग डेटा दुर्लभ हो सकता है। दीपकोडर टीम ने विभिन्न डेटासेट से उदाहरणों को इकट्ठा करने और फ़िल्टर करने के लिए एक कठोर पाइपलाइन को लागू करके, वैधता, जटिलता और दोहराव से बचने के लिए इसे संबोधित किया। इस प्रक्रिया के परिणामस्वरूप 24,000 उच्च गुणवत्ता वाली समस्याएं हुईं, जिसने आरएल प्रशिक्षण के लिए एक मजबूत नींव बनाई।
टीम ने एक सीधा इनाम फ़ंक्शन भी तैयार किया जो केवल मॉडल को पुरस्कृत करता है यदि उत्पन्न कोड सफलतापूर्वक एक निर्धारित समय सीमा के भीतर सभी नमूना इकाई परीक्षणों को पारित करता है। उच्च गुणवत्ता वाले प्रशिक्षण उदाहरणों के साथ मिलकर इस दृष्टिकोण ने यह सुनिश्चित किया कि मॉडल शॉर्टकट का शोषण करने के बजाय मुख्य समस्याओं को हल करने पर ध्यान केंद्रित करता है।
DEEPCODER-14B का प्रशिक्षण एल्गोरिथ्म समूह सापेक्ष नीति अनुकूलन (GRPO) पर आधारित है, जो DeepSeek-R1 में सफल रहा। हालांकि, टीम ने स्थिरता बढ़ाने और लंबे समय तक प्रशिक्षण अवधि को सक्षम करने के लिए महत्वपूर्ण संशोधन किए।
इसके अतिरिक्त, टीम ने मॉडल के संदर्भ विंडो को पुनरावृत्त रूप से बढ़ाया, जो छोटे अनुक्रमों के साथ शुरू हुआ और धीरे -धीरे उन्हें बढ़ा दिया। उन्होंने जटिल संकेतों को हल करते समय संदर्भ सीमाओं से अधिक के लिए मॉडल को दंडित करने से बचने के लिए एक फ़िल्टरिंग विधि भी पेश की।
शोधकर्ताओं ने अपने दृष्टिकोण को समझाया: "कुशल प्रशिक्षण को सक्षम करते हुए लंबे समय से संदर्भ तर्क को संरक्षित करने के लिए, हमने ओवरलॉन्ग फ़िल्टरिंग को शामिल किया ... यह तकनीक प्रशिक्षण के दौरान छंटनी अनुक्रमों को बाहर निकालती है ताकि मॉडल को विचारशील लेकिन लंबे आउटपुट उत्पन्न करने के लिए दंडित न करें जो वर्तमान संदर्भ सीमा से अधिक है।" प्रशिक्षण 16K से 32K संदर्भ विंडो तक बढ़ गया, जिससे मॉडल को 64K टोकन तक की आवश्यकता होती है।
लंबे समय से संदर्भ आरएल प्रशिक्षण का अनुकूलन
आरएल के साथ बड़े मॉडल का प्रशिक्षण, विशेष रूप से उन कार्यों पर जो कोडिंग जैसे लंबे अनुक्रम उत्पन्न करते हैं, कुख्यात रूप से धीमी और संसाधन-गहन है। नमूनाकरण कदम, जहां मॉडल प्रति उदाहरण हजारों टोकन उत्पन्न करता है, अक्सर प्रतिक्रिया लंबाई के कारण महत्वपूर्ण देरी की ओर जाता है।
इससे निपटने के लिए, टीम ने वर्ल-पिपलाइन विकसित की, जो मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखने के लिए ओपन-सोर्स वर्ल लाइब्रेरी का एक अनुकूलित विस्तार है। उनके "वन-ऑफ पाइपलाइनिंग" नवाचार ने अड़चनें को कम करने और त्वरक पर निष्क्रिय समय को कम करने के लिए नमूने और मॉडल अपडेट का पुनर्गठन किया।
उनके प्रयोगों से पता चला कि एक-बंद पाइपलाइनिंग मानक तरीकों की तुलना में आरएल कार्यों को 2x तक कोडिंग कर सकती है। यह अनुकूलन एक उचित समय सीमा (32 H100s पर 2.5 सप्ताह) के भीतर दीपकोडर -14 बी को प्रशिक्षित करने में महत्वपूर्ण था और अब समुदाय के लिए उत्तोलन के लिए वर्ल-पिपलाइन के हिस्से के रूप में खुला है।
उद्यम प्रभाव और खुला-स्रोत सहयोग
शोधकर्ताओं ने GitHub पर उपलब्ध दीपकोडर -14B के लिए सभी प्रशिक्षण और परिचालन कलाकृतियों को बनाया है और एक अनुमेय लाइसेंस के तहत चेहरे को गले लगाया है। "पूरी तरह से हमारे डेटासेट, कोड और प्रशिक्षण नुस्खा को साझा करके, हम समुदाय को अपने काम को पुन: पेश करने और आरएल प्रशिक्षण को सभी के लिए सुलभ बनाने के लिए सशक्त बनाते हैं," उन्होंने कहा।
DeepCoder-14B AI परिदृश्य में कुशल, खुले तौर पर सुलभ मॉडल की बढ़ती प्रवृत्ति को दर्शाता है। उद्यमों के लिए, इसका अर्थ है अधिक विकल्प और उन्नत मॉडल के लिए अधिक पहुंच। उच्च-प्रदर्शन कोड उत्पादन और तर्क अब बड़े निगमों के लिए अनन्य नहीं हैं या जो कि भारी एपीआई शुल्क का भुगतान करने के इच्छुक हैं। सभी आकारों के संगठन अब इन क्षमताओं का दोहन कर सकते हैं, उनकी विशिष्ट आवश्यकताओं के लिए दर्जी समाधान, और उन्हें अपने वातावरण में सुरक्षित रूप से तैनात कर सकते हैं।
यह पारी एआई गोद लेने के लिए बाधाओं को कम करने के लिए तैयार है, खुले-स्रोत सहयोग द्वारा संचालित एक अधिक प्रतिस्पर्धी और अभिनव पारिस्थितिकी तंत्र को बढ़ावा देता है।


अपने ऑनलाइन डेटा गोपनीयता को पुनः प्राप्त करने के लिए 5 आसान कदम - आज शुरू करें









