घर समाचार डीपकोडर 14 बी ओपन मॉडल के साथ उच्च कोडिंग दक्षता प्राप्त करता है

डीपकोडर 14 बी ओपन मॉडल के साथ उच्च कोडिंग दक्षता प्राप्त करता है

23 अप्रैल 2025
SamuelRamirez
0

डीपकोडर -14 बी का परिचय: ओपन-सोर्स कोडिंग मॉडल में एक नया फ्रंटियर

एआई और एजेंटिका ने एक साथ टीमों ने डीपकोडर -14 बी का अनावरण किया है, जो एक ग्राउंडब्रेकिंग कोडिंग मॉडल है जो ओपनईआई के ओ 3-मिनी जैसे शीर्ष-स्तरीय मालिकाना मॉडल के साथ कंधे से कंधा मिलाकर खड़ा है। यह रोमांचक विकास डीपसेक-आर 1 की नींव पर बनाया गया है और उच्च प्रदर्शन कोड पीढ़ी को एकीकृत करने और व्यावहारिक अनुप्रयोगों में तर्क के लिए बढ़ाया लचीलापन प्रदान करता है। क्या अधिक है, रचनाकारों ने अपने प्रशिक्षण डेटा, कोड, लॉग और सिस्टम अनुकूलन सहित मॉडल को पूरी तरह से ओपन-सोर्सिंग करके एक सराहनीय कदम उठाया है। यह कदम अनुसंधान को उत्प्रेरित करने और क्षेत्र में प्रगति में तेजी लाने के लिए निर्धारित है।

एक कॉम्पैक्ट पैकेज में प्रभावशाली प्रदर्शन

दीपकोडर -14 बी ने विभिन्न कोडिंग बेंचमार्क जैसे कि LiveCodebench (LCB), CodeForces और HumanEval+में उल्लेखनीय परिणाम दिखाए हैं। अनुसंधान टीम के प्रयोगों ने इस बात पर प्रकाश डाला है कि मॉडल का प्रदर्शन O3-Mini (कम) और O1 जैसे प्रमुख मॉडल के बराबर है। शोधकर्ताओं ने अपने ब्लॉग पोस्ट में गर्व से कहा, "हमारा मॉडल सभी कोडिंग बेंचमार्क में मजबूत प्रदर्शन को प्रदर्शित करता है ... ओ 3-मिनी (कम) और ओ 1 के प्रदर्शन के बराबर है।"

विशेष रूप से पेचीदा यह है कि, मुख्य रूप से कोडिंग कार्यों पर प्रशिक्षित होने के बावजूद, डीपकोडर -14 बी ने गणितीय तर्क में उल्लेखनीय सुधार भी दिखाया है, जो कि Aime 2024 बेंचमार्क पर 73.8% स्कोर प्राप्त करता है। यह अपने बेस मॉडल, डीपसेक-आर 1-डिस्टिल-क्वेन -14 बी पर 4.1% की वृद्धि को चिह्नित करता है, यह सुझाव देता है कि कोड पर सुदृढीकरण सीखने (आरएल) के माध्यम से सम्मानित तर्क कौशल प्रभावी रूप से अन्य डोमेन में स्थानांतरित हो सकता है।

दीपकोडर -14 बी प्रदर्शन

*क्रेडिट: एक साथ ऐ*

शायद डीपकोडर -14 बी की सबसे रोमांचक विशेषता इसकी दक्षता है। केवल 14 बिलियन मापदंडों के साथ, यह कई अन्य प्रमुख मॉडलों की तुलना में काफी छोटा और अधिक संसाधन-कुशल होने के दौरान उच्च प्रदर्शन को प्राप्त करता है।

दीपकोडर की सफलता के पीछे नवाचार

डीपकोडर -14 बी को विकसित करना कई चुनौतियों का सामना करना शामिल था, विशेष रूप से सुदृढीकरण सीखने का उपयोग करके कोडिंग मॉडल को प्रशिक्षण देने में। एक बड़ी बाधा प्रशिक्षण डेटा की अवधि थी। गणितीय कार्यों के विपरीत, जहां उच्च-गुणवत्ता, सत्यापन योग्य डेटा भरपूर मात्रा में है, कोडिंग डेटा दुर्लभ हो सकता है। दीपकोडर टीम ने विभिन्न डेटासेट से उदाहरणों को इकट्ठा करने और फ़िल्टर करने के लिए एक कठोर पाइपलाइन को लागू करके, वैधता, जटिलता और दोहराव से बचने के लिए इसे संबोधित किया। इस प्रक्रिया के परिणामस्वरूप 24,000 उच्च गुणवत्ता वाली समस्याएं हुईं, जिसने आरएल प्रशिक्षण के लिए एक मजबूत नींव बनाई।

टीम ने एक सीधा इनाम फ़ंक्शन भी तैयार किया जो केवल मॉडल को पुरस्कृत करता है यदि उत्पन्न कोड सफलतापूर्वक एक निर्धारित समय सीमा के भीतर सभी नमूना इकाई परीक्षणों को पारित करता है। उच्च गुणवत्ता वाले प्रशिक्षण उदाहरणों के साथ मिलकर इस दृष्टिकोण ने यह सुनिश्चित किया कि मॉडल शॉर्टकट का शोषण करने के बजाय मुख्य समस्याओं को हल करने पर ध्यान केंद्रित करता है।

DEEPCODER-14B का प्रशिक्षण एल्गोरिथ्म समूह सापेक्ष नीति अनुकूलन (GRPO) पर आधारित है, जो DeepSeek-R1 में सफल रहा। हालांकि, टीम ने स्थिरता बढ़ाने और लंबे समय तक प्रशिक्षण अवधि को सक्षम करने के लिए महत्वपूर्ण संशोधन किए।

Grpo+

*Grpo+ deepcoder-14 को क्रेडिट को ढहने के बिना लंबी अवधि के लिए जारी रखने में सक्षम बनाता है: एक साथ ai*

इसके अतिरिक्त, टीम ने मॉडल के संदर्भ विंडो को पुनरावृत्त रूप से बढ़ाया, जो छोटे अनुक्रमों के साथ शुरू हुआ और धीरे -धीरे उन्हें बढ़ा दिया। उन्होंने जटिल संकेतों को हल करते समय संदर्भ सीमाओं से अधिक के लिए मॉडल को दंडित करने से बचने के लिए एक फ़िल्टरिंग विधि भी पेश की।

पुनरावृत्ति संदर्भ विस्तार

*डीपकोडर को 32K संदर्भ समस्याओं पर प्रशिक्षित किया गया था, लेकिन 64k कार्यों को हल करने में भी सक्षम था क्रेडिट: एक साथ एआई*

शोधकर्ताओं ने अपने दृष्टिकोण को समझाया: "कुशल प्रशिक्षण को सक्षम करते हुए लंबे समय से संदर्भ तर्क को संरक्षित करने के लिए, हमने ओवरलॉन्ग फ़िल्टरिंग को शामिल किया ... यह तकनीक प्रशिक्षण के दौरान छंटनी अनुक्रमों को बाहर निकालती है ताकि मॉडल को विचारशील लेकिन लंबे आउटपुट उत्पन्न करने के लिए दंडित न करें जो वर्तमान संदर्भ सीमा से अधिक है।" प्रशिक्षण 16K से 32K संदर्भ विंडो तक बढ़ गया, जिससे मॉडल को 64K टोकन तक की आवश्यकता होती है।

लंबे समय से संदर्भ आरएल प्रशिक्षण का अनुकूलन

आरएल के साथ बड़े मॉडल का प्रशिक्षण, विशेष रूप से उन कार्यों पर जो कोडिंग जैसे लंबे अनुक्रम उत्पन्न करते हैं, कुख्यात रूप से धीमी और संसाधन-गहन है। नमूनाकरण कदम, जहां मॉडल प्रति उदाहरण हजारों टोकन उत्पन्न करता है, अक्सर प्रतिक्रिया लंबाई के कारण महत्वपूर्ण देरी की ओर जाता है।

इससे निपटने के लिए, टीम ने वर्ल-पिपलाइन विकसित की, जो मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखने के लिए ओपन-सोर्स वर्ल लाइब्रेरी का एक अनुकूलित विस्तार है। उनके "वन-ऑफ पाइपलाइनिंग" नवाचार ने अड़चनें को कम करने और त्वरक पर निष्क्रिय समय को कम करने के लिए नमूने और मॉडल अपडेट का पुनर्गठन किया।

एक-बंद पाइपलाइनिंग

*एक-बंद पाइपलाइनिंग*

उनके प्रयोगों से पता चला कि एक-बंद पाइपलाइनिंग मानक तरीकों की तुलना में आरएल कार्यों को 2x तक कोडिंग कर सकती है। यह अनुकूलन एक उचित समय सीमा (32 H100s पर 2.5 सप्ताह) के भीतर दीपकोडर -14 बी को प्रशिक्षित करने में महत्वपूर्ण था और अब समुदाय के लिए उत्तोलन के लिए वर्ल-पिपलाइन के हिस्से के रूप में खुला है।

उद्यम प्रभाव और खुला-स्रोत सहयोग

शोधकर्ताओं ने GitHub पर उपलब्ध दीपकोडर -14B के लिए सभी प्रशिक्षण और परिचालन कलाकृतियों को बनाया है और एक अनुमेय लाइसेंस के तहत चेहरे को गले लगाया है। "पूरी तरह से हमारे डेटासेट, कोड और प्रशिक्षण नुस्खा को साझा करके, हम समुदाय को अपने काम को पुन: पेश करने और आरएल प्रशिक्षण को सभी के लिए सुलभ बनाने के लिए सशक्त बनाते हैं," उन्होंने कहा।

DeepCoder-14B AI परिदृश्य में कुशल, खुले तौर पर सुलभ मॉडल की बढ़ती प्रवृत्ति को दर्शाता है। उद्यमों के लिए, इसका अर्थ है अधिक विकल्प और उन्नत मॉडल के लिए अधिक पहुंच। उच्च-प्रदर्शन कोड उत्पादन और तर्क अब बड़े निगमों के लिए अनन्य नहीं हैं या जो कि भारी एपीआई शुल्क का भुगतान करने के इच्छुक हैं। सभी आकारों के संगठन अब इन क्षमताओं का दोहन कर सकते हैं, उनकी विशिष्ट आवश्यकताओं के लिए दर्जी समाधान, और उन्हें अपने वातावरण में सुरक्षित रूप से तैनात कर सकते हैं।

यह पारी एआई गोद लेने के लिए बाधाओं को कम करने के लिए तैयार है, खुले-स्रोत सहयोग द्वारा संचालित एक अधिक प्रतिस्पर्धी और अभिनव पारिस्थितिकी तंत्र को बढ़ावा देता है।

संबंधित लेख
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros O AIS de Deepseek descobre desejos humanos verdadeiros O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA ​​Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA ​​promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
सूचना (0)
शीर्ष समाचार
AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है IPhone और iPad पर LiDAR का उपयोग करने के लिए 8 अभिनव तरीके प्रकट हुए "समूह एआई के इको प्रभाव को कम करने के लिए स्विफ्ट उपायों का आग्रह करते हैं" Google.org Unveils $15M AI Training Grants for Government Workers 7 कारण किंडल एक महान खरीद रहे हैं, यहां तक ​​कि डाउनलोड के बिना भी टेलि, एक वाईसी फिटकिरी, एआई वॉयस एजेंटों के लिए पूर्व-बीज फंडिंग सुरक्षित करता है Nvidia नेक्स्ट-जेन GPUs का अनावरण किया: ब्लैकवेल अल्ट्रा, वेरा रुबिन, फेनमैन चुपके पीक: एडोब की नवीनतम परियोजनाओं में उन्नत एआई एजेंट हैं टिंडर उपयोगकर्ता की गिरावट के बीच एआई मैचिंग की खोज करता है

अपने ऑनलाइन डेटा गोपनीयता को पुनः प्राप्त करने के लिए 5 आसान कदम - आज शुरू करें

अधिक
OR