

शोधकर्ताओं ने $ 50 के तहत Openai के $ 50 'रीजनिंग' मॉडल के लिए ओपन-सोर्स प्रतिद्वंद्वी विकसित किया
21 अप्रैल 2025
JosephWalker
30

पिछले शुक्रवार को, स्टैनफोर्ड और वाशिंगटन विश्वविद्यालय के एआई विशेषज्ञों के एक ग्राउंडब्रेकिंग शोध पत्र ने इस दृश्य को मारा, जिससे पता चलता है कि वे क्लाउड कम्प्यूट क्रेडिट में $ 50 से कम के लिए एस 1 के लिए एआई "रीजनिंग" मॉडल विकसित करने में कामयाब रहे। यह रहस्योद्घाटन एआई दुनिया को हिला रहा है, क्योंकि एस 1 ओपनईआई के ओ 1 और डीपसेक के आर 1 जैसे शीर्ष-स्तरीय मॉडल के खिलाफ अपने आप को रखता है जब यह गणित और कोडिंग चुनौतियों से निपटने की बात आती है।
S1 मॉडल, इसके प्रशिक्षण डेटा और कोड के सभी रसदार विवरणों के साथ, अब GitHub पर कब्रों के लिए है। टीम ने एक रन-ऑफ-द-मिल बेस मॉडल के साथ चीजों को बंद कर दिया और फिर इसे डिस्टिलेशन नामक एक तकनीक के साथ रिंगर के माध्यम से रखा। इस प्रक्रिया में अपनी प्रतिक्रियाओं पर प्रशिक्षण द्वारा एक और एआई मॉडल से "तर्क" रस को निचोड़ना शामिल है। इस मामले में, S1 को Google के मिथुन 2.0 फ्लैश थिंकिंग प्रायोगिक मॉडल से अपने स्मार्ट मिले। यह एक समान रणनीति है कि बर्कले के शोधकर्ताओं ने पिछले महीने ही $ 450 के लिए अपने स्वयं के एआई रीजनिंग मॉडल को कोड़ा मारने के लिए क्या इस्तेमाल किया था।
कुछ के लिए, यह विचार कि शोधकर्ताओं की एक छोटी टीम अभी भी बड़े पैमाने पर बजट के बिना एआई क्षेत्र में लहरें बना सकती है, रोमांचकारी है। लेकिन S1 का उद्भव भी AI मॉडल के विकास के भविष्य के बारे में कुछ गंभीर सवालों को जन्म देता है। यदि एक मॉडल जो लाखों लोगों के साथ बनाए गए प्रतिद्वंद्वियों को एक शॉस्ट्रिंग बजट पर दोहराया जा सकता है, तो सभी को भी ऐसा करने से रोकने के लिए क्या है?
आश्चर्य नहीं कि एआई में बड़े खिलाड़ी रोमांचित नहीं हैं। उदाहरण के लिए, Openai ने डीपसेक में उंगलियों को इंगित किया है, उन पर उनके एपीआई डेटा का उपयोग करने का आरोप लगाया है जो मॉडल आसवन को ईंधन देने के लिए है। इस बीच, S1 टीम ठोस तर्क प्रदर्शन और "टेस्ट-टाइम स्केलिंग" नामक कुछ को प्राप्त करने के लिए सबसे सीधा तरीका खोजने पर केंद्रित थी, जहां एक AI मॉडल को जवाब देने से पहले सोचने के लिए अधिक समय मिलता है। ये वही नवाचार हैं जो Openai के O1 मॉडल को टेबल पर लाया गया था, जिसे दीपसेक जैसे अन्य लोगों ने अपने तरीकों से नकल करने की कोशिश की है।
S1 पेपर बताता है कि आप एक अपेक्षाकृत छोटे डेटासेट के साथ तर्क मॉडल को डिस्टिल कर सकते हैं, जिसे पर्यवेक्षित फाइन-ट्यूनिंग (SFT) के रूप में जाना जाता है। इसमें एआई मॉडल को एक डेटासेट से विशिष्ट व्यवहारों को कॉपी करने के लिए प्रशिक्षित करना शामिल है, और यह बड़े पैमाने पर सुदृढीकरण सीखने की तुलना में सस्ता है जो कि डीपसेक अपने आर 1 मॉडल के लिए उपयोग किया जाता है, जो ओपनईएआई के ओ 1 के साथ प्रतिस्पर्धा करता है।
Google अपने Google AI स्टूडियो प्लेटफॉर्म के माध्यम से मुफ्त में उपलब्ध मिथुन 2.0 फ्लैश थिंकिंग प्रायोगिक बनाता है, हालांकि दैनिक सीमा के साथ। लेकिन एक कैच है-Google की शर्तें प्रतिस्पर्धी सेवाओं को बनाने के लिए अपने मॉडल को रिवर्स-इंजीनियरिंग करने की अनुमति नहीं देती हैं। हम इस पर Google से वापस सुनने के लिए इंतजार कर रहे हैं।
S1 मॉडल ने अलीबाबा के क्यूवेन लैब से एक मामूली, ऑफ-द-शेल्फ एआई मॉडल के रूप में जीवन शुरू किया, जिसे कोई भी मुफ्त में डाउनलोड कर सकता है। S1 को प्रशिक्षित करने के लिए, शोधकर्ताओं ने Google के मिथुन 2.0 के सौजन्य से, उत्तर और प्रत्येक एक के पीछे "सोच" प्रक्रिया के साथ -साथ केवल 1,000 ध्यान से चुने गए प्रश्नों का एक डेटासेट रखा। पूरे प्रशिक्षण प्रक्रिया में 16 NVIDIA H100 GPU पर 30 मिनट से कम समय लगा। परियोजना में शामिल एक स्टैनफोर्ड शोधकर्ता निक्लस मुनीघॉफ के अनुसार, आप आज इसे कम्प्यूट लागत में लगभग $ 20 के लिए खींच सकते हैं।
शोधकर्ताओं ने S1 को अपना काम करने के लिए एक चतुर कदम भी खींचा और अपने "सोच" समय का विस्तार किया-उन्होंने बस इसे "प्रतीक्षा" करने के लिए कहा था। S1 के तर्क प्रक्रिया के दौरान इस शब्द को जोड़ने से पेपर के अनुसार, इसे थोड़ा अधिक सटीक उत्तरों के साथ आने में मदद मिली।
2025 के लिए आगे देखते हुए, मेटा, Google और Microsoft जैसे तकनीकी दिग्गजों को AI इन्फ्रास्ट्रक्चर में सैकड़ों अरबों को डालने के लिए सेट किया गया है, जिनमें से अधिकांश AI मॉडल की अगली लहर को प्रशिक्षित करने की ओर जाएंगे। जबकि आसवन सस्ते पर एआई क्षमताओं को फिर से बनाने के लिए एक प्रभावी तरीका साबित होता है, यह जल्द ही कभी भी एआई मॉडल को ब्रांड-नए, ग्राउंडब्रेकिंग के निर्माण के लिए नेतृत्व करने वाला नहीं है।
संबंधित लेख
전 Deepseeker 및 Collaborators는 신뢰할 수있는 AI 에이전트를 훈련하기위한 새로운 방법을 발표합니다 : Ragen
AI 에이전트의 해 : 2025 년의 기대와 현실 2025를 자세히 살펴보면 AI 에이전트가 OpenAi, Anthropic, Google 및 Deepseek와 같은 회사의 고급 대형 언어 및 멀티 모달 모델로 구동되는 AI 시스템에 따라 AI 에이전트가 구체화 된 해로 많은 전문가들에 의해 예고되었습니다.
Google Search는 복잡한 다중 부분 쿼리에 대한 'AI 모드'를 소개합니다
Google은 Perplexity AI와 경쟁하기 위해 "AI Mode"를 공개하고 ChatgptGoogle은 검색 엔진에서 실험적인 "AI 모드"기능을 시작하여 AI 경기장에서 게임을 강화하고 있습니다. Perplexity AI 및 OpenAi의 ChatGpt 검색을 좋아하는이 새로운 모드는 Wed에서 발표되었습니다.
Chatgpt의 원치 않는 사용자 이름 사용은 일부 사람들 사이에서 '소름 끼치는'우려를 불러 일으 킵니다.
Chatgpt의 일부 사용자는 최근에 이상한 새로운 기능을 발견했습니다. 챗봇은 때때로 문제를 해결하면서 자신의 이름을 사용합니다. 이것은 이전의 일반적인 행동의 일부가 아니 었으며, 많은 사용자들은 Chatgpt가 자신의 이름을 말하지 않고 자신의 이름을 언급했다고보고합니다. 에 대한 의견
सूचना (0)
0/200






पिछले शुक्रवार को, स्टैनफोर्ड और वाशिंगटन विश्वविद्यालय के एआई विशेषज्ञों के एक ग्राउंडब्रेकिंग शोध पत्र ने इस दृश्य को मारा, जिससे पता चलता है कि वे क्लाउड कम्प्यूट क्रेडिट में $ 50 से कम के लिए एस 1 के लिए एआई "रीजनिंग" मॉडल विकसित करने में कामयाब रहे। यह रहस्योद्घाटन एआई दुनिया को हिला रहा है, क्योंकि एस 1 ओपनईआई के ओ 1 और डीपसेक के आर 1 जैसे शीर्ष-स्तरीय मॉडल के खिलाफ अपने आप को रखता है जब यह गणित और कोडिंग चुनौतियों से निपटने की बात आती है।
S1 मॉडल, इसके प्रशिक्षण डेटा और कोड के सभी रसदार विवरणों के साथ, अब GitHub पर कब्रों के लिए है। टीम ने एक रन-ऑफ-द-मिल बेस मॉडल के साथ चीजों को बंद कर दिया और फिर इसे डिस्टिलेशन नामक एक तकनीक के साथ रिंगर के माध्यम से रखा। इस प्रक्रिया में अपनी प्रतिक्रियाओं पर प्रशिक्षण द्वारा एक और एआई मॉडल से "तर्क" रस को निचोड़ना शामिल है। इस मामले में, S1 को Google के मिथुन 2.0 फ्लैश थिंकिंग प्रायोगिक मॉडल से अपने स्मार्ट मिले। यह एक समान रणनीति है कि बर्कले के शोधकर्ताओं ने पिछले महीने ही $ 450 के लिए अपने स्वयं के एआई रीजनिंग मॉडल को कोड़ा मारने के लिए क्या इस्तेमाल किया था।
कुछ के लिए, यह विचार कि शोधकर्ताओं की एक छोटी टीम अभी भी बड़े पैमाने पर बजट के बिना एआई क्षेत्र में लहरें बना सकती है, रोमांचकारी है। लेकिन S1 का उद्भव भी AI मॉडल के विकास के भविष्य के बारे में कुछ गंभीर सवालों को जन्म देता है। यदि एक मॉडल जो लाखों लोगों के साथ बनाए गए प्रतिद्वंद्वियों को एक शॉस्ट्रिंग बजट पर दोहराया जा सकता है, तो सभी को भी ऐसा करने से रोकने के लिए क्या है?
आश्चर्य नहीं कि एआई में बड़े खिलाड़ी रोमांचित नहीं हैं। उदाहरण के लिए, Openai ने डीपसेक में उंगलियों को इंगित किया है, उन पर उनके एपीआई डेटा का उपयोग करने का आरोप लगाया है जो मॉडल आसवन को ईंधन देने के लिए है। इस बीच, S1 टीम ठोस तर्क प्रदर्शन और "टेस्ट-टाइम स्केलिंग" नामक कुछ को प्राप्त करने के लिए सबसे सीधा तरीका खोजने पर केंद्रित थी, जहां एक AI मॉडल को जवाब देने से पहले सोचने के लिए अधिक समय मिलता है। ये वही नवाचार हैं जो Openai के O1 मॉडल को टेबल पर लाया गया था, जिसे दीपसेक जैसे अन्य लोगों ने अपने तरीकों से नकल करने की कोशिश की है।
S1 पेपर बताता है कि आप एक अपेक्षाकृत छोटे डेटासेट के साथ तर्क मॉडल को डिस्टिल कर सकते हैं, जिसे पर्यवेक्षित फाइन-ट्यूनिंग (SFT) के रूप में जाना जाता है। इसमें एआई मॉडल को एक डेटासेट से विशिष्ट व्यवहारों को कॉपी करने के लिए प्रशिक्षित करना शामिल है, और यह बड़े पैमाने पर सुदृढीकरण सीखने की तुलना में सस्ता है जो कि डीपसेक अपने आर 1 मॉडल के लिए उपयोग किया जाता है, जो ओपनईएआई के ओ 1 के साथ प्रतिस्पर्धा करता है।
Google अपने Google AI स्टूडियो प्लेटफॉर्म के माध्यम से मुफ्त में उपलब्ध मिथुन 2.0 फ्लैश थिंकिंग प्रायोगिक बनाता है, हालांकि दैनिक सीमा के साथ। लेकिन एक कैच है-Google की शर्तें प्रतिस्पर्धी सेवाओं को बनाने के लिए अपने मॉडल को रिवर्स-इंजीनियरिंग करने की अनुमति नहीं देती हैं। हम इस पर Google से वापस सुनने के लिए इंतजार कर रहे हैं।
S1 मॉडल ने अलीबाबा के क्यूवेन लैब से एक मामूली, ऑफ-द-शेल्फ एआई मॉडल के रूप में जीवन शुरू किया, जिसे कोई भी मुफ्त में डाउनलोड कर सकता है। S1 को प्रशिक्षित करने के लिए, शोधकर्ताओं ने Google के मिथुन 2.0 के सौजन्य से, उत्तर और प्रत्येक एक के पीछे "सोच" प्रक्रिया के साथ -साथ केवल 1,000 ध्यान से चुने गए प्रश्नों का एक डेटासेट रखा। पूरे प्रशिक्षण प्रक्रिया में 16 NVIDIA H100 GPU पर 30 मिनट से कम समय लगा। परियोजना में शामिल एक स्टैनफोर्ड शोधकर्ता निक्लस मुनीघॉफ के अनुसार, आप आज इसे कम्प्यूट लागत में लगभग $ 20 के लिए खींच सकते हैं।
शोधकर्ताओं ने S1 को अपना काम करने के लिए एक चतुर कदम भी खींचा और अपने "सोच" समय का विस्तार किया-उन्होंने बस इसे "प्रतीक्षा" करने के लिए कहा था। S1 के तर्क प्रक्रिया के दौरान इस शब्द को जोड़ने से पेपर के अनुसार, इसे थोड़ा अधिक सटीक उत्तरों के साथ आने में मदद मिली।
2025 के लिए आगे देखते हुए, मेटा, Google और Microsoft जैसे तकनीकी दिग्गजों को AI इन्फ्रास्ट्रक्चर में सैकड़ों अरबों को डालने के लिए सेट किया गया है, जिनमें से अधिकांश AI मॉडल की अगली लहर को प्रशिक्षित करने की ओर जाएंगे। जबकि आसवन सस्ते पर एआई क्षमताओं को फिर से बनाने के लिए एक प्रभावी तरीका साबित होता है, यह जल्द ही कभी भी एआई मॉडल को ब्रांड-नए, ग्राउंडब्रेकिंग के निर्माण के लिए नेतृत्व करने वाला नहीं है।












