विकल्प
मॉडल पारसिगर मात्रा
671B
मॉडल पारसिगर मात्रा
संबद्ध संगठन
DeepSeek
संबद्ध संगठन
ओपन सोर्स
लाइसेंस प्रकार
जारी करने का समय
20 जनवरी 2025
जारी करने का समय
मॉडल परिचय
DeepSeek-R1 एक मॉडल है जिसे बड़े पैमाने पर पुनर्निर्माण सीखने (RL) के माध्यम से प्रशिक्षित किया गया है, और प्रारंभिक चरण के रूप में सुरक्षित फाइन-ट्यूनिंग (SFT) का उपयोग नहीं किया गया है। इसका गणित, कोडिंग और तर्क संबंधी कार्यों में प्रदर्शन OpenAI-o1 के समान है।
और देखने के लिए बाएं और दाएं स्वाइप करें
भाषा समझ की क्षमता भाषा समझ की क्षमता
भाषा समझ की क्षमता
जटिल संदर्भों को समझने और तार्किक रूप से सुसंगत वाक्यों को उत्पन्न करने में सक्षम, हालांकि कभी -कभी टोन नियंत्रण में बंद हो जाता है।
7.8
ज्ञान कवरेज गुंजाइश ज्ञान कवरेज गुंजाइश
ज्ञान कवरेज गुंजाइश
मुख्यधारा के विषयों का मुख्य ज्ञान है, लेकिन इसमें अत्याधुनिक अंतःविषय क्षेत्रों की सीमित कवरेज है।
8.9
तर्क क्षमता तर्क क्षमता
तर्क क्षमता
बहु-स्तरीय तार्किक ढांचे के निर्माण में सक्षम, जटिल गणितीय मॉडलिंग में 99% से अधिक सटीकता प्राप्त करना।
9.1
मॉडल तुलना
संबंधित मॉडल
DeepSeek-V2-Chat-0628 डीपसीक-V2 एक मिश्रण-ऑफ-इक्सपर्ट्स (MoE) भाषा मॉडल है जो कीमती ट्रेनिंग और कुशल अनुमान लगाव के साथ चिन्हित है। यह कुल 236 बिलियन पैरामीटरों से मिलकर बना है, जिसमें से 21 बिलियन प्रत्येक टोकन के लिए सक्रिय हैं। डीपसीक 67B की तुलना में, डीपसीक-V2 मजबूत प्रदर्शन प्रदान करता है, और इसने 42.5% की ट्रेनिंग लागत की कटौती की, KV कैश को 93.3% कम किया और अधिकतम उत्पादकता को 5.76 गुना बढ़ाया।
DeepSeek-V2.5 DeepSeek-V2.5 एक अपग्रेड वर्शन है जो DeepSeek-V2-Chat और DeepSeek-Coder-V2-Instruct को जोड़ता है। नया मॉडल पिछली दो संस्करणों की सामान्य और कोडिंग क्षमताओं को एक्सप्लोर करता है।
DeepSeek-V3-0324 डीपसीक-V3 कई मूल्यांकनों में Qwen2.5-72B और Llama-3.1-405B जैसे अन्य 오픈 स्रोत मॉडल्स को पारदर्शी करता है और GPT-4 और Claude-3.5-Sonnet जैसे शीर्ष श्रेणी के बंद स्रोत मॉडल्स के प्रदर्शन के साथ मेल खाता है।
DeepSeek-V2-Lite-Chat DeepSeek-V2, डीपसेक द्वारा पेश किए गए एक मजबूत Mixture-of-Experts (MoE) भाषा मॉडल है, और DeepSeek-V2-Lite उसकी हल्की संस्करण है।
DeepSeek-V2-Chat DeepSeek-V2 एक मिश्रण-ऑफ-विशेषज्ञ (MoE) भाषा मॉडल है जो आर्थिक ट्रेनिंग और कुशल अनुमान लगाने के लिए जाना जाता है। यह कुल 236 बिलियन पैरामीटरों से मिलकर बना है, जिसमें से 21 बिलियन प्रत्येक टोकन के लिए सक्रिय होते हैं। DeepSeek 67B की तुलना में, DeepSeek-V2 बेहतर प्रदर्शन प्रदान करता है, ट्रेनिंग लागत को 42.5% कम करता है, KV कैश को 93.3% कम करता है, और अधिकतम उत्पादन अनुमान की दर को 5.76 गुना बढ़ाता है।
प्रासंगिक दस्तावेज
Anthropic ने Claude को निर्बाध उपकरण एकीकरण और उन्नत अनुसंधान के साथ बढ़ाया Anthropic ने Claude के लिए नए 'Integrations' का अनावरण किया है, जो AI को आपके पसंदीदा कार्य उपकरणों से सीधे जोड़ने में सक्षम बनाता है। कंपनी ने गहन अंतर्दृष्टि के लिए एक उन्नत 'Advanced Research' सुवि
AI-चालित UX डिज़ाइन: उपयोगकर्ता अनुभव का भविष्य गढ़ना उपयोगकर्ता अनुभव (UX) डिज़ाइन का क्षेत्र कृत्रिम बुद्धिमत्ता (AI) के तेजी से विकास के कारण एक गहन परिवर्तन का अनुभव कर रहा है। यह अब कोई दूर का सपना नहीं है, AI अब UX डिज़ाइन प्रक्रिया का एक आधारशिला
AI-चालित शिक्षा: ग्रेडों में सीखने में क्रांति लाना कृत्रिम बुद्धिमत्ता (AI) शिक्षा को नवीन उपकरणों के माध्यम से बदल रही है जो छात्रों को आकर्षित करते हैं और सीखने को अनुकूलित करते हैं। यह लेख जांचता है कि शिक्षक AI का उपयोग कैसे कर सकते हैं, जिसमें Mi
AI बनाम मानव लेखक: क्या मशीनें रचनात्मकता को मात दे सकती हैं? सामग्री-प्रधान युग में, यह बहस तेज हो रही है कि क्या कृत्रिम बुद्धिमत्ता (AI) मानव लेखकों को पीछे छोड़ सकती है। AI गति और लागत बचत प्रदान करता है, लेकिन मानव अद्वितीय रचनात्मकता, सहानुभूति और अंतर्दृष
AI Idols मनोरंजन को वर्चुअल प्रदर्शनों के साथ क्रांतिकारी बनाते हैं मनोरंजन का परिदृश्य AI idols, कृत्रिम बुद्धिमत्ता द्वारा संचालित वर्चुअल प्रदर्शनकर्ताओं के उदय के साथ बदल रहा है। ये डिजिटल सितारे नवाचारी संगीत, आकर्षक दृश्यों, और इंटरैक्टिव अनुभवों के माध्यम से वै
मॉडल तुलना
तुलना शुरू करें
शीर्ष पर वापस
OR