विकल्प
मॉडल पारसिगर मात्रा
236B
मॉडल पारसिगर मात्रा
संबद्ध संगठन
DeepSeek
संबद्ध संगठन
ओपन सोर्स
लाइसेंस प्रकार
जारी करने का समय
6 मई 2024
जारी करने का समय
मॉडल परिचय
डीपसीक-V2 एक मिश्रण-ऑफ-इक्सपर्ट्स (MoE) भाषा मॉडल है जो कीमती ट्रेनिंग और कुशल अनुमान लगाव के साथ चिन्हित है। यह कुल 236 बिलियन पैरामीटरों से मिलकर बना है, जिसमें से 21 बिलियन प्रत्येक टोकन के लिए सक्रिय हैं। डीपसीक 67B की तुलना में, डीपसीक-V2 मजबूत प्रदर्शन प्रदान करता है, और इसने 42.5% की ट्रेनिंग लागत की कटौती की, KV कैश को 93.3% कम किया और अधिकतम उत्पादकता को 5.76 गुना बढ़ाया।
और देखने के लिए बाएं और दाएं स्वाइप करें
भाषा समझ की क्षमता भाषा समझ की क्षमता
भाषा समझ की क्षमता
अक्सर सिमेंटिक गलतफहमी बनाता है, प्रतिक्रियाओं में स्पष्ट तार्किक डिस्कनेक्ट के लिए अग्रणी।
4.6
ज्ञान कवरेज गुंजाइश ज्ञान कवरेज गुंजाइश
ज्ञान कवरेज गुंजाइश
मुख्यधारा के विषयों का मुख्य ज्ञान है, लेकिन इसमें अत्याधुनिक अंतःविषय क्षेत्रों की सीमित कवरेज है।
7.8
तर्क क्षमता तर्क क्षमता
तर्क क्षमता
सुसंगत तर्क श्रृंखला बनाए रखने में असमर्थ, अक्सर उल्टे कार्य -कारण या मिसकॉल्स का कारण बनता है।
4.7
मॉडल तुलना
संबंधित मॉडल
DeepSeek-V2.5 DeepSeek-V2.5 एक अपग्रेड वर्शन है जो DeepSeek-V2-Chat और DeepSeek-Coder-V2-Instruct को जोड़ता है। नया मॉडल पिछली दो संस्करणों की सामान्य और कोडिंग क्षमताओं को एक्सप्लोर करता है।
DeepSeek-V3-0324 डीपसीक-V3 कई मूल्यांकनों में Qwen2.5-72B और Llama-3.1-405B जैसे अन्य 오픈 स्रोत मॉडल्स को पारदर्शी करता है और GPT-4 और Claude-3.5-Sonnet जैसे शीर्ष श्रेणी के बंद स्रोत मॉडल्स के प्रदर्शन के साथ मेल खाता है।
DeepSeek-V2-Lite-Chat DeepSeek-V2, डीपसेक द्वारा पेश किए गए एक मजबूत Mixture-of-Experts (MoE) भाषा मॉडल है, और DeepSeek-V2-Lite उसकी हल्की संस्करण है।
DeepSeek-V2-Chat DeepSeek-V2 एक मिश्रण-ऑफ-विशेषज्ञ (MoE) भाषा मॉडल है जो आर्थिक ट्रेनिंग और कुशल अनुमान लगाने के लिए जाना जाता है। यह कुल 236 बिलियन पैरामीटरों से मिलकर बना है, जिसमें से 21 बिलियन प्रत्येक टोकन के लिए सक्रिय होते हैं। DeepSeek 67B की तुलना में, DeepSeek-V2 बेहतर प्रदर्शन प्रदान करता है, ट्रेनिंग लागत को 42.5% कम करता है, KV कैश को 93.3% कम करता है, और अधिकतम उत्पादन अनुमान की दर को 5.76 गुना बढ़ाता है।
DeepSeek-R1 DeepSeek-R1 एक मॉडल है जिसे बड़े पैमाने पर पुनर्निर्माण सीखने (RL) के माध्यम से प्रशिक्षित किया गया है, और प्रारंभिक चरण के रूप में सुरक्षित फाइन-ट्यूनिंग (SFT) का उपयोग नहीं किया गया है। इसका गणित, कोडिंग और तर्क संबंधी कार्यों में प्रदर्शन OpenAI-o1 के समान है।
प्रासंगिक दस्तावेज
AI-चालित शिक्षा: ग्रेडों में सीखने में क्रांति लाना कृत्रिम बुद्धिमत्ता (AI) शिक्षा को नवीन उपकरणों के माध्यम से बदल रही है जो छात्रों को आकर्षित करते हैं और सीखने को अनुकूलित करते हैं। यह लेख जांचता है कि शिक्षक AI का उपयोग कैसे कर सकते हैं, जिसमें Mi
AI बनाम मानव लेखक: क्या मशीनें रचनात्मकता को मात दे सकती हैं? सामग्री-प्रधान युग में, यह बहस तेज हो रही है कि क्या कृत्रिम बुद्धिमत्ता (AI) मानव लेखकों को पीछे छोड़ सकती है। AI गति और लागत बचत प्रदान करता है, लेकिन मानव अद्वितीय रचनात्मकता, सहानुभूति और अंतर्दृष
AI Idols मनोरंजन को वर्चुअल प्रदर्शनों के साथ क्रांतिकारी बनाते हैं मनोरंजन का परिदृश्य AI idols, कृत्रिम बुद्धिमत्ता द्वारा संचालित वर्चुअल प्रदर्शनकर्ताओं के उदय के साथ बदल रहा है। ये डिजिटल सितारे नवाचारी संगीत, आकर्षक दृश्यों, और इंटरैक्टिव अनुभवों के माध्यम से वै
AI द्वारा संचालित ईमेल निष्कर्षण सटीकता को बढ़ावा देना: शीर्ष रणनीतियाँ सामने आईं AI का उपयोग करके बातचीत से ईमेल पते निकालना दक्षता को बढ़ाता है, लेकिन सटीकता डेवलपर्स के लिए एक प्रमुख चुनौती बनी हुई है। यह मार्गदर्शिका परिष्कृत प्रॉम्प्ट इंजीनियरिंग और ट्रांसक्रिप्शन मॉडल के माध्
AI-चालित रंग भरने वाले पेज: आसानी से शानदार डिज़ाइन बनाएं एक नवाचारी AI मंच की खोज करें जो आकर्षक रंग भरने वाले पेजों के निर्माण को बदल देता है। कलाकारों, शिक्षकों या उत्साहियों के लिए आदर्श, यह उपकरण एक सहज इंटरफ़ेस और मजबूत सुविधाएँ प्रदान करता है ताकि आपक
मॉडल तुलना
तुलना शुरू करें
शीर्ष पर वापस
OR