विकल्प
मॉडल पारसिगर मात्रा
16B
मॉडल पारसिगर मात्रा
संबद्ध संगठन
DeepSeek
संबद्ध संगठन
ओपन सोर्स
लाइसेंस प्रकार
जारी करने का समय
15 मई 2024
जारी करने का समय
मॉडल परिचय
DeepSeek-V2, डीपसेक द्वारा पेश किए गए एक मजबूत Mixture-of-Experts (MoE) भाषा मॉडल है, और DeepSeek-V2-Lite उसकी हल्की संस्करण है।
और देखने के लिए बाएं और दाएं स्वाइप करें
भाषा समझ की क्षमता भाषा समझ की क्षमता
भाषा समझ की क्षमता
अक्सर सिमेंटिक गलतफहमी बनाता है, प्रतिक्रियाओं में स्पष्ट तार्किक डिस्कनेक्ट के लिए अग्रणी।
3.8
ज्ञान कवरेज गुंजाइश ज्ञान कवरेज गुंजाइश
ज्ञान कवरेज गुंजाइश
महत्वपूर्ण ज्ञान अंधा धब्बे हैं, अक्सर तथ्यात्मक त्रुटियां दिखाते हैं और पुरानी जानकारी दोहराते हैं।
5.3
तर्क क्षमता तर्क क्षमता
तर्क क्षमता
सुसंगत तर्क श्रृंखला बनाए रखने में असमर्थ, अक्सर उल्टे कार्य -कारण या मिसकॉल्स का कारण बनता है।
1.9
मॉडल तुलना
संबंधित मॉडल
DeepSeek-V2-Chat-0628 डीपसीक-V2 एक मिश्रण-ऑफ-इक्सपर्ट्स (MoE) भाषा मॉडल है जो कीमती ट्रेनिंग और कुशल अनुमान लगाव के साथ चिन्हित है। यह कुल 236 बिलियन पैरामीटरों से मिलकर बना है, जिसमें से 21 बिलियन प्रत्येक टोकन के लिए सक्रिय हैं। डीपसीक 67B की तुलना में, डीपसीक-V2 मजबूत प्रदर्शन प्रदान करता है, और इसने 42.5% की ट्रेनिंग लागत की कटौती की, KV कैश को 93.3% कम किया और अधिकतम उत्पादकता को 5.76 गुना बढ़ाया।
DeepSeek-V2.5 DeepSeek-V2.5 एक अपग्रेड वर्शन है जो DeepSeek-V2-Chat और DeepSeek-Coder-V2-Instruct को जोड़ता है। नया मॉडल पिछली दो संस्करणों की सामान्य और कोडिंग क्षमताओं को एक्सप्लोर करता है।
DeepSeek-V3-0324 डीपसीक-V3 कई मूल्यांकनों में Qwen2.5-72B और Llama-3.1-405B जैसे अन्य 오픈 स्रोत मॉडल्स को पारदर्शी करता है और GPT-4 और Claude-3.5-Sonnet जैसे शीर्ष श्रेणी के बंद स्रोत मॉडल्स के प्रदर्शन के साथ मेल खाता है।
DeepSeek-V2-Chat DeepSeek-V2 एक मिश्रण-ऑफ-विशेषज्ञ (MoE) भाषा मॉडल है जो आर्थिक ट्रेनिंग और कुशल अनुमान लगाने के लिए जाना जाता है। यह कुल 236 बिलियन पैरामीटरों से मिलकर बना है, जिसमें से 21 बिलियन प्रत्येक टोकन के लिए सक्रिय होते हैं। DeepSeek 67B की तुलना में, DeepSeek-V2 बेहतर प्रदर्शन प्रदान करता है, ट्रेनिंग लागत को 42.5% कम करता है, KV कैश को 93.3% कम करता है, और अधिकतम उत्पादन अनुमान की दर को 5.76 गुना बढ़ाता है।
DeepSeek-R1 DeepSeek-R1 एक मॉडल है जिसे बड़े पैमाने पर पुनर्निर्माण सीखने (RL) के माध्यम से प्रशिक्षित किया गया है, और प्रारंभिक चरण के रूप में सुरक्षित फाइन-ट्यूनिंग (SFT) का उपयोग नहीं किया गया है। इसका गणित, कोडिंग और तर्क संबंधी कार्यों में प्रदर्शन OpenAI-o1 के समान है।
प्रासंगिक दस्तावेज
Anthropic ने Claude को निर्बाध उपकरण एकीकरण और उन्नत अनुसंधान के साथ बढ़ाया Anthropic ने Claude के लिए नए 'Integrations' का अनावरण किया है, जो AI को आपके पसंदीदा कार्य उपकरणों से सीधे जोड़ने में सक्षम बनाता है। कंपनी ने गहन अंतर्दृष्टि के लिए एक उन्नत 'Advanced Research' सुवि
AI-चालित UX डिज़ाइन: उपयोगकर्ता अनुभव का भविष्य गढ़ना उपयोगकर्ता अनुभव (UX) डिज़ाइन का क्षेत्र कृत्रिम बुद्धिमत्ता (AI) के तेजी से विकास के कारण एक गहन परिवर्तन का अनुभव कर रहा है। यह अब कोई दूर का सपना नहीं है, AI अब UX डिज़ाइन प्रक्रिया का एक आधारशिला
AI-चालित शिक्षा: ग्रेडों में सीखने में क्रांति लाना कृत्रिम बुद्धिमत्ता (AI) शिक्षा को नवीन उपकरणों के माध्यम से बदल रही है जो छात्रों को आकर्षित करते हैं और सीखने को अनुकूलित करते हैं। यह लेख जांचता है कि शिक्षक AI का उपयोग कैसे कर सकते हैं, जिसमें Mi
AI बनाम मानव लेखक: क्या मशीनें रचनात्मकता को मात दे सकती हैं? सामग्री-प्रधान युग में, यह बहस तेज हो रही है कि क्या कृत्रिम बुद्धिमत्ता (AI) मानव लेखकों को पीछे छोड़ सकती है। AI गति और लागत बचत प्रदान करता है, लेकिन मानव अद्वितीय रचनात्मकता, सहानुभूति और अंतर्दृष
AI Idols मनोरंजन को वर्चुअल प्रदर्शनों के साथ क्रांतिकारी बनाते हैं मनोरंजन का परिदृश्य AI idols, कृत्रिम बुद्धिमत्ता द्वारा संचालित वर्चुअल प्रदर्शनकर्ताओं के उदय के साथ बदल रहा है। ये डिजिटल सितारे नवाचारी संगीत, आकर्षक दृश्यों, और इंटरैक्टिव अनुभवों के माध्यम से वै
मॉडल तुलना
तुलना शुरू करें
शीर्ष पर वापस
OR