विकल्प
मॉडल पारसिगर मात्रा
236B
मॉडल पारसिगर मात्रा
संबद्ध संगठन
DeepSeek
संबद्ध संगठन
ओपन सोर्स
लाइसेंस प्रकार
जारी करने का समय
5 सितम्बर 2024
जारी करने का समय
मॉडल परिचय
DeepSeek-V2.5 एक अपग्रेड वर्शन है जो DeepSeek-V2-Chat और DeepSeek-Coder-V2-Instruct को जोड़ता है। नया मॉडल पिछली दो संस्करणों की सामान्य और कोडिंग क्षमताओं को एक्सप्लोर करता है।
और देखने के लिए बाएं और दाएं स्वाइप करें
भाषा समझ की क्षमता भाषा समझ की क्षमता
भाषा समझ की क्षमता
अक्सर सिमेंटिक गलतफहमी बनाता है, प्रतिक्रियाओं में स्पष्ट तार्किक डिस्कनेक्ट के लिए अग्रणी।
5.2
ज्ञान कवरेज गुंजाइश ज्ञान कवरेज गुंजाइश
ज्ञान कवरेज गुंजाइश
मुख्यधारा के विषयों का मुख्य ज्ञान है, लेकिन इसमें अत्याधुनिक अंतःविषय क्षेत्रों की सीमित कवरेज है।
7.6
तर्क क्षमता तर्क क्षमता
तर्क क्षमता
सुसंगत तर्क श्रृंखला बनाए रखने में असमर्थ, अक्सर उल्टे कार्य -कारण या मिसकॉल्स का कारण बनता है।
4.4
मॉडल तुलना
संबंधित मॉडल
DeepSeek-V2-Chat-0628 डीपसीक-V2 एक मिश्रण-ऑफ-इक्सपर्ट्स (MoE) भाषा मॉडल है जो कीमती ट्रेनिंग और कुशल अनुमान लगाव के साथ चिन्हित है। यह कुल 236 बिलियन पैरामीटरों से मिलकर बना है, जिसमें से 21 बिलियन प्रत्येक टोकन के लिए सक्रिय हैं। डीपसीक 67B की तुलना में, डीपसीक-V2 मजबूत प्रदर्शन प्रदान करता है, और इसने 42.5% की ट्रेनिंग लागत की कटौती की, KV कैश को 93.3% कम किया और अधिकतम उत्पादकता को 5.76 गुना बढ़ाया।
DeepSeek-V3-0324 डीपसीक-V3 कई मूल्यांकनों में Qwen2.5-72B और Llama-3.1-405B जैसे अन्य 오픈 स्रोत मॉडल्स को पारदर्शी करता है और GPT-4 और Claude-3.5-Sonnet जैसे शीर्ष श्रेणी के बंद स्रोत मॉडल्स के प्रदर्शन के साथ मेल खाता है।
DeepSeek-V2-Lite-Chat DeepSeek-V2, डीपसेक द्वारा पेश किए गए एक मजबूत Mixture-of-Experts (MoE) भाषा मॉडल है, और DeepSeek-V2-Lite उसकी हल्की संस्करण है।
DeepSeek-V2-Chat DeepSeek-V2 एक मिश्रण-ऑफ-विशेषज्ञ (MoE) भाषा मॉडल है जो आर्थिक ट्रेनिंग और कुशल अनुमान लगाने के लिए जाना जाता है। यह कुल 236 बिलियन पैरामीटरों से मिलकर बना है, जिसमें से 21 बिलियन प्रत्येक टोकन के लिए सक्रिय होते हैं। DeepSeek 67B की तुलना में, DeepSeek-V2 बेहतर प्रदर्शन प्रदान करता है, ट्रेनिंग लागत को 42.5% कम करता है, KV कैश को 93.3% कम करता है, और अधिकतम उत्पादन अनुमान की दर को 5.76 गुना बढ़ाता है।
DeepSeek-R1 DeepSeek-R1 एक मॉडल है जिसे बड़े पैमाने पर पुनर्निर्माण सीखने (RL) के माध्यम से प्रशिक्षित किया गया है, और प्रारंभिक चरण के रूप में सुरक्षित फाइन-ट्यूनिंग (SFT) का उपयोग नहीं किया गया है। इसका गणित, कोडिंग और तर्क संबंधी कार्यों में प्रदर्शन OpenAI-o1 के समान है।
प्रासंगिक दस्तावेज
Anthropic ने Claude को निर्बाध उपकरण एकीकरण और उन्नत अनुसंधान के साथ बढ़ाया Anthropic ने Claude के लिए नए 'Integrations' का अनावरण किया है, जो AI को आपके पसंदीदा कार्य उपकरणों से सीधे जोड़ने में सक्षम बनाता है। कंपनी ने गहन अंतर्दृष्टि के लिए एक उन्नत 'Advanced Research' सुवि
AI-चालित UX डिज़ाइन: उपयोगकर्ता अनुभव का भविष्य गढ़ना उपयोगकर्ता अनुभव (UX) डिज़ाइन का क्षेत्र कृत्रिम बुद्धिमत्ता (AI) के तेजी से विकास के कारण एक गहन परिवर्तन का अनुभव कर रहा है। यह अब कोई दूर का सपना नहीं है, AI अब UX डिज़ाइन प्रक्रिया का एक आधारशिला
AI-चालित शिक्षा: ग्रेडों में सीखने में क्रांति लाना कृत्रिम बुद्धिमत्ता (AI) शिक्षा को नवीन उपकरणों के माध्यम से बदल रही है जो छात्रों को आकर्षित करते हैं और सीखने को अनुकूलित करते हैं। यह लेख जांचता है कि शिक्षक AI का उपयोग कैसे कर सकते हैं, जिसमें Mi
AI बनाम मानव लेखक: क्या मशीनें रचनात्मकता को मात दे सकती हैं? सामग्री-प्रधान युग में, यह बहस तेज हो रही है कि क्या कृत्रिम बुद्धिमत्ता (AI) मानव लेखकों को पीछे छोड़ सकती है। AI गति और लागत बचत प्रदान करता है, लेकिन मानव अद्वितीय रचनात्मकता, सहानुभूति और अंतर्दृष
AI Idols मनोरंजन को वर्चुअल प्रदर्शनों के साथ क्रांतिकारी बनाते हैं मनोरंजन का परिदृश्य AI idols, कृत्रिम बुद्धिमत्ता द्वारा संचालित वर्चुअल प्रदर्शनकर्ताओं के उदय के साथ बदल रहा है। ये डिजिटल सितारे नवाचारी संगीत, आकर्षक दृश्यों, और इंटरैक्टिव अनुभवों के माध्यम से वै
मॉडल तुलना
तुलना शुरू करें
शीर्ष पर वापस
OR