Option
Heim
Liste der Al -Modelle
DeepSeek-V2.5
Modellparametermenge
236B
Modellparametermenge
Angehörige Organisation
DeepSeek
Angehörige Organisation
Open Source
Lizenztyp
Freigabezeit
5. September 2024
Freigabezeit
Modelleinführung
DeepSeek-V2.5 ist eine aktualisierte Version, die DeepSeek-V2-Chat und DeepSeek-Coder-V2-Instruct kombiniert. Das neue Modell integriert die allgemeinen und Codierungsfähigkeiten der beiden vorherigen Versionen.
Nach links und rechts swipen, um mehr anzuzeigen
Sprachverständnisfähigkeit Sprachverständnisfähigkeit
Sprachverständnisfähigkeit
Fehleinschätzt häufig semantische Fehleinschätzungen, was zu offensichtlichen logischen Trennungen in Antworten führt.
5.2
Wissensabdeckung Wissensabdeckung
Wissensabdeckung
Besitzt Kernwissen über Mainstream-Disziplinen, hat jedoch nur eine begrenzte Abdeckung der modernen interdisziplinären Bereiche.
7.6
Argumentationsfähigkeit Argumentationsfähigkeit
Argumentationsfähigkeit
Es ist nicht möglich, kohärente Argumentationsketten aufrechtzuerhalten und häufig invertierte Kausalität oder Fehlkalkulationen zu verursachen.
4.4
Verwandter Modell
DeepSeek-V2-Chat-0628 DeepSeek-V2 ist ein starkes Mixture-of-Experts (MoE)-Sprachmodell, das durch kostengünstiges Training und effizientes Inferenz gekennzeichnet ist. Es besteht aus insgesamt 236 Billionen Parametern, wovon für jeden Token 21 Milliarden aktiviert sind. Im Vergleich zum DeepSeek 67B erreicht DeepSeek-V2 stärkere Leistungsmerkmale, spart dabei 42,5 % der Trainingskosten, reduziert das KV-Cache um 93,3 % und steigert die maximale Generierungsdurchsatz bis zu 5,76-mal.
DeepSeek-V3-0324 DeepSeek-V3 übertrifft in mehreren Evaluierungen andere Open-Source-Modelle wie Qwen2.5-72B und Llama-3.1-405B und entspricht dem Leistungsniveau oberhalb geschlossener Modelle wie GPT-4 und Claude-3.5-Sonnet.
DeepSeek-V2-Lite-Chat DeepSeek-V2, ein starkes Mixture-of-Experts (MoE) Sprachmodell, das von DeepSeek vorgestellt wurde, das DeepSeek-V2-Lite ist eine leichte Version davon.
DeepSeek-V2-Chat DeepSeek-V2 ist ein starkes Mixture-of-Experts (MoE)-Sprachmodell, das durch kostengünstiges Training und effizientes Inferenz gekennzeichnet ist. Es besteht aus insgesamt 236 Billionen Parametern, wovon für jeden Token 21 Milliarden aktiviert sind. Im Vergleich zum DeepSeek 67B erreicht DeepSeek-V2 stärkere Leistungen und spart dabei 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und steigert die maximale Generierungsdurchsatz bis zu 5,76-mal.
DeepSeek-R1 DeepSeek-R1 ist ein Modell, das durch große Skalen von verstärktem Lernen (RL) trainiert wurde und keine Überwachte Feinabstimmung (SFT) als ersten Schritt verwendet hat. Seine Leistung in Mathematik, Codierung und Deduktionsaufgaben ist mit der von OpenAI-o1 vergleichbar.
Relevante Dokumente
Letzte Gelegenheit, Ihre Marke mit einer TechCrunch Sessions: AI Side Event aufzuwerten Heute ist Ihre letzte Chance, Ihre Marke im Zentrum der AI-Diskussionen während der TechCrunch Sessions: AI Week zu präsentieren, da die Bewerbungen für die Ausrichtung einer Side Event heute Abend um
TechCrunch Sessions: AI mit einem Gast teilnehmen und bis zum 4. Mai 50% auf deren Ticket sparen Neugierig auf die Zukunft von AI? Bringen Sie einen Freund mit und tauchen Sie gemeinsam ein!Bis zum 4. Mai können Sie Ihr Early Bird-Ticket für die TechCrunch Sessions: AI ergattern, bis zu 210 $ spa
Anthropic verbessert Claude mit nahtlosen Werkzeugintegrationen und fortschrittlicher Forschung Anthropic hat neue „Integrationen“ für Claude vorgestellt, die es der KI ermöglichen, direkt mit Ihren bevorzugten Arbeitswerkzeugen verbunden zu werden. Das Unternehmen hat auch eine verbesserte „For
KI-gestütztes UX-Design: Die Zukunft der Nutzererfahrung gestalten Der Bereich des User Experience (UX) Designs erlebt eine tiefgreifende Transformation, angetrieben durch die rasante Entwicklung Künstlicher Intelligenz (KI). Weit entfernt von einer fernen Vision, is
KI-gestützte Bildung: Revolutionierung des Lernens über alle Klassenstufen hinweg Künstliche Intelligenz (KI) verändert die Bildung, indem sie innovative Werkzeuge bereitstellt, um Schüler einzubinden und das Lernen individuell anzupassen. Dieser Artikel untersucht, wie Pädagogen K
Modellvergleich
Starten Sie den Vergleich
Zurück nach oben
OR