Qihao Zhu - Top-KI-Führungskräfte & Innovatoren | Profile, Meilensteine & Projekte - xix.ai
Option

Entdecken Sie qualitativ hochwertige KI -Werkzeuge

Bringen Sie die weltweit führenden Tools für künstliche Intelligenz zusammen, um die Arbeitseffizienz zu verbessern

Suche nach Al -Tools…
Heim
KI-Prominente
Qihao Zhu
Qihao Zhu

Qihao Zhu

Forscher, DeepSeek
Geburtsjahr  unbekannt
Nationalität  Chinese

Wichtiger Meilenstein

2023 DeepSeek beigetreten

Forschung zu effizienten KI-Trainingsmethoden begonnen

2023 DeepSeek-Coder Entwicklung

Habe bei der Entwicklung von DeepSeek-Coder geholfen, einem führenden Code-LLM

2024 MoE-Architektur-Implementierung

Beitrag zur Mixture-of-Experts in DeepSeek-V2

KI-Produkt

DeepSeek-V3 übertrifft andere Open-Source-Modelle wie Qwen2.5-72B und Llama-3.1-405B in mehreren Bewertungen und erreicht die Leistung von erstklassigen Closed-Source-Modellen wie GPT-4 und Claude-3.5-Sonnet.

Das von iFlytek veröffentlichte Inferenzmodell Spark X1 orientiert sich bei führenden inländischen mathematischen Aufgaben an der Leistung von allgemeinen Aufgaben wie Inferenz, Textgenerierung und Sprachverständnis im Vergleich zu OpenAI o-Serie und DeepSeek R1.

Die neueste Version von Deepseek R1.

DeepSeek-V2 ist ein starkes Mixture-of-Experts (MoE)-Sprachmodell, das durch kostengünstiges Training und effizientes Inferenz gekennzeichnet ist. Es besteht aus insgesamt 236 Billionen Parametern, wovon für jeden Token 21 Milliarden aktiviert sind. Im Vergleich zum DeepSeek 67B erreicht DeepSeek-V2 stärkere Leistungsmerkmale, spart dabei 42,5 % der Trainingskosten, reduziert das KV-Cache um 93,3 % und steigert die maximale Generierungsdurchsatz bis zu 5,76-mal.

Der durch iFlytek veröffentlichte Inferenzmodell Spark X1 führt bei nationalen mathematischen Aufgaben und vergleicht die Leistung allgemeiner Aufgaben wie Inferenz, Textgenerierung und Sprachverständnis mit OpenAI o1 und DeepSeek R1.

DeepSeek-V2.5 ist eine aktualisierte Version, die DeepSeek-V2-Chat und DeepSeek-Coder-V2-Instruct kombiniert. Das neue Modell integriert die allgemeinen und Codierungsfähigkeiten der beiden vorherigen Versionen.

DeepSeek-V3 übertrifft in mehreren Evaluierungen andere Open-Source-Modelle wie Qwen2.5-72B und Llama-3.1-405B und entspricht dem Leistungsniveau oberhalb geschlossener Modelle wie GPT-4 und Claude-3.5-Sonnet.

DeepSeek-V2, ein starkes Mixture-of-Experts (MoE) Sprachmodell, das von DeepSeek vorgestellt wurde, das DeepSeek-V2-Lite ist eine leichte Version davon.

DeepSeek-V2 ist ein starkes Mixture-of-Experts (MoE)-Sprachmodell, das durch kostengünstiges Training und effizientes Inferenz gekennzeichnet ist. Es besteht aus insgesamt 236 Billionen Parametern, wovon für jeden Token 21 Milliarden aktiviert sind. Im Vergleich zum DeepSeek 67B erreicht DeepSeek-V2 stärkere Leistungen und spart dabei 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und steigert die maximale Generierungsdurchsatz bis zu 5,76-mal.

DeepSeek-R1 ist ein Modell, das durch große Skalen von verstärktem Lernen (RL) trainiert wurde und keine Überwachte Feinabstimmung (SFT) als ersten Schritt verwendet hat. Seine Leistung in Mathematik, Codierung und Deduktionsaufgaben ist mit der von OpenAI-o1 vergleichbar.

DeepSeek-V2.5 ist eine verbesserte Version, die DeepSeek-V2-Chat und DeepSeek-Coder-V2-Instruct kombiniert. Das neue Modell integriert die allgemeinen und Codierungsfähigkeiten der beiden vorherigen Versionen.

DeepSeek-V3 hat höhere Bewertungsergebnisse als andere Open-Source-Modelle wie Qwen2.5-72B und Llama-3.1-405B erreicht, und seine Leistung ist dem Niveau der weltweit führenden proprietären Modelle wie GPT-4o und Claude-3.5-Sonnet vergleichbar.

DeepSeek-R1 nutzte in der Nachtrainings-Phase ausgiebig Techniken des Reinforcement Learning und verbesserte so die Schlussfolgerungsfähigkeiten des Modells mit nur einer minimalen Menge an kommentierten Daten erheblich. Bei Aufgaben, die Mathematik, Codierung und natürlichsprachliche Inferenz beinhalten, ist seine Leistung gleichauf mit der offiziellen Version von OpenAIs o1.

DeepSeek-V2, ein starkes Mixture-of-Experts (MoE) Sprachmodell, das von DeepSeek vorgestellt wurde, das DeepSeek-V2-Lite ist eine leichtere Version davon.

Persönliches Profil

maßgeblicher Mitwirkender an den Code-Modellen von DeepSeek, spezialisiert auf Modelloptimierung und Trainingseffizienz

Zurück nach oben
OR