Qihao Zhu - Top AI Leaders & Innovators | Profiles, Milestones & Projects - xix.ai
option

Discover quality AI tools

Bring together the world’s leading artificial intelligence tools to help improve work efficiency

Search for Al tools…
Home
Ai celebrity
Qihao Zhu
Qihao Zhu

Qihao Zhu

Researcher, DeepSeek
Year of Birth  unknown
Nationality  Chinese

Important milestone

2023 Joined DeepSeek

Started research on efficient AI training methods

2023 DeepSeek-Coder Development

Helped develop DeepSeek-Coder, a leading code LLM

2024 MoE Architecture Implementation

Contributed to Mixture-of-Experts in DeepSeek-V2

AI product

DeepSeek-V3 在多項評估中超越 Qwen2.5-72B 與 Llama-3.1-405B 等開源模型,性能媲美 GPT-4 與 Claude-3.5-Sonnet 等頂尖閉源模型。

科大訊飛發布的推理模型Spark X1,在國內領先的數學任務基礎上,針對推理、文本生成和語言理解等通用任務的性能,對標OpenAI o系列和DeepSeek R1。

Deepseek R1 的最新版本。

DeepSeek-V2 是一種強大的混合專家模型(Mixture-of-Experts),其特點是訓練成本經濟且推理高效。它總共有2360億個參數,每次生成每個標記時激活其中的210億個參數。與DeepSeek 67B相比,DeepSeek-V2 性能更強,同時節省了42.5%的訓練成本,將KV緩存減少93.3%,並將最大生成吞吐量提高到5.76倍。

科大訊飛發佈的推理模型Spark X1,在國內數學任務領先的基礎上,針對推理、文本生成和語言理解等通用任務的表現,對標OpenAI的o1和DeepSeek的R1。

DeepSeek-V2.5 是一個升級版本,結合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了前兩個版本的通用和編碼能力。

在多項評估中,DeepSeek-V3的表現優於其他開源模型,例如Qwen2.5-72B和Llama-3.1-405B,並且其性能與頂級閉源模型,如GPT-4和Claude-3.5-Sonnet相當。

DeepSeek-V2 是由 DeepSeek 提出的强大混合專家模型(MoE),DeepSeek-V2-Lite 是它的輕量版。

DeepSeek-V2 是一種強大的混合專家模型(MoE),以其經濟的訓練和高效的推理能力著稱。它總共有2360億個參數,每次生成每個標記時激活其中的210億個參數。與DeepSeek 67B相比,DeepSeek-V2 性能更強,同時節省了42.5%的訓練成本,將KV緩存減少93.3%,並將最大生成吞吐量提高到5.76倍。

DeepSeek-R1 是一款透過大規模強化學習(RL)訓練的模型,初始步驟未使用監督微調(SFT)。它在數學、編碼和推理任務中的表現與 OpenAI-o1 相當。

DeepSeek-V2.5 是一個升級版本,結合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了兩個前一版本的通用和編碼能力。

DeepSeek-V3 的評估分數高於其他開源模型,例如 Qwen2.5-72B 和 Llama-3.1-405B,其表現與世界上頂尖的閉源模型如 GPT-4o 和 Claude-3.5-Sonnet 不相上下。

DeepSeek-R1 在後期訓練階段廣泛使用了強化學習技術,隻需少量注釋數據就能顯著增強模型的推理能力。在涉及數學、編碼和自然語言推理的任務中,它的表現與 OpenAI 官方發布的 o1 不相上下。

深尋-V2是由深尋提出的強大的多專家混合(MoE)語言模型,深尋-V2-輕量版是其精簡版本。

Personal Profile

Key contributor to DeepSeek’s code models, specializing in model optimization and training efficiency

Back to Top
OR