Qihao Zhu - 頂尖 AI 領袖與創新者|個人簡介、里程碑與專案 - xix.ai
選項

發現高質量的人工智能工具

將全球領先的人工智能工具聚集在一起,以幫助提高工作效率

搜索al工具…
首頁
AI 名人
Qihao Zhu
Qihao Zhu

Qihao Zhu

研究員,DeepSeek
出生年份  未知
國籍  Chinese

重要里程碑

2023 加入 DeepSeek

開始研究高效 AI 訓練方法

2023 DeepSeek-Coder 開發

協助開發 DeepSeek-Coder,一款領先的程式碼大語言模型

2024 MoE架構實現

參與DeepSeek-V2中的專家混合模型

AI 產品

DeepSeek-V3 在多項評估中超越 Qwen2.5-72B 與 Llama-3.1-405B 等開源模型,性能媲美 GPT-4 與 Claude-3.5-Sonnet 等頂尖閉源模型。

科大訊飛發布的推理模型Spark X1,在國內領先的數學任務基礎上,針對推理、文本生成和語言理解等通用任務的性能,對標OpenAI o系列和DeepSeek R1。

Deepseek R1 的最新版本。

DeepSeek-V2 是一種強大的混合專家模型(Mixture-of-Experts),其特點是訓練成本經濟且推理高效。它總共有2360億個參數,每次生成每個標記時激活其中的210億個參數。與DeepSeek 67B相比,DeepSeek-V2 性能更強,同時節省了42.5%的訓練成本,將KV緩存減少93.3%,並將最大生成吞吐量提高到5.76倍。

科大訊飛發佈的推理模型Spark X1,在國內數學任務領先的基礎上,針對推理、文本生成和語言理解等通用任務的表現,對標OpenAI的o1和DeepSeek的R1。

DeepSeek-V2.5 是一個升級版本,結合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了前兩個版本的通用和編碼能力。

在多項評估中,DeepSeek-V3的表現優於其他開源模型,例如Qwen2.5-72B和Llama-3.1-405B,並且其性能與頂級閉源模型,如GPT-4和Claude-3.5-Sonnet相當。

DeepSeek-V2 是由 DeepSeek 提出的强大混合專家模型(MoE),DeepSeek-V2-Lite 是它的輕量版。

DeepSeek-V2 是一種強大的混合專家模型(MoE),以其經濟的訓練和高效的推理能力著稱。它總共有2360億個參數,每次生成每個標記時激活其中的210億個參數。與DeepSeek 67B相比,DeepSeek-V2 性能更強,同時節省了42.5%的訓練成本,將KV緩存減少93.3%,並將最大生成吞吐量提高到5.76倍。

DeepSeek-R1 是一款透過大規模強化學習(RL)訓練的模型,初始步驟未使用監督微調(SFT)。它在數學、編碼和推理任務中的表現與 OpenAI-o1 相當。

DeepSeek-V2.5 是一個升級版本,結合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了兩個前一版本的通用和編碼能力。

DeepSeek-V3 的評估分數高於其他開源模型,例如 Qwen2.5-72B 和 Llama-3.1-405B,其表現與世界上頂尖的閉源模型如 GPT-4o 和 Claude-3.5-Sonnet 不相上下。

DeepSeek-R1 在後期訓練階段廣泛使用了強化學習技術,隻需少量注釋數據就能顯著增強模型的推理能力。在涉及數學、編碼和自然語言推理的任務中,它的表現與 OpenAI 官方發布的 o1 不相上下。

深尋-V2是由深尋提出的強大的多專家混合(MoE)語言模型,深尋-V2-輕量版是其精簡版本。

個人簡介

DeepSeek程式碼模型的主要貢獻者,專注於模型優化和訓練效率

回到頂部
OR