Qihao Zhu - Principales líderes e innovadores de IA | Perfiles, hitos y proyectos - xix.ai
opción

Descubre herramientas de IA de calidad

Reúna las principales herramientas de inteligencia artificial del mundo para ayudar a mejorar la eficiencia laboral

Buscar herramientas de Al…
Hogar
Celebridad de IA
Qihao Zhu
Qihao Zhu

Qihao Zhu

Investigador, DeepSeek
Año de nacimiento  desconocido
Nacionalidad  Chinese

Hito importante

2023 Unió DeepSeek

Comenzó la investigación en métodos de entrenamiento de IA eficientes

Desarrollo de DeepSeek-Coder 2023

Ayudé a desarrollar DeepSeek-Coder, un LLM de código líder

Implementación de la Arquitectura MoE 2024

Contribuyó a la Mezcla de Expertos en DeepSeek-V2

Producto de IA

DeepSeek-V3 在多項評估中超越 Qwen2.5-72B 與 Llama-3.1-405B 等開源模型,性能媲美 GPT-4 與 Claude-3.5-Sonnet 等頂尖閉源模型。

科大訊飛發布的推理模型Spark X1,在國內領先的數學任務基礎上,針對推理、文本生成和語言理解等通用任務的性能,對標OpenAI o系列和DeepSeek R1。

Deepseek R1 的最新版本。

DeepSeek-V2 是一種強大的混合專家模型(Mixture-of-Experts),其特點是訓練成本經濟且推理高效。它總共有2360億個參數,每次生成每個標記時激活其中的210億個參數。與DeepSeek 67B相比,DeepSeek-V2 性能更強,同時節省了42.5%的訓練成本,將KV緩存減少93.3%,並將最大生成吞吐量提高到5.76倍。

科大訊飛發佈的推理模型Spark X1,在國內數學任務領先的基礎上,針對推理、文本生成和語言理解等通用任務的表現,對標OpenAI的o1和DeepSeek的R1。

DeepSeek-V2.5 是一個升級版本,結合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了前兩個版本的通用和編碼能力。

在多項評估中,DeepSeek-V3的表現優於其他開源模型,例如Qwen2.5-72B和Llama-3.1-405B,並且其性能與頂級閉源模型,如GPT-4和Claude-3.5-Sonnet相當。

DeepSeek-V2 是由 DeepSeek 提出的强大混合專家模型(MoE),DeepSeek-V2-Lite 是它的輕量版。

DeepSeek-V2 是一種強大的混合專家模型(MoE),以其經濟的訓練和高效的推理能力著稱。它總共有2360億個參數,每次生成每個標記時激活其中的210億個參數。與DeepSeek 67B相比,DeepSeek-V2 性能更強,同時節省了42.5%的訓練成本,將KV緩存減少93.3%,並將最大生成吞吐量提高到5.76倍。

DeepSeek-R1 是一款透過大規模強化學習(RL)訓練的模型,初始步驟未使用監督微調(SFT)。它在數學、編碼和推理任務中的表現與 OpenAI-o1 相當。

DeepSeek-V2.5 是一個升級版本,結合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了兩個前一版本的通用和編碼能力。

DeepSeek-V3 的評估分數高於其他開源模型,例如 Qwen2.5-72B 和 Llama-3.1-405B,其表現與世界上頂尖的閉源模型如 GPT-4o 和 Claude-3.5-Sonnet 不相上下。

DeepSeek-R1 在後期訓練階段廣泛使用了強化學習技術,隻需少量注釋數據就能顯著增強模型的推理能力。在涉及數學、編碼和自然語言推理的任務中,它的表現與 OpenAI 官方發布的 o1 不相上下。

深尋-V2是由深尋提出的強大的多專家混合(MoE)語言模型,深尋-V2-輕量版是其精簡版本。

Perfil personal

Colaborador clave en los modelos de código de DeepSeek, especializado en optimización de modelos y eficiencia de entrenamiento

Volver arriba
OR