Zhenda Xie - 顶尖 AI 领袖与创新者 | 个人简介、重要里程碑与项目 - xix.ai
选项

发现高质量的人工智能工具

汇聚全球领先的人工智能 助力提升工作效率的工具

XIX.AI 的AI工具目录包含 26098 个AI工具487 个工具分类。今日已更新 14 个AI工具

Search for Al tools…
首页
AI 名人
Zhenda Xie
Zhenda Xie

Zhenda Xie

研究员,DeepSeek
出生年份  未知
国籍  Chinese

重要里程碑

2023 加入 DeepSeek

在 DeepSeek 开始 AI 模型研究

2024 DeepSeek-V2 开发

为 V2 的 MoE 架构做出贡献

2025 DeepSeek-R1 优化

协助使用强化学习优化 R1 的推理任务

人工智能产品

Deepseek V3系列模型的最新版本。

Deepseek V3 系列型号的最新实验版本。

Deepseek R1 的最新版本。

DeepSeek-V3 在多项评估中超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,性能匹敌 GPT-4 和 Claude-3.5-Sonnet 等顶级闭源模型。

科大讯飞发布的推理模型Spark X1,在国内领先的数学任务基础上,针对推理、文本生成和语言理解等通用任务的性能,对标OpenAI o系列和DeepSeek R1。

Deepseek R1 的最新版本。

DeepSeek-V2 是一种强大的混合专家模型(Mixture-of-Experts),其特点是训练成本经济且推理高效。它总共有2360亿个参数,每次生成每个标记时激活其中的210亿个参数。与DeepSeek 67B相比,DeepSeek-V2 性能更强,同时节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提高了5.76倍。

科大讯飞发布的推理模型Spark X1,在国内数学任务领先的基础上,针对推理、文本生成和语言理解等通用任务的表现,对标OpenAI的o1和DeepSeek的R1。

DeepSeek-V2.5 是一个升级版本,结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型集成了前两个版本的通用和编码能力。

在多项评估中,DeepSeek-V3的表现优于其他开源模型,如Qwen2.5-72B和Llama-3.1-405B,并且其性能与顶级闭源模型,如GPT-4和Claude-3.5-Sonnet相当。

DeepSeek-V2 是由 DeepSeek 提出的强大混合专家模型(MoE),DeepSeek-V2-Lite 是它的轻量版。

DeepSeek-V2 是一种强大的混合专家模型(MoE),以其经济的训练和高效的推理能力著称。它总共有2360亿个参数,每次生成每个标记时激活其中的210亿个参数。与DeepSeek 67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提高了5.76倍。

DeepSeek-R1 是一款通过大规模强化学习(RL)训练的模型,未使用监督微调(SFT)作为初始步骤。它在数学、编码和推理任务中的表现与 OpenAI-o1 相当。

DeepSeek-V2.5 是一个升级版本,结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型整合了两个前一版本的通用和编码能力。

DeepSeek-V3 的评估分数高于其他开源模型,例如 Qwen2.5-72B 和 Llama-3.1-405B,其性能与世界顶级闭源模型如 GPT-4o 和 Claude-3.5-Sonnet 相当。

DeepSeek-R1 在后期训练阶段广泛使用了强化学习技术,只需少量注释数据就能显著增强模型的推理能力。在涉及数学、编码和自然语言推理的任务中,它的表现与 OpenAI 官方发布的 o1 不相上下。

深寻-V2是由深寻提出的强大的多专家混合(MoE)语言模型,深寻-V2-轻量版是其精简版本。

个人简介

参与DeepSeek创新架构开发,包括专家混合模型和多头潜在注意力机制,以构建高效AI模型。

OR