Zhenda Xie - Top AI Leaders & Innovators | Profiles, Milestones & Projects - xix.ai
option

Discover quality AI tools

Bring together the world’s leading artificial intelligence tools to help improve work efficiency

Search for Al tools…
Home
Ai celebrity
Zhenda Xie
Zhenda Xie

Zhenda Xie

Researcher, DeepSeek
Year of Birth  unknown
Nationality  Chinese

Important milestone

2023 Joined DeepSeek

Began AI model research at DeepSeek

2024 DeepSeek-V2 Development

Contributed to V2’s MoE architecture

2025 DeepSeek-R1 Optimization

Helped optimize R1 for reasoning tasks with reinforcement learning

AI product

DeepSeek-V3 supera a otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y iguala el rendimiento de modelos de código cerrado de primer nivel como GPT-4 y Claude-3.5-Sonnet.

El modelo de inferencia Spark X1 lanzado por iFlytek, sobre la base de liderar las tareas matemáticas nacionales, compara el rendimiento de tareas generales como inferencia, generación de texto y comprensión del lenguaje con la serie o de OpenAI y DeepSeek R1.

La última versión de Deepseek R1.

DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.

El modelo de inferencia Spark X1 lanzado por iFlytek, además de liderar tareas matematicas nacionales, evalua el rendimiento de tareas generales como inferencia, generacion de texto e inteligencia linguistica frente al OpenAI o1 y el DeepSeek R1.

DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.

DeepSeek-V3 supera a otros modelos open source como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y coincide con el rendimiento de los principales modelos cerrados como GPT-4 y Claude-3.5-Sonnet.

DeepSeek-V2, un modelo de lenguaje potente de Mixture-of-Experts (MoE) presentado por DeepSeek, el DeepSeek-V2-Lite es una versión ligera de él.

DeepSeek-V2 es un modelo de lenguaje Mixture-of-Experts (MoE) potente caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con un total de 236 mil millones de parámetros, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el caché KV en un 93,3% y aumenta el rendimiento máximo de generación hasta 5,76 veces.

DeepSeek-R1 es un modelo entrenado mediante aprendizaje por refuerzo a gran escala (RL) sin utilizar Afinamiento Supervisado (SFT) como paso inicial. Su rendimiento en tareas de matemáticas, codificación y razonamiento es comparable al de OpenAI-o1.

DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.

DeepSeek-V3 ha logrado puntajes de evaluación más altos que otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B, y su rendimiento está a la par con los principales modelos闭源 del mundo como GPT-4o y Claude-3.5-Sonnet.

DeepSeek-R1 utilizó ampliamente técnicas de aprendizaje por refuerzo durante la fase de post-entrenamiento, mejorando significativamente las capacidades de razonamiento del modelo con sólo una cantidad mínima de datos anotados. En tareas relacionadas con las matemáticas, la codificación y la inferencia del lenguaje natural, su rendimiento está a la par con la versión oficial de o1 de OpenAI.

DeepSeek-V2, un modelo fuerte de lenguaje Mixture-of-Experts (MoE) presentado por DeepSeek, el DeepSeek-V2-Lite es una versión ligera de él.

Personal Profile

Worked on DeepSeek’s innovative architectures, including Mixture-of-Experts and multi-head latent attention for efficient AI models.

Back to Top
OR