Zhenda Xie - Principales líderes e innovadores de IA | Perfiles, hitos y proyectos - xix.ai
opción

Descubre herramientas de IA de calidad

Reúna las principales herramientas de inteligencia artificial del mundo para ayudar a mejorar la eficiencia laboral

Buscar herramientas de Al…
Hogar
Celebridad de IA
Zhenda Xie
Zhenda Xie

Zhenda Xie

Investigador, DeepSeek
Año de nacimiento  desconocido
Nacionalidad  Chinese

Hito importante

2023 Unido a DeepSeek

Comenzó la investigación de modelos de IA en DeepSeek

Desarrollo de DeepSeek-V2 2024

Contribuyó a la arquitectura MoE de V2

Optimización de DeepSeek-R1 2025

Ayudó a optimizar R1 para tareas de razonamiento con aprendizaje por refuerzo

Producto de IA

DeepSeek-V3 supera a otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y iguala el rendimiento de modelos de código cerrado de primer nivel como GPT-4 y Claude-3.5-Sonnet.

El modelo de inferencia Spark X1 lanzado por iFlytek, sobre la base de liderar las tareas matemáticas nacionales, compara el rendimiento de tareas generales como inferencia, generación de texto y comprensión del lenguaje con la serie o de OpenAI y DeepSeek R1.

La última versión de Deepseek R1.

DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.

El modelo de inferencia Spark X1 lanzado por iFlytek, además de liderar tareas matematicas nacionales, evalua el rendimiento de tareas generales como inferencia, generacion de texto e inteligencia linguistica frente al OpenAI o1 y el DeepSeek R1.

DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.

DeepSeek-V3 supera a otros modelos open source como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y coincide con el rendimiento de los principales modelos cerrados como GPT-4 y Claude-3.5-Sonnet.

DeepSeek-V2, un modelo de lenguaje potente de Mixture-of-Experts (MoE) presentado por DeepSeek, el DeepSeek-V2-Lite es una versión ligera de él.

DeepSeek-V2 es un modelo de lenguaje Mixture-of-Experts (MoE) potente caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con un total de 236 mil millones de parámetros, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el caché KV en un 93,3% y aumenta el rendimiento máximo de generación hasta 5,76 veces.

DeepSeek-R1 es un modelo entrenado mediante aprendizaje por refuerzo a gran escala (RL) sin utilizar Afinamiento Supervisado (SFT) como paso inicial. Su rendimiento en tareas de matemáticas, codificación y razonamiento es comparable al de OpenAI-o1.

DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.

DeepSeek-V3 ha logrado puntajes de evaluación más altos que otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B, y su rendimiento está a la par con los principales modelos闭源 del mundo como GPT-4o y Claude-3.5-Sonnet.

DeepSeek-R1 utilizó ampliamente técnicas de aprendizaje por refuerzo durante la fase de post-entrenamiento, mejorando significativamente las capacidades de razonamiento del modelo con sólo una cantidad mínima de datos anotados. En tareas relacionadas con las matemáticas, la codificación y la inferencia del lenguaje natural, su rendimiento está a la par con la versión oficial de o1 de OpenAI.

DeepSeek-V2, un modelo fuerte de lenguaje Mixture-of-Experts (MoE) presentado por DeepSeek, el DeepSeek-V2-Lite es una versión ligera de él.

Perfil personal

Trabajó en las arquitecturas innovadoras de DeepSeek, incluyendo Mixture-of-Experts y atención latente de múltiples cabezas para modelos de IA eficientes.

Volver arriba
OR