Descubre herramientas de IA de calidad

Reunir la inteligencia artificial líder del mundo herramientas para ayudar a mejorar la eficiencia laboral

El directorio de herramientas de IA de XIX.AI contiene 26156 herramientas de IA y 487 categorías de herramientas. Hoy se han actualizado 24 herramientas de IA

Buscar herramientas de Al…

Cancelar

Hogar

Celebridad de IA

Qihao Zhu

Investigador, DeepSeek

Año de nacimiento desconocido

Nacionalidad Chinese

Hito importante

2023 Unió DeepSeek

Comenzó la investigación en métodos de entrenamiento de IA eficientes

Desarrollo de DeepSeek-Coder 2023

Ayudé a desarrollar DeepSeek-Coder, un LLM de código líder

Implementación de la Arquitectura MoE 2024

Contribuyó a la Mezcla de Expertos en DeepSeek-V2

Producto de IA

DeepSeek-V3.2

La última versión de los modelos de la serie Deepseek V3.

DeepSeek-V3.2-Exp

La última versión experimental de los modelos de la serie Deepseek V3.

DeepSeek-R1-0528

La última versión de Deepseek R1.

DeepSeek-V3-0324

DeepSeek-V3 supera a otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y iguala el rendimiento de modelos de código cerrado de primer nivel como GPT-4 y Claude-3.5-Sonnet.

iFlytek-Spark-X1-0720

El modelo de inferencia Spark X1 lanzado por iFlytek, sobre la base de liderar las tareas matemáticas nacionales, compara el rendimiento de tareas generales como inferencia, generación de texto y comprensión del lenguaje con la serie o de OpenAI y DeepSeek R1.

DeepSeek-R1-0528

La última versión de Deepseek R1.

DeepSeek-V2-Chat-0628

DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.

Spark-X1

El modelo de inferencia Spark X1 lanzado por iFlytek, además de liderar tareas matematicas nacionales, evalua el rendimiento de tareas generales como inferencia, generacion de texto e inteligencia linguistica frente al OpenAI o1 y el DeepSeek R1.

DeepSeek-V2.5

DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.

DeepSeek-V3-0324

DeepSeek-V3 supera a otros modelos open source como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y coincide con el rendimiento de los principales modelos cerrados como GPT-4 y Claude-3.5-Sonnet.

DeepSeek-V2-Lite-Chat

DeepSeek-V2, un modelo de lenguaje potente de Mixture-of-Experts (MoE) presentado por DeepSeek, el DeepSeek-V2-Lite es una versión ligera de él.

DeepSeek-V2-Chat

DeepSeek-V2 es un modelo de lenguaje Mixture-of-Experts (MoE) potente caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con un total de 236 mil millones de parámetros, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el caché KV en un 93,3% y aumenta el rendimiento máximo de generación hasta 5,76 veces.

DeepSeek-R1

DeepSeek-R1 es un modelo entrenado mediante aprendizaje por refuerzo a gran escala (RL) sin utilizar Afinamiento Supervisado (SFT) como paso inicial. Su rendimiento en tareas de matemáticas, codificación y razonamiento es comparable al de OpenAI-o1.

DeepSeek-V2.5

DeepSeek-V3

DeepSeek-V3 ha logrado puntajes de evaluación más altos que otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B, y su rendimiento está a la par con los principales modelos闭源 del mundo como GPT-4o y Claude-3.5-Sonnet.

DeepSeek-R1

DeepSeek-R1 utilizó ampliamente técnicas de aprendizaje por refuerzo durante la fase de post-entrenamiento, mejorando significativamente las capacidades de razonamiento del modelo con sólo una cantidad mínima de datos anotados. En tareas relacionadas con las matemáticas, la codificación y la inferencia del lenguaje natural, su rendimiento está a la par con la versión oficial de o1 de OpenAI.

DeepSeek-V2-Lite-Chat

DeepSeek-V2, un modelo fuerte de lenguaje Mixture-of-Experts (MoE) presentado por DeepSeek, el DeepSeek-V2-Lite es una versión ligera de él.