Kai Dong - Leaders et innovateurs IA | Profils, étapes clés & projets - xix.ai
option

Découvrez des outils AI de qualité

Rassemblez les principaux outils d'intelligence artificielle du monde pour aider à améliorer l'efficacité du travail

Rechercher des outils AL…
Maison
Célébrité de l’IA
Kai Dong
Kai Dong

Kai Dong

Chercheur, DeepSeek
Année de naissance  inconnu
Nationalité  Chinese

Étape importante

2023 Rejoint DeepSeek

A commencé à travailler sur des cadres d'entraînement à l'IA

Sortie de DeepSeek-MoE 2024

A contribué au premier modèle MoE open-source

Formation DeepSeek-V3 2025

A aidé à former V3 avec 14,8T de jetons efficacement

Produit IA

DeepSeek-V3 surpasse les autres modèles open-source tels que Qwen2.5-72B et Llama-3.1-405B dans plusieurs évaluations et égale les performances des modèles propriétaires de premier plan comme GPT-4 et Claude-3.5-Sonnet.

Le modèle d'inférence Spark X1, publié par iFlytek, sur la base de performances de pointe dans les tâches mathématiques nationales, évalue ses performances dans des tâches générales telles que l'inférence, la génération de texte et la compréhension du langage par rapport à la série o d'OpenAI et DeepSeek R1.

La dernière version de Deepseek R1.

DeepSeek-V2 est un modèle de langue robuste de type Mixture-of-Experts (MoE), caractérisé par un coût d'entraînement économique et une inférence efficace. Il comprend un total de 236 milliards de paramètres, dont 21 milliards sont activés pour chaque jeton. Comparé à DeepSeek 67B, DeepSeek-V2 offre des performances supérieures tout en économisant 42,5 % des coûts d'entraînement, réduisant la mémoire de cache KV de 93,3 % et augmentant la capacité maximale de génération jusqu'à 5,76 fois.

Le modèle d'inférence Spark X1 publié par iFlytek, sur la base de tâches mathématiques nationales de premier plan, compare les performances de tâches générales telles que l'inférence, la génération de texte et la compréhension du langage avec OpenAI o1 et DeepSeek R1.

DeepSeek-V2.5 est une version mise à jour combinant DeepSeek-V2-Chat et DeepSeek-Coder-V2-Instruct. Le nouveau modèle intègre les capacités générales et de codage des deux versions précédentes.

DeepSeek-V3 surpasse d'autres modèles open source tels que Qwen2.5-72B et Llama-3.1-405B dans plusieurs évaluations et égale les performances des meilleurs modèles propriétaires comme GPT-4 et Claude-3.5-Sonnet.

DeepSeek-V2, un modèle de langue Mixture-of-Experts (MoE) puissant présenté par DeepSeek, DeepSeek-V2-Lite est une version allégée de celui-ci.

DeepSeek-V2 est un modèle linguistique robuste du type Mixture-of-Experts (MoE), caractérisé par un entraînement économique et une inférence efficace. Il comporte 236 milliards de paramètres au total, dont 21 milliards sont activés pour chaque jeton. Comparé à DeepSeek 67B, DeepSeek-V2 offre des performances supérieures tout en économisant 42.5 % des coûts d'entraînement, réduisant la mémoire cache KV de 93.3 % et augmentant le débit maximal de génération de 5.76 fois.

DeepSeek-R1 est un modèle entraîné via un apprentissage par renforcement (RL) à grande échelle sans utiliser de mise au point supervisée (SFT) comme étape initiale. Ses performances dans les tâches mathématiques, de codage et de raisonnement sont comparables à celles d'OpenAI-o1.

DeepSeek-V2.5 est une version mise à jour combinant DeepSeek-V2-Chat et DeepSeek-Coder-V2-Instruct. Le nouveau modèle intègre les capacités générales et de codage des deux versions précédentes.

DeepSeek-V3 a obtenu des scores d'évaluation plus élevés que d'autres modèles open source tels que Qwen2.5-72B et Llama-3.1-405B, et son rendement équivaut à celui des meilleurs modèles propriétaires mondiaux comme GPT-4o et Claude-3.5-Sonnet.

DeepSeek-R1 a largement utilisé les techniques d'apprentissage par renforcement au cours de la phase de post-entraînement, améliorant de manière significative les capacités de raisonnement du modèle avec seulement une quantité minimale de données annotées. Dans les tâches impliquant les mathématiques, le codage et l'inférence du langage naturel, ses performances sont comparables à celles de la version officielle de o1 d'OpenAI.

DeepSeek-V2, un modèle de langue Mixture-of-Experts (MoE) puissant présenté par DeepSeek, DeepSeek-V2-Lite est une version allégée de celui-ci.

Profil personnel

A contribué aux cadres d'entraînement de modèles de DeepSeek, permettant un développement d'IA à grande échelle économique.

Retour en haut
OR