Kai Dong - 최고의 AI 리더 및 혁신가 | 프로필, 주요 이정표 및 프로젝트 - xix.ai
옵션

품질 AI 도구를 발견하십시오

업무 효율성을 향상시키는 데 도움이되는 세계 최고의 인공 지능 도구를 모으십시오.

AL 도구 검색…
AI 유명인
Kai Dong
Kai Dong

Kai Dong

연구원, DeepSeek
출생 연도  알 수 없음
국적  Chinese

중요한 이정표

2023 DeepSeek 가입

AI 훈련 프레임워크 작업 시작

2024 DeepSeek-MoE 출시

최초의 오픈소스 MoE 모델에 기여함

2025 DeepSeek-V3 훈련

14.8T 토큰으로 V3를 효율적으로 훈련시킴

AI 제품

DeepSeek-V3 surpasse les autres modèles open-source tels que Qwen2.5-72B et Llama-3.1-405B dans plusieurs évaluations et égale les performances des modèles propriétaires de premier plan comme GPT-4 et Claude-3.5-Sonnet.

Le modèle d'inférence Spark X1, publié par iFlytek, sur la base de performances de pointe dans les tâches mathématiques nationales, évalue ses performances dans des tâches générales telles que l'inférence, la génération de texte et la compréhension du langage par rapport à la série o d'OpenAI et DeepSeek R1.

La dernière version de Deepseek R1.

DeepSeek-V2 est un modèle de langue robuste de type Mixture-of-Experts (MoE), caractérisé par un coût d'entraînement économique et une inférence efficace. Il comprend un total de 236 milliards de paramètres, dont 21 milliards sont activés pour chaque jeton. Comparé à DeepSeek 67B, DeepSeek-V2 offre des performances supérieures tout en économisant 42,5 % des coûts d'entraînement, réduisant la mémoire de cache KV de 93,3 % et augmentant la capacité maximale de génération jusqu'à 5,76 fois.

Le modèle d'inférence Spark X1 publié par iFlytek, sur la base de tâches mathématiques nationales de premier plan, compare les performances de tâches générales telles que l'inférence, la génération de texte et la compréhension du langage avec OpenAI o1 et DeepSeek R1.

DeepSeek-V2.5 est une version mise à jour combinant DeepSeek-V2-Chat et DeepSeek-Coder-V2-Instruct. Le nouveau modèle intègre les capacités générales et de codage des deux versions précédentes.

DeepSeek-V3 surpasse d'autres modèles open source tels que Qwen2.5-72B et Llama-3.1-405B dans plusieurs évaluations et égale les performances des meilleurs modèles propriétaires comme GPT-4 et Claude-3.5-Sonnet.

DeepSeek-V2, un modèle de langue Mixture-of-Experts (MoE) puissant présenté par DeepSeek, DeepSeek-V2-Lite est une version allégée de celui-ci.

DeepSeek-V2 est un modèle linguistique robuste du type Mixture-of-Experts (MoE), caractérisé par un entraînement économique et une inférence efficace. Il comporte 236 milliards de paramètres au total, dont 21 milliards sont activés pour chaque jeton. Comparé à DeepSeek 67B, DeepSeek-V2 offre des performances supérieures tout en économisant 42.5 % des coûts d'entraînement, réduisant la mémoire cache KV de 93.3 % et augmentant le débit maximal de génération de 5.76 fois.

DeepSeek-R1 est un modèle entraîné via un apprentissage par renforcement (RL) à grande échelle sans utiliser de mise au point supervisée (SFT) comme étape initiale. Ses performances dans les tâches mathématiques, de codage et de raisonnement sont comparables à celles d'OpenAI-o1.

DeepSeek-V2.5 est une version mise à jour combinant DeepSeek-V2-Chat et DeepSeek-Coder-V2-Instruct. Le nouveau modèle intègre les capacités générales et de codage des deux versions précédentes.

DeepSeek-V3 a obtenu des scores d'évaluation plus élevés que d'autres modèles open source tels que Qwen2.5-72B et Llama-3.1-405B, et son rendement équivaut à celui des meilleurs modèles propriétaires mondiaux comme GPT-4o et Claude-3.5-Sonnet.

DeepSeek-R1 a largement utilisé les techniques d'apprentissage par renforcement au cours de la phase de post-entraînement, améliorant de manière significative les capacités de raisonnement du modèle avec seulement une quantité minimale de données annotées. Dans les tâches impliquant les mathématiques, le codage et l'inférence du langage naturel, ses performances sont comparables à celles de la version officielle de o1 d'OpenAI.

DeepSeek-V2, un modèle de langue Mixture-of-Experts (MoE) puissant présenté par DeepSeek, DeepSeek-V2-Lite est une version allégée de celui-ci.

개인 프로필

DeepSeek의 모델 훈련 프레임워크에 기여하여 비용 효율적인 대규모 AI 개발을 가능하게 함.

위로 돌아갑니다
OR