Kai Dong - 최고의 AI 리더 및 혁신가 | 프로필, 주요 이정표 및 프로젝트 - xix.ai
옵션

품질 AI 도구를 발견하십시오

업무 효율성을 향상시키는 데 도움이되는 세계 최고의 인공 지능 도구를 모으십시오.

AL 도구 검색…
AI 유명인
Kai Dong
Kai Dong

Kai Dong

연구원, DeepSeek
출생 연도  알 수 없음
국적  Chinese

중요한 이정표

2023 DeepSeek 가입

AI 훈련 프레임워크 작업 시작

2024 DeepSeek-MoE 출시

최초의 오픈소스 MoE 모델에 기여함

2025 DeepSeek-V3 훈련

14.8T 토큰으로 V3를 효율적으로 훈련시킴

AI 제품

DeepSeek-V3는 Qwen2.5-72B 및 Llama-3.1-405B와 같은 다른 오픈소스 모델을 여러 평가에서 능가하며 GPT-4 및 Claude-3.5-Sonnet과 같은 최상위 비공개 모델의 성능에 필적합니다.

iFlytek에서 출시한 추론 모델 Spark X1은 국내 선도적인 수학 과제를 기반으로 추론, 텍스트 생성, 언어 이해와 같은 일반 과제의 성능을 OpenAI o 시리즈 및 DeepSeek R1과 비교합니다.

Deepseek R1의 최신 버전.

DeepSeek-V2는 경제적인 훈련과 효율적인 추론이 특징인 강력한 혼합 전문가(Mixture-of-Experts) 언어 모델입니다. 총 2360억 개의 파라미터를 가지고 있으며, 각 토큰마다 210억 개의 파라미터가 활성화됩니다. DeepSeek 67B와 비교했을 때, DeepSeek-V2는 더 나은 성능을 제공하면서도 42.5%의 훈련 비용을 절감하고, KV 캐시를 93.3% 줄이며, 최대 생성 스루풋을 5.76배 증가시킵니다.

iFlytek에서 발표한 추론 모델 Spark X1은 국내 수학 과제에서 선도적인 위치를 차지하면서도, 추론, 텍스트 생성, 언어 이해 등의 일반적인 작업 성능을 OpenAI의 o1 및 DeepSeek의 R1과 비교합니다.

DeepSeek-V2.5는 DeepSeek-V2-Chat과 DeepSeek-Coder-V2-Instruct를 결합한 업그레이드된 버전입니다. 새 모델은 이전 두 버전의 일반적이고 코드 작성 능력을 통합합니다.

여러 평가에서 DeepSeek-V3은 Qwen2.5-72B 및 Llama-3.1-405B와 같은 다른 오픈소스 모델들을 능가했으며, GPT-4 및 Claude-3.5-Sonnet과 같은 최고급 폐쇄형 소스 모델의 성능에도 필적합니다.

DeepSeek가 발표한 강력한 Mixture-of-Experts(MoE) 언어 모델인 DeepSeek-V2의 경량 버전이 DeepSeek-V2-Lite입니다.

DeepSeek-V2는 경제적인 학습과 효율적인 추론을 특징으로 하는 강력한 Mixture-of-Experts(MoE) 언어 모델입니다. 총 2360억 개의 매개변수를 가지고 있으며 각 토큰마다 210억 개의 매개변수가 활성화됩니다. DeepSeek 67B와 비교했을 때, DeepSeek-V2는 더 나은 성능을 제공하면서도 42.5%의 학습 비용을 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 스루풋을 5.76배 증가시킵니다.

DeepSeek-R1 은 감독된 미세 조정(SFT) 없이 대규모 강화 학습(RL)으로 훈련된 모델입니다. 수학, 코딩 및 추론 작업에서 OpenAI-o1과 동등한 성능을 보입니다.

DeepSeek-V2.5는 DeepSeek-V2-Chat과 DeepSeek-Coder-V2-Instruct를 결합한 업데이트된 버전입니다. 새 모델은 두 개의 이전 버전의 일반적이고 코딩 능력을 통합합니다.

DeepSeek-V3은 Qwen2.5-72B 및 Llama-3.1-405B와 같은 다른 오픈소스 모델보다 높은 평가 점수를 달성했으며, 그 성능은 GPT-4o 및 Claude-3.5-Sonnet과 같은 세계 최고급 폐쇄형 소스 모델과 맞먹습니다.

DeepSeek-R1은 학습 후 단계에서 강화 학습 기법을 광범위하게 활용하여 최소한의 주석이 달린 데이터만으로 모델의 추론 능력을 크게 향상시켰습니다. 수학, 코딩, 자연어 추론과 관련된 작업에서 이 모델의 성능은 OpenAI의 공식 출시 버전인 o1과 동등한 수준입니다.

DeepSeek가 발표한 강력한 MoE(Mixture-of-Experts) 언어 모델인 DeepSeek-V2의 가벼운 버전이 DeepSeek-V2-Lite입니다.

개인 프로필

DeepSeek의 모델 훈련 프레임워크에 기여하여 비용 효율적인 대규모 AI 개발을 가능하게 함.

위로 돌아갑니다
OR