Qihao Zhu - 최고의 AI 리더 및 혁신가 | 프로필, 주요 이정표 및 프로젝트 - xix.ai
옵션

품질 AI 도구를 발견하십시오

세계 최고의 인공지능 업무 효율 향상을 돕는 도구 를 모으다

XIX.AI의 AI 도구 디렉토리에는 AI 도구 26151개487 도구 카테고리가 포함되어 있습니다. 오늘 19개의 AI 도구가 업데이트되었습니다

AL 도구 검색…
AI 유명인
Qihao Zhu
Qihao Zhu

Qihao Zhu

연구원, DeepSeek
출생 연도  알 수 없음
국적  Chinese

중요한 이정표

2023 DeepSeek 가입

효율적인 AI 훈련 방법 연구 시작

2023 DeepSeek-Coder 개발

DeepSeek-Coder 개발에 참여, 선도적인 코드 LLM

2024 MoE 아키텍처 구현

DeepSeek-V2의 Mixture-of-Experts에 기여함

AI 제품

Deepseek V3 시리즈 모델의 최신 버전.

최신 실험용 버전의 Deepseek V3 시리즈 모델입니다.

최신 버전의 Deepseek R1.

DeepSeek-V3는 Qwen2.5-72B 및 Llama-3.1-405B와 같은 다른 오픈소스 모델을 여러 평가에서 능가하며 GPT-4 및 Claude-3.5-Sonnet과 같은 최상위 비공개 모델의 성능에 필적합니다.

iFlytek에서 출시한 추론 모델 Spark X1은 국내 선도적인 수학 과제를 기반으로 추론, 텍스트 생성, 언어 이해와 같은 일반 과제의 성능을 OpenAI o 시리즈 및 DeepSeek R1과 비교합니다.

Deepseek R1의 최신 버전.

DeepSeek-V2는 경제적인 훈련과 효율적인 추론이 특징인 강력한 혼합 전문가(Mixture-of-Experts) 언어 모델입니다. 총 2360억 개의 파라미터를 가지고 있으며, 각 토큰마다 210억 개의 파라미터가 활성화됩니다. DeepSeek 67B와 비교했을 때, DeepSeek-V2는 더 나은 성능을 제공하면서도 42.5%의 훈련 비용을 절감하고, KV 캐시를 93.3% 줄이며, 최대 생성 스루풋을 5.76배 증가시킵니다.

iFlytek에서 발표한 추론 모델 Spark X1은 국내 수학 과제에서 선도적인 위치를 차지하면서도, 추론, 텍스트 생성, 언어 이해 등의 일반적인 작업 성능을 OpenAI의 o1 및 DeepSeek의 R1과 비교합니다.

DeepSeek-V2.5는 DeepSeek-V2-Chat과 DeepSeek-Coder-V2-Instruct를 결합한 업그레이드된 버전입니다. 새 모델은 이전 두 버전의 일반적이고 코드 작성 능력을 통합합니다.

여러 평가에서 DeepSeek-V3은 Qwen2.5-72B 및 Llama-3.1-405B와 같은 다른 오픈소스 모델들을 능가했으며, GPT-4 및 Claude-3.5-Sonnet과 같은 최고급 폐쇄형 소스 모델의 성능에도 필적합니다.

DeepSeek가 발표한 강력한 Mixture-of-Experts(MoE) 언어 모델인 DeepSeek-V2의 경량 버전이 DeepSeek-V2-Lite입니다.

DeepSeek-V2는 경제적인 학습과 효율적인 추론을 특징으로 하는 강력한 Mixture-of-Experts(MoE) 언어 모델입니다. 총 2360억 개의 매개변수를 가지고 있으며 각 토큰마다 210억 개의 매개변수가 활성화됩니다. DeepSeek 67B와 비교했을 때, DeepSeek-V2는 더 나은 성능을 제공하면서도 42.5%의 학습 비용을 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 스루풋을 5.76배 증가시킵니다.

DeepSeek-R1 은 감독된 미세 조정(SFT) 없이 대규모 강화 학습(RL)으로 훈련된 모델입니다. 수학, 코딩 및 추론 작업에서 OpenAI-o1과 동등한 성능을 보입니다.

DeepSeek-V2.5는 DeepSeek-V2-Chat과 DeepSeek-Coder-V2-Instruct를 결합한 업데이트된 버전입니다. 새 모델은 두 개의 이전 버전의 일반적이고 코딩 능력을 통합합니다.

DeepSeek-V3은 Qwen2.5-72B 및 Llama-3.1-405B와 같은 다른 오픈소스 모델보다 높은 평가 점수를 달성했으며, 그 성능은 GPT-4o 및 Claude-3.5-Sonnet과 같은 세계 최고급 폐쇄형 소스 모델과 맞먹습니다.

DeepSeek-R1은 학습 후 단계에서 강화 학습 기법을 광범위하게 활용하여 최소한의 주석이 달린 데이터만으로 모델의 추론 능력을 크게 향상시켰습니다. 수학, 코딩, 자연어 추론과 관련된 작업에서 이 모델의 성능은 OpenAI의 공식 출시 버전인 o1과 동등한 수준입니다.

DeepSeek가 발표한 강력한 MoE(Mixture-of-Experts) 언어 모델인 DeepSeek-V2의 가벼운 버전이 DeepSeek-V2-Lite입니다.

개인 프로필

DeepSeek의 코드 모델에 핵심 기여자이며, 모델 최적화와 훈련 효율성에 전문화됨.

OR