Qihao Zhu - Principais Líderes e Inovadores de IA | Perfis, Marcos e Projetos - xix.ai
opção

Descubra ferramentas de qualidade de qualidade

Reunir as principais ferramentas de inteligência artificial do mundo para ajudar a melhorar a eficiência do trabalho

Procure por ferramentas AL…
Lar
Celebridade de IA
Qihao Zhu
Qihao Zhu

Qihao Zhu

Pesquisador, DeepSeek
Ano de nascimento  desconhecido
Nacionalidade  Chinese

Marco importante

2023 Juntou-se ao DeepSeek

Iniciou pesquisa sobre métodos de treinamento de IA eficientes

Desenvolvimento do DeepSeek-Coder 2023

Ajudou a desenvolver o DeepSeek-Coder, um LLM de código líder

Implementação da Arquitetura MoE 2024

Contribuiu para Mixture-of-Experts em DeepSeek-V2

Produto de IA

DeepSeek-V3は、Qwen2.5-72BやLlama-3.1-405Bなどのオープンソースモデルを複数の評価で上回り、GPT-4やClaude-3.5-Sonnetなどのトップクラスのクローズドソースモデルと同等の性能を発揮します。

iFlytekがリリースした推論モデルSpark X1は、国内をリードする数学的タスクを基盤として、推論、テキスト生成、言語理解などの汎用タスクの性能を、OpenAI oシリーズおよびDeepSeek R1と比較しています。

Deepseek R1 の最新バージョン。

DeepSeek-V2 は、効率的なトレーニングと推論が特徴の強力な混合専門家モデル(Mixture-of-Experts)です。総パラメータ数は2360億で、各トークンごとに210億のパラメータがアクティブになります。DeepSeek 67B と比較すると、DeepSeek-V2 はより高いパフォーマンスを達成し、トレーニングコストを42.5%削減、KVキャッシュを93.3%削減、最大生成スループットを5.76倍に向上させています。

iFlytekが発表した推論モデルSpark X1は、国内の数学タスクで先行する一方で、推論、テキスト生成、言語理解などの一般的なタスクのパフォーマンスを、OpenAIのo1およびDeepSeekのR1と比較しています。

DeepSeek-V2.5 は、DeepSeek-V2-Chat と DeepSeek-Coder-V2-Instruct を組み合わせたアップグレード版です。新しいモデルは、前の2つのバージョンの汎用機能とコーディング能力を統合しています。

複数の評価において、DeepSeek-V3はQwen2.5-72BやLlama-3.1-405Bなどの他のオープンソースモデルを上回り、GPT-4やClaude-3.5-Sonnetのようなトップクラスのクローズドソースモデルのパフォーマンスにも匹敵します。

DeepSeekが発表した強力なMixture-of-Experts(MoE)言語モデルであるDeepSeek-V2に対し、DeepSeek-V2-Liteはその軽量版です。

DeepSeek-V2 は、経済的なトレーニングと効率的な推論を特徴とする強力なMixture-of-Experts(MoE)言語モデルです。合計2360億のパラメータを持ち、各トークンごとに210億のパラメータがアクティブになります。DeepSeek 67Bと比較すると、DeepSeek-V2はより優れたパフォーマンスを達成し、トレーニングコストを42.5%削減、KVキャッシュを93.3%削減、最大生成スループットを5.76倍に向上させています。

DeepSeek-R1 は、大規模な強化学習(RL)によってトレーニングされたモデルであり、初期段階での教師ありフィーチャリング(SFT)は使用していません。数学、コーディング、および推論タスクでのパフォーマンスは、OpenAI-o1 と同等です。

DeepSeek-V2.5 は、DeepSeek-V2-Chat と DeepSeek-Coder-V2-Instruct を組み合わせたアップグレード版です。新しいモデルは、2つの以前のバージョンの汎用およびコーディング能力を統合しています。

DeepSeek-V3はQwen2.5-72BやLlama-3.1-405Bなどの他のオープンソースモデルよりも高い評価スコアを達成しており、そのパフォーマンスはGPT-4oやClaude-3.5-Sonnetなど世界トップクラスのクローズドソースモデルと同等です。

DeepSeek-R1は、ポストトレーニングフェーズで強化学習技術を広範囲に活用し、最小限のアノテーションデータのみで、モデルの推論能力を大幅に向上させた。数学、コーディング、自然言語推論を含むタスクにおいて、その性能はOpenAIのo1の公式リリースと同等である。

DeepSeekが発表した強力なマルチエキスパート(MoE)言語モデル、DeepSeek-V2の軽量版がDeepSeek-V2-Liteです。

Perfil pessoal

Contribuidor principal nos modelos de código da DeepSeek, especializado em otimização de modelos e eficiência de treinamento

De volta ao topo
OR