Zhenda Xie - トップAIリーダー&イノベーター|プロフィール、節目、プロジェクト - xix.ai
オプション

高品質のAIツールを発見します

世界をリードする人工知能ツールを集めて、作業効率を向上させるのに役立ちます

ALツールを検索します…
AI著名人
Zhenda Xie
Zhenda Xie

Zhenda Xie

研究者、DeepSeek
生年  不明
国籍  Chinese

重要な節目

2023 DeepSeekに参加

DeepSeekでAIモデル研究を開始

2024 DeepSeek-V2 開発

V2のMoEアーキテクチャに貢献

2025 DeepSeek-R1 最適化

強化学習を用いて推論タスク向けにR1を最適化する支援を行った。

AI製品

DeepSeek-V3は、Qwen2.5-72BやLlama-3.1-405Bなどのオープンソースモデルを複数の評価で上回り、GPT-4やClaude-3.5-Sonnetなどのトップクラスのクローズドソースモデルと同等の性能を発揮します。

iFlytekがリリースした推論モデルSpark X1は、国内をリードする数学的タスクを基盤として、推論、テキスト生成、言語理解などの汎用タスクの性能を、OpenAI oシリーズおよびDeepSeek R1と比較しています。

Deepseek R1 の最新バージョン。

DeepSeek-V2 は、効率的なトレーニングと推論が特徴の強力な混合専門家モデル(Mixture-of-Experts)です。総パラメータ数は2360億で、各トークンごとに210億のパラメータがアクティブになります。DeepSeek 67B と比較すると、DeepSeek-V2 はより高いパフォーマンスを達成し、トレーニングコストを42.5%削減、KVキャッシュを93.3%削減、最大生成スループットを5.76倍に向上させています。

iFlytekが発表した推論モデルSpark X1は、国内の数学タスクで先行する一方で、推論、テキスト生成、言語理解などの一般的なタスクのパフォーマンスを、OpenAIのo1およびDeepSeekのR1と比較しています。

DeepSeek-V2.5 は、DeepSeek-V2-Chat と DeepSeek-Coder-V2-Instruct を組み合わせたアップグレード版です。新しいモデルは、前の2つのバージョンの汎用機能とコーディング能力を統合しています。

複数の評価において、DeepSeek-V3はQwen2.5-72BやLlama-3.1-405Bなどの他のオープンソースモデルを上回り、GPT-4やClaude-3.5-Sonnetのようなトップクラスのクローズドソースモデルのパフォーマンスにも匹敵します。

DeepSeekが発表した強力なMixture-of-Experts(MoE)言語モデルであるDeepSeek-V2に対し、DeepSeek-V2-Liteはその軽量版です。

DeepSeek-V2 は、経済的なトレーニングと効率的な推論を特徴とする強力なMixture-of-Experts(MoE)言語モデルです。合計2360億のパラメータを持ち、各トークンごとに210億のパラメータがアクティブになります。DeepSeek 67Bと比較すると、DeepSeek-V2はより優れたパフォーマンスを達成し、トレーニングコストを42.5%削減、KVキャッシュを93.3%削減、最大生成スループットを5.76倍に向上させています。

DeepSeek-R1 は、大規模な強化学習(RL)によってトレーニングされたモデルであり、初期段階での教師ありフィーチャリング(SFT)は使用していません。数学、コーディング、および推論タスクでのパフォーマンスは、OpenAI-o1 と同等です。

DeepSeek-V2.5 は、DeepSeek-V2-Chat と DeepSeek-Coder-V2-Instruct を組み合わせたアップグレード版です。新しいモデルは、2つの以前のバージョンの汎用およびコーディング能力を統合しています。

DeepSeek-V3はQwen2.5-72BやLlama-3.1-405Bなどの他のオープンソースモデルよりも高い評価スコアを達成しており、そのパフォーマンスはGPT-4oやClaude-3.5-Sonnetなど世界トップクラスのクローズドソースモデルと同等です。

DeepSeek-R1は、ポストトレーニングフェーズで強化学習技術を広範囲に活用し、最小限のアノテーションデータのみで、モデルの推論能力を大幅に向上させた。数学、コーディング、自然言語推論を含むタスクにおいて、その性能はOpenAIのo1の公式リリースと同等である。

DeepSeekが発表した強力なマルチエキスパート(MoE)言語モデル、DeepSeek-V2の軽量版がDeepSeek-V2-Liteです。

個人プロフィール

DeepSeekの革新的なアーキテクチャに取り組み、効率的なAIモデルのためのMixture-of-Expertsや多頭潜在注意機構を開発。

トップに戻ります
OR