ニュース DeepCoderは、14Bオープンモデルで高いコーディング効率を実現します

DeepCoderは、14Bオープンモデルで高いコーディング効率を実現します

2025年4月23日
SamuelRamirez
0

DeepCoder-14Bの導入:オープンソースコーディングモデルの新しいフロンティア

一緒にAIとAgepticaのチームは、OpenaiのO3-Miniのような最高級の独自モデルを備えた肩から肩まで耐える画期的なコーディングモデルであるDeepCoder-14Bを発表しました。このエキサイティングな開発は、DeepSeek-R1の基礎に基づいて構築されており、高性能コード生成と推論を実際のアプリケーションに統合するための柔軟性を高めます。さらに、クリエイターは、トレーニングデータ、コード、ログ、システムの最適化など、モデルを完全にオープンソーシングすることで、称賛に値するステップを踏み出しました。この動きは、研究を触媒し、現場での進歩を加速するように設定されています。

コンパクトパッケージの印象的なパフォーマンス

DeepCoder-14Bは、LiveCodeBench(LCB)、CodeForces、HumanVal+など、さまざまなコーディングベンチマークで顕著な結果を示しています。研究チームの実験は、モデルのパフォーマンスがO3-Mini(Low)やO1などの主要なモデルと同等であることを強調しています。 「私たちのモデルは、すべてのコーディングベンチマークで強力なパフォーマンスを示しています... O3-Mini(Low)およびO1のパフォーマンスに匹敵します」と、研究者はブログ投稿で誇らしげに述べました。

特に興味深いのは、主にコーディングタスクの訓練を受けているにもかかわらず、DeepCoder-14Bが数学的推論に顕著な改善を示しており、AIME 2024ベンチマークで73.8%のスコアを達成したことです。これは、基本モデルであるDeepSeek-R1-Distill-Qwen-14Bよりも4.1%増加し、コードの強化学習(RL)を通じて磨かれた推論スキルが他のドメインに効果的に転送できることを示唆しています。

DeepCoder-14Bパフォーマンス

*クレジット:一緒にai*

おそらく、DeepCoder-14Bの最もエキサイティングな機能は、その効率です。わずか140億パラメーターで、他の多くの主要なモデルよりも大幅に小さく、リソース効率が高くなりますが、高性能を達成します。

DeepCoderの成功の背後にある革新

DeepCoder-14Bの開発には、特に強化学習を使用したコーディングモデルのトレーニングにおいて、いくつかの課題を克服することが含まれます。 1つの大きなハードルは、トレーニングデータのキュレーションでした。高品質で検証可能なデータが豊富にある数学的タスクとは異なり、コーディングデータは希少になる可能性があります。 DeepCoderチームは、さまざまなデータセットから例を収集およびフィルタリングするために厳しいパイプラインを実装し、有効性、複雑さ、および重複を回避することにより、これに対処しました。このプロセスにより、24,000の高品質の問題が発生し、RLトレーニングの堅牢な基盤が形成されました。

また、チームは、生成されたコードが設定された時間制限内ですべてのサンプリングされた単体テストに正常に渡された場合にのみモデルに報酬を与える単純な報酬関数を考案しました。このアプローチは、高品質のトレーニングの例と相まって、モデルがショートカットを悪用するのではなく、コアの問題を解決することに焦点を合わせたことを保証しました。

DeepCoder-14Bのトレーニングアルゴリズムは、DeepSeek-R1で成功したグループ相対ポリシー最適化(GRPO)に基づいています。ただし、チームは安定性を高め、より長いトレーニング期間を可能にするために大幅に変更を加えました。

GRPO+

*grpo+ deepcoder-14は、クレジットを崩壊させることなく、より長い期間を続けることができます:一緒にai*

さらに、チームはモデルのコンテキストウィンドウを繰り返し拡張し、より短いシーケンスから始めて徐々に増加しました。また、複雑なプロンプトを解くときにコンテキスト制限を超えるためにモデルをペナルティすることを避けるためのフィルタリング方法を導入しました。

反復コンテキスト拡張

*DeepCoderは32Kコンテキストの問題でトレーニングを受けましたが、64Kタスクのクレジットを解決することもできました:一緒にAI*

研究者は、「効率的なトレーニングを可能にしながら長いコンテキストの推論を維持するために、長いフィルタリングを組み込みました...この手法は、トレーニング中に切り捨てられたシーケンスを覆い、モデルが思慮深いが現在のコンテキストの制限を超える長い出力を生成しないようにします。」トレーニングは16Kから32Kコンテキストウィンドウにスケーリングされ、モデルが最大64Kトークンを必要とする問題に取り組むことができました。

ロングコンテキストRLトレーニングの最適化

特にコーディングなどの長いシーケンスを生成するタスクでのRLで大規模なモデルをトレーニングすることは、低速でリソース集約的であることで有名です。モデルが例ごとに数千のトークンを生成するサンプリングステップは、多くの場合、応答の長さが変化するために大きな遅延につながります。

これに取り組むために、チームは、人間のフィードバック(RLHF)からの補強学習のためのオープンソースVerlライブラリの最適化された拡張機能であるVerl-Pipelineを開発しました。彼らの「1回限りのパイプライニング」イノベーションは、サンプリングとモデルの更新を再構築して、ボトルネックを最小限に抑え、アクセラレータのアイドル時間を短縮しました。

一回限りのパイプライン

*一回限りのパイプライニング*

彼らの実験は、1回限りのパイプライニングが標準的な方法と比較して最大2倍のコーディングRLタスクをスピードアップできることを実証しました。この最適化は、妥当な時間枠内でDeepCoder-14Bをトレーニングする際に重要であり(32 H100Sで2.5週間)、コミュニティが活用するためのVerl-Pipelineの一部としてオープンソースを受けています。

エンタープライズインパクトとオープンソースのコラボレーション

研究者は、GithubでFaceを抱きしめて、DeepCoder-14Bのすべてのトレーニングと運用アーティファクトを許容免許の下で利用できるようにしました。 「データセット、コード、トレーニングのレシピを完全に共有することにより、コミュニティに仕事を再現し、RLトレーニングをすべての人がアクセスできるようにします」と彼らは述べました。

DeepCoder-14Bは、AI景観における効率的でオープンにアクセス可能なモデルの成長傾向を例示しています。企業にとって、これはより多くのオプションと高度なモデルへのより大きなアクセシビリティを意味します。高性能のコード生成と推論は、大企業や多額のAPI料金を支払う意思のある企業に排他的ではなくなりました。あらゆるサイズの組織は、これらの機能を活用し、特定のニーズに合わせて解決策を調整し、環境内に安全に展開できるようになりました。

このシフトは、AIの採用に対する障壁を減らす態勢が整っており、オープンソースのコラボレーションによって駆動されるより競争的で革新的なエコシステムを促進します。

関連記事
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros O AIS de Deepseek descobre desejos humanos verdadeiros O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA ​​Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA ​​promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
コメント (0)
0/200
OR