オプション
ニュース
DeepCoderは、14Bオープンモデルで高いコーディング効率を実現します

DeepCoderは、14Bオープンモデルで高いコーディング効率を実現します

2025年4月23日
81

DeepCoder-14Bの導入:オープンソースコーディングモデルの新しいフロンティア

一緒にAIとAgepticaのチームは、OpenaiのO3-Miniのような最高級の独自モデルを備えた肩から肩まで耐える画期的なコーディングモデルであるDeepCoder-14Bを発表しました。このエキサイティングな開発は、DeepSeek-R1の基礎に基づいて構築されており、高性能コード生成と推論を実際のアプリケーションに統合するための柔軟性を高めます。さらに、クリエイターは、トレーニングデータ、コード、ログ、システムの最適化など、モデルを完全にオープンソーシングすることで、称賛に値するステップを踏み出しました。この動きは、研究を触媒し、現場での進歩を加速するように設定されています。

コンパクトパッケージの印象的なパフォーマンス

DeepCoder-14Bは、LiveCodeBench(LCB)、CodeForces、HumanVal+など、さまざまなコーディングベンチマークで顕著な結果を示しています。研究チームの実験は、モデルのパフォーマンスがO3-Mini(Low)やO1などの主要なモデルと同等であることを強調しています。 「私たちのモデルは、すべてのコーディングベンチマークで強力なパフォーマンスを示しています... O3-Mini(Low)およびO1のパフォーマンスに匹敵します」と、研究者はブログ投稿で誇らしげに述べました。

特に興味深いのは、主にコーディングタスクの訓練を受けているにもかかわらず、DeepCoder-14Bが数学的推論に顕著な改善を示しており、AIME 2024ベンチマークで73.8%のスコアを達成したことです。これは、基本モデルであるDeepSeek-R1-Distill-Qwen-14Bよりも4.1%増加し、コードの強化学習(RL)を通じて磨かれた推論スキルが他のドメインに効果的に転送できることを示唆しています。

DeepCoder-14Bパフォーマンス

*クレジット:一緒にai*

おそらく、DeepCoder-14Bの最もエキサイティングな機能は、その効率です。わずか140億パラメーターで、他の多くの主要なモデルよりも大幅に小さく、リソース効率が高くなりますが、高性能を達成します。

DeepCoderの成功の背後にある革新

DeepCoder-14Bの開発には、特に強化学習を使用したコーディングモデルのトレーニングにおいて、いくつかの課題を克服することが含まれます。 1つの大きなハードルは、トレーニングデータのキュレーションでした。高品質で検証可能なデータが豊富にある数学的タスクとは異なり、コーディングデータは希少になる可能性があります。 DeepCoderチームは、さまざまなデータセットから例を収集およびフィルタリングするために厳しいパイプラインを実装し、有効性、複雑さ、および重複を回避することにより、これに対処しました。このプロセスにより、24,000の高品質の問題が発生し、RLトレーニングの堅牢な基盤が形成されました。

また、チームは、生成されたコードが設定された時間制限内ですべてのサンプリングされた単体テストに正常に渡された場合にのみモデルに報酬を与える単純な報酬関数を考案しました。このアプローチは、高品質のトレーニングの例と相まって、モデルがショートカットを悪用するのではなく、コアの問題を解決することに焦点を合わせたことを保証しました。

DeepCoder-14Bのトレーニングアルゴリズムは、DeepSeek-R1で成功したグループ相対ポリシー最適化(GRPO)に基づいています。ただし、チームは安定性を高め、より長いトレーニング期間を可能にするために大幅に変更を加えました。

GRPO+

*grpo+ deepcoder-14は、クレジットを崩壊させることなく、より長い期間を続けることができます:一緒にai*

さらに、チームはモデルのコンテキストウィンドウを繰り返し拡張し、より短いシーケンスから始めて徐々に増加しました。また、複雑なプロンプトを解くときにコンテキスト制限を超えるためにモデルをペナルティすることを避けるためのフィルタリング方法を導入しました。

反復コンテキスト拡張

*DeepCoderは32Kコンテキストの問題でトレーニングを受けましたが、64Kタスクのクレジットを解決することもできました:一緒にAI*

研究者は、「効率的なトレーニングを可能にしながら長いコンテキストの推論を維持するために、長いフィルタリングを組み込みました...この手法は、トレーニング中に切り捨てられたシーケンスを覆い、モデルが思慮深いが現在のコンテキストの制限を超える長い出力を生成しないようにします。」トレーニングは16Kから32Kコンテキストウィンドウにスケーリングされ、モデルが最大64Kトークンを必要とする問題に取り組むことができました。

ロングコンテキストRLトレーニングの最適化

特にコーディングなどの長いシーケンスを生成するタスクでのRLで大規模なモデルをトレーニングすることは、低速でリソース集約的であることで有名です。モデルが例ごとに数千のトークンを生成するサンプリングステップは、多くの場合、応答の長さが変化するために大きな遅延につながります。

これに取り組むために、チームは、人間のフィードバック(RLHF)からの補強学習のためのオープンソースVerlライブラリの最適化された拡張機能であるVerl-Pipelineを開発しました。彼らの「1回限りのパイプライニング」イノベーションは、サンプリングとモデルの更新を再構築して、ボトルネックを最小限に抑え、アクセラレータのアイドル時間を短縮しました。

一回限りのパイプライン

*一回限りのパイプライニング*

彼らの実験は、1回限りのパイプライニングが標準的な方法と比較して最大2倍のコーディングRLタスクをスピードアップできることを実証しました。この最適化は、妥当な時間枠内でDeepCoder-14Bをトレーニングする際に重要であり(32 H100Sで2.5週間)、コミュニティが活用するためのVerl-Pipelineの一部としてオープンソースを受けています。

エンタープライズインパクトとオープンソースのコラボレーション

研究者は、GithubでFaceを抱きしめて、DeepCoder-14Bのすべてのトレーニングと運用アーティファクトを許容免許の下で利用できるようにしました。 「データセット、コード、トレーニングのレシピを完全に共有することにより、コミュニティに仕事を再現し、RLトレーニングをすべての人がアクセスできるようにします」と彼らは述べました。

DeepCoder-14Bは、AI景観における効率的でオープンにアクセス可能なモデルの成長傾向を例示しています。企業にとって、これはより多くのオプションと高度なモデルへのより大きなアクセシビリティを意味します。高性能のコード生成と推論は、大企業や多額のAPI料金を支払う意思のある企業に排他的ではなくなりました。あらゆるサイズの組織は、これらの機能を活用し、特定のニーズに合わせて解決策を調整し、環境内に安全に展開できるようになりました。

このシフトは、AIの採用に対する障壁を減らす態勢が整っており、オープンソースのコラボレーションによって駆動されるより競争的で革新的なエコシステムを促進します。

関連記事
Deep Cogito phát hành các mô hình AI nguồn mở và đã đứng đầu bảng xếp hạng Deep Cogito phát hành các mô hình AI nguồn mở và đã đứng đầu bảng xếp hạng Deep Cogito Ra Mắt Các Mô Hình Trí Tuệ Nhân Tạo Cách MạngTrong một bước đi đột phá, Deep Cogito, một công ty khởi nghiệp nghiên cứu AI hàng đầu có trụ sở tại San Francisco, đã chín
Hệ thống tập trung thật cho Thực tế tăng cường giá cả phải chăng Hệ thống tập trung thật cho Thực tế tăng cường giá cả phải chăng Thay đổi cuộc chơi trong Thực tế Tăng cường Dựa trên Chiếu hìnhCác nhà nghiên cứu từ Viện Điện tử và Viễn thông danh tiếng (IEEE) đã đạt được bước tiến vượt bậc trong lĩnh vực thực
Cựu CEO OpenAI Cảnh Báo Về Sự Nịnh Hót và Xu Nịnh của AI Cựu CEO OpenAI Cảnh Báo Về Sự Nịnh Hót và Xu Nịnh của AI Sự thật đáng lo ngại về AI quá đồng ýHãy tưởng tượng một trợ lý AI đồng ý với mọi điều bạn nói, bất kể ý tưởng của bạn có phi lý hay gây hại đến đâu. Nó nghe như cốt truyện từ một
コメント (5)
0/200
NicholasGonzález
NicholasGonzález 2025年4月24日 0:00:00 GMT

DeepCoder-14B is a beast! It's amazing how it can code so efficiently, almost like having a top-notch programmer on speed dial. I've used it for some complex projects and it nailed it every time. The only thing is, it can be a bit slow on my old laptop. Still, a solid tool for any coder! 🤓💻

RaymondGreen
RaymondGreen 2025年4月24日 0:00:00 GMT

DeepCoder-14Bは本当に素晴らしいです!効率的にコードを書くことができ、まるで一流のプログラマーをいつでも呼べるようです。複雑なプロジェクトでも完璧にこなしてくれます。ただ、私の古いラップトップでは少し遅いですね。それでも、どんなコーダーにもおすすめのツールです!🤓💻

HaroldLopez
HaroldLopez 2025年4月24日 0:00:00 GMT

DeepCoder-14B 정말 대단해요! 효율적으로 코드를 작성할 수 있어서, 마치 최고의 프로그래머를 언제든지 불러낼 수 있는 것 같아요. 복잡한 프로젝트도 매번 완벽하게 해냈어요. 다만, 제 오래된 랩탑에서는 조금 느리네요. 그래도 어떤 코더에게나 추천할 만한 도구입니다! 🤓💻

JimmyJohnson
JimmyJohnson 2025年4月24日 0:00:00 GMT

DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻

SebastianAnderson
SebastianAnderson 2025年4月24日 0:00:00 GMT

¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻

トップに戻ります
OR