DeepCoder通過14B開放模型實現高編碼效率

首頁

新聞

2025-04-23

SamuelRamirez

116

# research # LLMs

介紹 DeepCoder-14B：開源編碼模型的新前沿

Together AI 和 Agentica 的團隊推出了 DeepCoder-14B，這是一款突破性的編碼模型，與頂尖專有模型如 OpenAI 的 o3-mini 並駕齊驅。這項令人振奮的發展基於 DeepSeek-R1 的基礎，提供了更高的靈活性，用於將高效能的程式碼生成和推理整合到實際應用中。更令人讚賞的是，創作者採取了完全開源的做法，包括模型的訓練數據、程式碼、日誌和系統優化。這一舉措將催化研究並加速該領域的進展。

小巧包裝中的出色表現

DeepCoder-14B 在多個編碼基準測試中表現出色，例如 LiveCodeBench (LCB)、Codeforces 和 HumanEval+。研究團隊的實驗顯示，該模型的性能與領先模型如 o3-mini (低階) 和 o1 相當。研究人員在他們的部落格文章中自豪地表示：「我們的模型在所有編碼基準測試中展現出強大的性能……與 o3-mini (低階) 和 o1 的表現相當。」

特別引人注目的是，雖然 DeepCoder-14B 主要針對編碼任務進行訓練，但它在數學推理方面也顯示出顯著的進步，在 AIME 2024 基準測試中獲得了 73.8% 的分數。這比其基礎模型 DeepSeek-R1-Distill-Qwen-14B 提高了 4.1%，表明通過強化學習 (RL) 在程式碼上培養的推理技能可以有效地轉移到其他領域。

DeepCoder-14B 性能

*來源：Together AI*

DeepCoder-14B 最令人興奮的特點或許是其效率。僅有 140 億個參數，它在性能上表現出色，同時比許多其他領先模型更小巧、更節省資源。

DeepCoder 成功的背後創新

開發 DeepCoder-14B 涉及克服多項挑戰，特別是在使用強化學習訓練編碼模型時。一個主要障礙是訓練數據的整理。與數學任務不同，高質量、可驗證的數據在數學領域中較為豐富，而編碼數據可能較為稀缺。DeepCoder 團隊通過實施嚴格的數據收集和過濾管道，解決了這個問題，確保數據的有效性、複雜性和避免重複。這個過程產生了 24,000 個高質量問題，形成了強化學習訓練的堅實基礎。

團隊還設計了一個簡單的獎勵函數，只有當生成的程式碼在設定的時間限制內成功通過所有抽樣單元測試時才會獎勵模型。這種方法，結合高質量的訓練範例，確保模型專注於解決核心問題，而不是利用捷徑。

DeepCoder-14B 的訓練演算法基於群組相對策略優化 (GRPO)，這在 DeepSeek-R1 中已獲得成功。然而，團隊進行了重大修改，以增強穩定性並實現更長的訓練時間。

GRPO+

*GRPO+ 使 DeepCoder-14B 能持續更長時間而不崩潰來源：Together AI*

此外，團隊逐步擴展了模型的上下文窗口，從較短的序列開始，逐步增加。他們還引入了一種過濾方法，以避免在解決複雜提示時因超出上下文限制而懲罰模型。

迭代上下文擴展

*DeepCoder 在 32K 上下文問題上進行訓練，但也能解決 64K 任務來源：Together AI*

研究人員解釋了他們的方法：「為了在保持長上下文推理的同時實現高效訓練，我們引入了超長過濾技術……這項技術在訓練期間遮罩截斷序列，以避免模型因生成深思熟慮但超出當前上下文限制的冗長輸出而受到懲罰。」訓練從 16K 上下文窗口擴展到 32K，使模型能夠處理需要高達 64K 令牌的問題。

優化長上下文強化學習訓練

使用強化學習訓練大型模型，特別是在生成長序列的任務如編碼時，眾所周知是緩慢且資源密集的。抽樣步驟中，模型為每個範例生成數千個令牌，由於回應長度的變化，通常會導致顯著的延遲。

為了解決這個問題，團隊開發了 verl-pipeline，這是基於開源 verl 庫的優化擴展，用於從人類反饋進行強化學習 (RLHF)。他們的「一次性流水線」創新重新組織了抽樣和模型更新，以最小化瓶頸並減少加速器上的閒置時間。

一次性流水線

*一次性流水線*

他們的實驗顯示，一次性流水線能將編碼強化學習任務的速度提升高達 2 倍，與標準方法相比。這項優化對於在合理時間內（32 個 H100 上 2.5 週）訓練 DeepCoder-14B 至關重要，現在已作為 verl-pipeline 的一部分開源，供社群使用。

企業影響與開源協作

研究人員已在 GitHub 和 Hugging Face 上以寬鬆許可證公開了 DeepCoder-14B 的所有訓練和操作資源。他們表示：「通過完全分享我們的數據集、程式碼和訓練配方，我們賦予社群重現我們的工作並使強化學習訓練對所有人可及。」

DeepCoder-14B 體現了 AI 領域中高效、開放可用的模型日益增長的趨勢。對於企業來說，這意味著更多的選擇和對先進模型的更大可及性。高效能的程式碼生成和推理不再是大公司或願意支付高額 API 費用的組織獨享。各種規模的組織現在都可以利用這些能力，根據其特定需求定制解決方案，並在自己的環境中安全部署。

這種轉變將降低 AI 採用的門檻，促進一個由開源協作驅動的更具競爭力和創新性的生態系統。

微軟研究揭示AI模型在軟體除錯中的局限性來自OpenAI、Anthropic及其他領先AI實驗室的AI模型越來越常用於編碼任務。Google執行長Sundar Pichai於10月表示，AI在公司內生成25%的新程式碼，而Meta執行長Mark Zuckerberg則計劃在這家社群媒體巨頭中廣泛應用AI編碼工具。然而，即使是表現最佳的模型，在修復軟體錯誤時仍難以達到經驗豐富的開發者輕鬆處理的水平。微軟研發部門近期進行的微軟研究顯示，像A

AI驅動的解決方案可顯著降低全球碳排放倫敦經濟學院與Systemiq的最新研究顯示，人工智慧可在不犧牲現代便利性的前提下大幅降低全球碳排放，使AI成為對抗氣候變遷的關鍵盟友。研究指出，僅在三個領域應用智慧AI技術，到2035年每年可減少32億至54億噸的溫室氣體排放。與普遍擔憂相反，這些減排量將遠超AI運營所產生的碳足跡。題為《綠色與智慧：AI在氣候轉型中的角色》的報告，將AI視為打造可持續且包容經濟的轉型力量，而非僅僅是漸進式進展的

渥太華醫院如何使用AI環境語音捕捉降低70%醫師職業倦怠，達成97%患者滿意度 AI如何改變醫療：減輕職業倦怠並提升患者照護挑戰：臨床醫師過勞與患者就醫延遲全球醫療系統面臨雙重挑戰：臨床醫師職業倦怠與患者就醫延遲。醫師被繁重的行政任務淹沒，而患者難以及時獲得醫療服務。在渥太華醫院 (TOH)，領導者意識到這個問題，並轉向AI尋求解決方案。通過整合Microsoft的DAX Copilot—一款AI驅動的臨床文件助手，他們已看到顯著的改善：✔ 每次患者訪視節省7分鐘✔ 醫師報告

評論 (11)

0/200

提交

BillyLewis

2025-08-06 15:01:06

Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀

RaymondWalker

2025-04-25 11:21:57

¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔

RalphGarcia

2025-04-25 00:21:21

DeepCoder-14B、めっちゃ面白そう！😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ！

SebastianAnderson

2025-04-24 15:46:12

¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻

TerryAdams

2025-04-24 15:38:28

DeepCoder-14B, c’est impressionnant ! Un modèle open-source qui rivalise avec les géants, ça donne envie de tester. 🖥️

JimmyJohnson

2025-04-24 15:06:50

DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻

頭號新聞

Gemini 2.5 Pro現在比Claude，GPT-4O更便宜，更便宜 2025頂級AI影片生成器：Pika Labs與其他對比 Openai增強了AI語音助手以進行更好的聊天 NotebookLM在全球範圍內擴展，添加幻燈片並增強了事實檢查 AI配音：真實聲音創作終極指南對美國數據中心的調整可以解鎖76 GW的新電源容量創始人說 AI語音克隆：掌握語音轉換的終極指南體驗AI驅動的I/O填字遊戲：經典文字遊戲中的現代轉折 NVIDIA首席執行官闡明了對DeepSeek市場影響的誤解

精選