DeepCoder通過14B開放模型實現高編碼效率
2025年04月23日
SamuelRamirez
0
介紹DeepCoder-14b:開源編碼模型中的新邊界
AI和Agentica的團隊一起揭開了DeepCoder-14B,這是一種開創性的編碼模型,側面肩膀與頂級專有車型(如Openai's O3 Mini)肩並肩。這一令人興奮的發展是建立在DeepSeek-R1的基礎上的,並為將高性能代碼和推理集成到實際應用中提供了增強的靈活性。更重要的是,創建者通過完全開放式模型(包括其培訓數據,代碼,日誌和系統優化)採取了值得稱讚的一步。這一舉動旨在促進研究並加速該領域的進步。
緊湊的包裝中令人印象深刻的表現
DeepCoder-14b在各種編碼基準(例如LiveCodebench(LCB),CodeForces和HumaneVal+)上顯示出了顯著的結果。研究團隊的實驗強調,該模型的性能與O3-Mini(Low)和O1等領先模型相當。研究人員在博客文章中自豪地說:“我們的模型在所有編碼基準中都表現出強大的性能……與O3-Mini(Low)和O1的性能相當。”
特別有趣的是,儘管主要接受了編碼任務的訓練,但DeepCoder-14b也顯示出數學推理的顯著改善,在AIME 2024基準中取得了73.8%的得分。這比其基本模型DeepSeek-R1-Distill-Qwen-14B增長了4.1%,這表明通過強化學習(RL)在代碼上磨練的推理技能可以有效地轉移到其他領域。

*信用:一起AI*
DeepCoder-14b最令人興奮的功能也許是其效率。僅140億個參數,它可以達到高性能,同時比許多其他領先的模型要小得多,而且資源效率更高。
Deepcoder成功背後的創新
開發DeepCoder-14B涉及克服幾個挑戰,尤其是在使用增強學習的培訓編碼模型中。一個主要障礙是培訓數據的策劃。與數學任務不同,高質量的可驗證數據豐富,編碼數據可能會稀缺。 DeepCoder團隊通過實施嚴格的管道來解決此問題,以收集和過濾各種數據集的示例,從而確保有效性,複雜性和避免重複。該過程導致了24,000個高質量問題,為RL培訓構成了強大的基礎。
該團隊還設計了一個直接的獎勵功能,只有在生成的代碼成功地通過設定的時間限制將所有採樣的單元測試通過所有採樣的單位測試時,該獎勵功能只會獎勵模型。這種方法加上高質量的培訓示例,確保了該模型的重點是解決核心問題而不是利用快捷方式。
DeepCoder-14b的培訓算法基於小組相對政策優化(GRPO),該算法在DeepSeek-R1中取得了成功。但是,團隊進行了重大修改以提高穩定性並實現更長的訓練時間。

*GRPO+使DeepCoder-14可以繼續持續更長的時間而不會崩潰:AI*
此外,團隊迭代地擴展了模型的上下文窗口,從較短的序列開始,然後逐漸增加它們。他們還引入了一種過濾方法,以避免在求解複雜提示時超出上下文限制的模型。

*DeepCoder接受了32K上下文問題的培訓,但也能夠解決64K任務信用:一起AI*
研究人員解釋了他們的方法:“為了保留長篇文化推理,同時進行了有效的培訓,我們納入了長時間的過濾……這項技術在訓練過程中掩蓋了截斷的序列,因此模型不會因產生周到但長期的超過當前上下文限製而受到懲罰。”培訓從16K到32K上下文窗口縮放,使該模型能夠解決需要多達64K令牌的問題。
優化長篇小說RL培訓
使用RL培訓大型模型,尤其是在產生長序列(例如編碼)的任務上,眾所周知,它是緩慢且資源密集的。該模型每個示例產生數千個令牌的採樣步驟通常會由於響應長度的不同而導致顯著延遲。
為了解決這個問題,該團隊開發了Verl-Pipeline,這是開源VERL庫的優化擴展,用於從人類反饋(RLHF)中學習。他們的“一次性管道”創新重組了採樣和模型更新,以最大程度地減少瓶頸並減少加速器上的空閒時間。

*一次性管道*
他們的實驗表明,與標準方法相比,一次性管道上的管道可以加快編碼RL任務的加快2倍。這種優化對於在合理的時間範圍內訓練DeepCoder-14b至關重要(32 H100時為2.5週),現在是開源的,作為Verl-Pipeline的一部分,供社區提供利用。
企業影響和開源合作
研究人員已經為Github上的DeepCoder-14B提供了所有培訓和操作工件,並在寬鬆的許可下擁抱了臉。他們說:“通過完全共享我們的數據集,代碼和培訓食譜,我們使社區有能力重現我們的工作,並使所有人都可以使用RL培訓。”
DeepCoder-14b例證了AI景觀中有效,公開訪問模型的增長趨勢。對於企業而言,這意味著對高級模型的更多選項和更大的可訪問性。高性能代碼的生成和推理不再是大型公司或願意支付大量API費用的人。各種規模的組織現在可以利用這些功能,為其特定需求量身定制解決方案,並在其環境中安全部署。
這種轉變有望降低AI採用的障礙,從而促進了由開源協作驅動的更具競爭力和創新的生態系統。
相關文章
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial
Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros
O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina
Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
評論 (0)
0/200






介紹DeepCoder-14b:開源編碼模型中的新邊界
AI和Agentica的團隊一起揭開了DeepCoder-14B,這是一種開創性的編碼模型,側面肩膀與頂級專有車型(如Openai's O3 Mini)肩並肩。這一令人興奮的發展是建立在DeepSeek-R1的基礎上的,並為將高性能代碼和推理集成到實際應用中提供了增強的靈活性。更重要的是,創建者通過完全開放式模型(包括其培訓數據,代碼,日誌和系統優化)採取了值得稱讚的一步。這一舉動旨在促進研究並加速該領域的進步。
緊湊的包裝中令人印象深刻的表現
DeepCoder-14b在各種編碼基準(例如LiveCodebench(LCB),CodeForces和HumaneVal+)上顯示出了顯著的結果。研究團隊的實驗強調,該模型的性能與O3-Mini(Low)和O1等領先模型相當。研究人員在博客文章中自豪地說:“我們的模型在所有編碼基準中都表現出強大的性能……與O3-Mini(Low)和O1的性能相當。”
特別有趣的是,儘管主要接受了編碼任務的訓練,但DeepCoder-14b也顯示出數學推理的顯著改善,在AIME 2024基準中取得了73.8%的得分。這比其基本模型DeepSeek-R1-Distill-Qwen-14B增長了4.1%,這表明通過強化學習(RL)在代碼上磨練的推理技能可以有效地轉移到其他領域。
DeepCoder-14b最令人興奮的功能也許是其效率。僅140億個參數,它可以達到高性能,同時比許多其他領先的模型要小得多,而且資源效率更高。
Deepcoder成功背後的創新
開發DeepCoder-14B涉及克服幾個挑戰,尤其是在使用增強學習的培訓編碼模型中。一個主要障礙是培訓數據的策劃。與數學任務不同,高質量的可驗證數據豐富,編碼數據可能會稀缺。 DeepCoder團隊通過實施嚴格的管道來解決此問題,以收集和過濾各種數據集的示例,從而確保有效性,複雜性和避免重複。該過程導致了24,000個高質量問題,為RL培訓構成了強大的基礎。
該團隊還設計了一個直接的獎勵功能,只有在生成的代碼成功地通過設定的時間限制將所有採樣的單元測試通過所有採樣的單位測試時,該獎勵功能只會獎勵模型。這種方法加上高質量的培訓示例,確保了該模型的重點是解決核心問題而不是利用快捷方式。
DeepCoder-14b的培訓算法基於小組相對政策優化(GRPO),該算法在DeepSeek-R1中取得了成功。但是,團隊進行了重大修改以提高穩定性並實現更長的訓練時間。
此外,團隊迭代地擴展了模型的上下文窗口,從較短的序列開始,然後逐漸增加它們。他們還引入了一種過濾方法,以避免在求解複雜提示時超出上下文限制的模型。
研究人員解釋了他們的方法:“為了保留長篇文化推理,同時進行了有效的培訓,我們納入了長時間的過濾……這項技術在訓練過程中掩蓋了截斷的序列,因此模型不會因產生周到但長期的超過當前上下文限製而受到懲罰。”培訓從16K到32K上下文窗口縮放,使該模型能夠解決需要多達64K令牌的問題。
優化長篇小說RL培訓
使用RL培訓大型模型,尤其是在產生長序列(例如編碼)的任務上,眾所周知,它是緩慢且資源密集的。該模型每個示例產生數千個令牌的採樣步驟通常會由於響應長度的不同而導致顯著延遲。
為了解決這個問題,該團隊開發了Verl-Pipeline,這是開源VERL庫的優化擴展,用於從人類反饋(RLHF)中學習。他們的“一次性管道”創新重組了採樣和模型更新,以最大程度地減少瓶頸並減少加速器上的空閒時間。
他們的實驗表明,與標準方法相比,一次性管道上的管道可以加快編碼RL任務的加快2倍。這種優化對於在合理的時間範圍內訓練DeepCoder-14b至關重要(32 H100時為2.5週),現在是開源的,作為Verl-Pipeline的一部分,供社區提供利用。
企業影響和開源合作
研究人員已經為Github上的DeepCoder-14B提供了所有培訓和操作工件,並在寬鬆的許可下擁抱了臉。他們說:“通過完全共享我們的數據集,代碼和培訓食譜,我們使社區有能力重現我們的工作,並使所有人都可以使用RL培訓。”
DeepCoder-14b例證了AI景觀中有效,公開訪問模型的增長趨勢。對於企業而言,這意味著對高級模型的更多選項和更大的可訪問性。高性能代碼的生成和推理不再是大型公司或願意支付大量API費用的人。各種規模的組織現在可以利用這些功能,為其特定需求量身定制解決方案,並在其環境中安全部署。
這種轉變有望降低AI採用的障礙,從而促進了由開源協作驅動的更具競爭力和創新的生態系統。


恢復在線數據隱私的5個簡單步驟 - 從今天開始









