选项
首页
新闻
DeepCoder通过14B开放模型实现高编码效率

DeepCoder通过14B开放模型实现高编码效率

2025-04-23
116

介绍DeepCoder-14B:开源编码模型的新前沿

Together AI和Agentica的团队推出了DeepCoder-14B,这是一个突破性的编码模型,与OpenAI的o3-mini等顶级专有模型不相上下。这一激动人心的发展基于DeepSeek-R1,提供了更高的灵活性,用于将高性能代码生成和推理集成到实际应用中。更令人称赞的是,创建者完全开源了该模型,包括其训练数据、代码、日志和系统优化。这一举措将催化研究并加速该领域的进步。

小巧包装中的出色性能

DeepCoder-14B在LiveCodeBench (LCB)、Codeforces和HumanEval+等多种编码基准测试中表现出色。研究团队的实验表明,该模型的性能与o3-mini(低配版)和o1等领先模型相当。研究人员在博客文章中自豪地表示:“我们的模型在所有编码基准测试中表现出色……与o3-mini(低配版)和o1的性能相当。”

特别引人注目的是,尽管主要针对编码任务进行训练,DeepCoder-14B在数学推理方面也显示出显著提升,在AIME 2024基准测试中取得了73.8%的得分。这比其基础模型DeepSeek-R1-Distill-Qwen-14B提高了4.1%,表明通过强化学习(RL)在代码上培养的推理技能可以有效转移到其他领域。

DeepCoder-14B性能

*来源:Together AI*

DeepCoder-14B最激动人心的特点或许是其效率。仅拥有140亿个参数,它实现了高性能,同时比许多其他领先模型更小巧、更节省资源。

DeepCoder成功的创新

开发DeepCoder-14B涉及克服多个挑战,特别是在使用强化学习训练编码模型时。一个主要障碍是训练数据的筛选。与数学任务不同,高品质、可验证的编码数据较为稀缺。DeepCoder团队通过实施严格的流程,从各种数据集中收集和过滤示例,确保有效性、复杂性和避免重复,解决了这一问题。这一过程产生了24,000个高质量问题,为强化学习训练奠定了坚实基础。

团队还设计了一个简单的奖励函数,仅在生成代码成功通过所有采样单元测试并在设定时间限制内完成时奖励模型。这种方法结合高质量训练示例,确保模型专注于解决核心问题,而不是利用捷径。

DeepCoder-14B的训练算法基于Group Relative Policy Optimization (GRPO),这在DeepSeek-R1中已取得成功。然而,团队进行了重大修改,以增强稳定性和支持更长时间的训练。

GRPO+

*GRPO+使DeepCoder-14能够持续更长时间而不崩溃 来源:Together AI*

此外,团队逐步扩展了模型的上下文窗口,从较短的序列开始,逐渐增加长度。他们还引入了一种过滤方法,以避免在解决复杂提示时因超出上下文限制而惩罚模型。

迭代上下文扩展

*DeepCoder在32K上下文问题上训练,但也能解决64K任务 来源:Together AI*

研究人员解释了他们的方法:“为了在保持长上下文推理的同时实现高效训练,我们引入了超长过滤……这种技术在训练期间屏蔽截断序列,使模型不会因生成深思熟虑但超出当前上下文限制的冗长输出而受到惩罚。”训练从16K扩展到32K上下文窗口,使模型能够处理需要高达64K令牌的问题。

优化长上下文强化学习训练

使用强化学习训练大型模型,尤其是在生成长序列的任务(如编码)时,速度慢且资源密集。采样步骤中,模型为每个示例生成数千个令牌,因响应长度不同常导致显著延迟。

为此,团队开发了verl-pipeline,这是开源verl库的优化扩展,用于基于人类反馈的强化学习(RLHF)。他们的“One-Off Pipelining”创新重构了采样和模型更新,以最小化瓶颈并减少加速器的空闲时间。

One-Off Pipelining

*One-Off Pipelining*

他们的实验表明,one-off pipelining可以将编码强化学习任务的速度提高至标准方法的两倍。这种优化对于在合理时间内(32个H100上2.5周)训练DeepCoder-14B至关重要,现已作为verl-pipeline的一部分开源,供社区使用。

企业影响与开源协作

研究人员已在GitHub和Hugging Face上以宽松许可公开了DeepCoder-14B的所有训练和操作工件。他们表示:“通过完全共享我们的数据集、代码和训练配方,我们赋予社区重现我们工作的能力,并使强化学习训练对所有人可及。”

DeepCoder-14B体现了AI领域高效、开放可访问模型的增长趋势。对于企业而言,这意味着更多选择和对高级模型的更大可访问性。高性能代码生成和推理不再是大公司或愿意支付高昂API费用的组织的专属。各种规模的组织现在都可以利用这些能力,定制适合其特定需求的解决方案,并在其环境中安全部署。

这一转变有望降低AI采用的门槛,促进由开源协作驱动的更具竞争力和创新性的生态系统。

相关文章
微软研究揭示AI模型在软件调试中的局限性 微软研究揭示AI模型在软件调试中的局限性 来自OpenAI、Anthropic和其他领先AI实验室的AI模型越来越多地用于编码任务。谷歌首席执行官桑达尔·皮查伊在十月指出,AI在公司中生成25%的新代码,而Meta首席执行官马克·扎克伯格计划在社交媒体巨头内部广泛实施AI编码工具。然而,即使是表现最好的模型也难以修复经验丰富的开发者轻松处理的软件错误。微软研发部门近期开展的一项微软研究显示,像Anthropic的Claude 3.7 So
AI驱动的解决方案可显著减少全球碳排放 AI驱动的解决方案可显著减少全球碳排放 伦敦经济学院与Systemiq的最新研究显示,人工智能可在不牺牲现代便利的情况下大幅降低全球碳排放,使AI成为应对气候变化的重要盟友。研究指出,仅在三个领域应用智能AI,到2035年每年可减少32亿至54亿吨温室气体排放。与普遍担忧相反,这些减排量将远超AI运行产生的碳足迹。题为《绿色与智能:AI在气候转型中的作用》的报告将AI视为构建可持续且包容性经济的变革力量,而非仅是渐进式改进的工具。净零排
渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度 渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度 AI如何变革医疗保健:减少职业倦怠并提升患者护理挑战:临床医生超负荷与患者就医延迟全球医疗系统面临双重挑战:临床医生职业倦怠和患者就医延迟。医生们被行政任务淹没,而患者难以获得及时的医疗服务。在渥太华医院(TOH),领导者认识到这一问题,并转向AI寻求解决方案。通过整合Microsoft的DAX Copilot——一款AI驱动的临床文档助手,他们已经看到显著的改善:✔ 每次患者就诊节省7分钟✔ 临
评论 (11)
0/200
BillyLewis
BillyLewis 2025-08-06 15:01:06

Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀

RaymondWalker
RaymondWalker 2025-04-25 11:21:57

¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔

RalphGarcia
RalphGarcia 2025-04-25 00:21:21

DeepCoder-14B、めっちゃ面白そう!😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ!

SebastianAnderson
SebastianAnderson 2025-04-24 15:46:12

¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻

TerryAdams
TerryAdams 2025-04-24 15:38:28

DeepCoder-14B, c’est impressionnant ! Un modèle open-source qui rivalise avec les géants, ça donne envie de tester. 🖥️

JimmyJohnson
JimmyJohnson 2025-04-24 15:06:50

DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻

返回顶部
OR