DeepCoder通过14B开放模型实现高编码效率
介绍DeepCoder-14B:开源编码模型的新前沿
Together AI和Agentica的团队推出了DeepCoder-14B,这是一个突破性的编码模型,与OpenAI的o3-mini等顶级专有模型不相上下。这一激动人心的发展基于DeepSeek-R1,提供了更高的灵活性,用于将高性能代码生成和推理集成到实际应用中。更令人称赞的是,创建者完全开源了该模型,包括其训练数据、代码、日志和系统优化。这一举措将催化研究并加速该领域的进步。
小巧包装中的出色性能
DeepCoder-14B在LiveCodeBench (LCB)、Codeforces和HumanEval+等多种编码基准测试中表现出色。研究团队的实验表明,该模型的性能与o3-mini(低配版)和o1等领先模型相当。研究人员在博客文章中自豪地表示:“我们的模型在所有编码基准测试中表现出色……与o3-mini(低配版)和o1的性能相当。”
特别引人注目的是,尽管主要针对编码任务进行训练,DeepCoder-14B在数学推理方面也显示出显著提升,在AIME 2024基准测试中取得了73.8%的得分。这比其基础模型DeepSeek-R1-Distill-Qwen-14B提高了4.1%,表明通过强化学习(RL)在代码上培养的推理技能可以有效转移到其他领域。

*来源:Together AI* DeepCoder-14B最激动人心的特点或许是其效率。仅拥有140亿个参数,它实现了高性能,同时比许多其他领先模型更小巧、更节省资源。
DeepCoder成功的创新
开发DeepCoder-14B涉及克服多个挑战,特别是在使用强化学习训练编码模型时。一个主要障碍是训练数据的筛选。与数学任务不同,高品质、可验证的编码数据较为稀缺。DeepCoder团队通过实施严格的流程,从各种数据集中收集和过滤示例,确保有效性、复杂性和避免重复,解决了这一问题。这一过程产生了24,000个高质量问题,为强化学习训练奠定了坚实基础。
团队还设计了一个简单的奖励函数,仅在生成代码成功通过所有采样单元测试并在设定时间限制内完成时奖励模型。这种方法结合高质量训练示例,确保模型专注于解决核心问题,而不是利用捷径。
DeepCoder-14B的训练算法基于Group Relative Policy Optimization (GRPO),这在DeepSeek-R1中已取得成功。然而,团队进行了重大修改,以增强稳定性和支持更长时间的训练。

*GRPO+使DeepCoder-14能够持续更长时间而不崩溃 来源:Together AI* 此外,团队逐步扩展了模型的上下文窗口,从较短的序列开始,逐渐增加长度。他们还引入了一种过滤方法,以避免在解决复杂提示时因超出上下文限制而惩罚模型。

*DeepCoder在32K上下文问题上训练,但也能解决64K任务 来源:Together AI* 研究人员解释了他们的方法:“为了在保持长上下文推理的同时实现高效训练,我们引入了超长过滤……这种技术在训练期间屏蔽截断序列,使模型不会因生成深思熟虑但超出当前上下文限制的冗长输出而受到惩罚。”训练从16K扩展到32K上下文窗口,使模型能够处理需要高达64K令牌的问题。
优化长上下文强化学习训练
使用强化学习训练大型模型,尤其是在生成长序列的任务(如编码)时,速度慢且资源密集。采样步骤中,模型为每个示例生成数千个令牌,因响应长度不同常导致显著延迟。
为此,团队开发了verl-pipeline,这是开源verl库的优化扩展,用于基于人类反馈的强化学习(RLHF)。他们的“One-Off Pipelining”创新重构了采样和模型更新,以最小化瓶颈并减少加速器的空闲时间。

*One-Off Pipelining* 他们的实验表明,one-off pipelining可以将编码强化学习任务的速度提高至标准方法的两倍。这种优化对于在合理时间内(32个H100上2.5周)训练DeepCoder-14B至关重要,现已作为verl-pipeline的一部分开源,供社区使用。
企业影响与开源协作
研究人员已在GitHub和Hugging Face上以宽松许可公开了DeepCoder-14B的所有训练和操作工件。他们表示:“通过完全共享我们的数据集、代码和训练配方,我们赋予社区重现我们工作的能力,并使强化学习训练对所有人可及。”
DeepCoder-14B体现了AI领域高效、开放可访问模型的增长趋势。对于企业而言,这意味着更多选择和对高级模型的更大可访问性。高性能代码生成和推理不再是大公司或愿意支付高昂API费用的组织的专属。各种规模的组织现在都可以利用这些能力,定制适合其特定需求的解决方案,并在其环境中安全部署。
这一转变有望降低AI采用的门槛,促进由开源协作驱动的更具竞争力和创新性的生态系统。
相关文章
谷歌云为科学研究和发现的突破提供动力
数字革命正在通过前所未有的计算能力改变科学方法。现在,尖端技术增强了理论框架和实验室实验,通过复杂的模拟和大数据分析推动了各学科的突破。通过对基础研究、可扩展云架构和人工智能开发的战略性投资,我们建立了一个加速科学进步的生态系统。我们在制药研究、气候建模和纳米技术等领域做出了突破性创新,并辅之以世界一流的计算基础设施、云原生软件解决方案和新一代生成式人工智能平台。谷歌 DeepMind 的研究实力
人工智能加速科学研究,产生更大的现实影响
谷歌一直将人工智能作为科学进步的催化剂,如今的发现速度已经达到了非凡的新水平。这种加速改变了研究周期,以前所未有的速度将基础性突破转化为实际应用。人工智能不仅不会取代人类的创造力,反而会成为人类潜能的强大放大器。我们的研究人员利用人工智能解决基础科学问题,拓展我们的集体知识,同时为全球挑战开发创新解决方案。通过与学术机构和行业合作伙伴的密切合作,我们致力于通过与更广泛的研究社区共享工具和资源,使这
阿里巴巴的 "零搜索 "人工智能通过自主学习将培训成本降低 88
阿里巴巴的 ZeroSearch:改变人工智能训练效率的游戏规则阿里巴巴集团的研究人员开创了一种突破性的方法,有可能彻底改变人工智能系统学习信息检索的方式,完全绕过成本高昂的商业搜索引擎 API。他们的 "零搜索"(ZeroSearch)技术能让大型语言模型在训练阶段通过模拟环境培养复杂的搜索能力,而非传统的搜索引擎交互。"研究人员在他们最新发表的 arXiv 论文中解释说:"传统的强化学习需要大
评论 (13)
0/200
FrankRodriguez
2025-08-26 13:25:25
Wow, DeepCoder-14B sounds like a game-changer! I'm stoked to see open-source models catching up to the big players. Can't wait to try it out for my side projects—hope it’s as fast as they claim! 🚀
0
GregoryBaker
2025-08-11 14:20:39
DeepCoder-14B sounds like a game-changer! Can't wait to try it out and see how it stacks up against the big players. 🚀
0
BillyLewis
2025-08-06 15:01:06
Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀
0
RaymondWalker
2025-04-25 11:21:57
¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔
0
SebastianAnderson
2025-04-24 15:46:12
¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻
0
介绍DeepCoder-14B:开源编码模型的新前沿
Together AI和Agentica的团队推出了DeepCoder-14B,这是一个突破性的编码模型,与OpenAI的o3-mini等顶级专有模型不相上下。这一激动人心的发展基于DeepSeek-R1,提供了更高的灵活性,用于将高性能代码生成和推理集成到实际应用中。更令人称赞的是,创建者完全开源了该模型,包括其训练数据、代码、日志和系统优化。这一举措将催化研究并加速该领域的进步。
小巧包装中的出色性能
DeepCoder-14B在LiveCodeBench (LCB)、Codeforces和HumanEval+等多种编码基准测试中表现出色。研究团队的实验表明,该模型的性能与o3-mini(低配版)和o1等领先模型相当。研究人员在博客文章中自豪地表示:“我们的模型在所有编码基准测试中表现出色……与o3-mini(低配版)和o1的性能相当。”
特别引人注目的是,尽管主要针对编码任务进行训练,DeepCoder-14B在数学推理方面也显示出显著提升,在AIME 2024基准测试中取得了73.8%的得分。这比其基础模型DeepSeek-R1-Distill-Qwen-14B提高了4.1%,表明通过强化学习(RL)在代码上培养的推理技能可以有效转移到其他领域。
DeepCoder-14B最激动人心的特点或许是其效率。仅拥有140亿个参数,它实现了高性能,同时比许多其他领先模型更小巧、更节省资源。
DeepCoder成功的创新
开发DeepCoder-14B涉及克服多个挑战,特别是在使用强化学习训练编码模型时。一个主要障碍是训练数据的筛选。与数学任务不同,高品质、可验证的编码数据较为稀缺。DeepCoder团队通过实施严格的流程,从各种数据集中收集和过滤示例,确保有效性、复杂性和避免重复,解决了这一问题。这一过程产生了24,000个高质量问题,为强化学习训练奠定了坚实基础。
团队还设计了一个简单的奖励函数,仅在生成代码成功通过所有采样单元测试并在设定时间限制内完成时奖励模型。这种方法结合高质量训练示例,确保模型专注于解决核心问题,而不是利用捷径。
DeepCoder-14B的训练算法基于Group Relative Policy Optimization (GRPO),这在DeepSeek-R1中已取得成功。然而,团队进行了重大修改,以增强稳定性和支持更长时间的训练。
此外,团队逐步扩展了模型的上下文窗口,从较短的序列开始,逐渐增加长度。他们还引入了一种过滤方法,以避免在解决复杂提示时因超出上下文限制而惩罚模型。
研究人员解释了他们的方法:“为了在保持长上下文推理的同时实现高效训练,我们引入了超长过滤……这种技术在训练期间屏蔽截断序列,使模型不会因生成深思熟虑但超出当前上下文限制的冗长输出而受到惩罚。”训练从16K扩展到32K上下文窗口,使模型能够处理需要高达64K令牌的问题。
优化长上下文强化学习训练
使用强化学习训练大型模型,尤其是在生成长序列的任务(如编码)时,速度慢且资源密集。采样步骤中,模型为每个示例生成数千个令牌,因响应长度不同常导致显著延迟。
为此,团队开发了verl-pipeline,这是开源verl库的优化扩展,用于基于人类反馈的强化学习(RLHF)。他们的“One-Off Pipelining”创新重构了采样和模型更新,以最小化瓶颈并减少加速器的空闲时间。
他们的实验表明,one-off pipelining可以将编码强化学习任务的速度提高至标准方法的两倍。这种优化对于在合理时间内(32个H100上2.5周)训练DeepCoder-14B至关重要,现已作为verl-pipeline的一部分开源,供社区使用。
企业影响与开源协作
研究人员已在GitHub和Hugging Face上以宽松许可公开了DeepCoder-14B的所有训练和操作工件。他们表示:“通过完全共享我们的数据集、代码和训练配方,我们赋予社区重现我们工作的能力,并使强化学习训练对所有人可及。”
DeepCoder-14B体现了AI领域高效、开放可访问模型的增长趋势。对于企业而言,这意味着更多选择和对高级模型的更大可访问性。高性能代码生成和推理不再是大公司或愿意支付高昂API费用的组织的专属。各种规模的组织现在都可以利用这些能力,定制适合其特定需求的解决方案,并在其环境中安全部署。
这一转变有望降低AI采用的门槛,促进由开源协作驱动的更具竞争力和创新性的生态系统。




Wow, DeepCoder-14B sounds like a game-changer! I'm stoked to see open-source models catching up to the big players. Can't wait to try it out for my side projects—hope it’s as fast as they claim! 🚀




DeepCoder-14B sounds like a game-changer! Can't wait to try it out and see how it stacks up against the big players. 🚀




Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀




¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔




¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻












