DeepCoder通过14B开放模型实现高编码效率
2025年04月23日
SamuelRamirez
0
介绍DeepCoder-14b:开源编码模型中的新边界
AI和Agentica的团队一起揭开了DeepCoder-14B,这是一种开创性的编码模型,侧面肩膀与顶级专有车型(如Openai's O3 Mini)肩并肩。这一令人兴奋的发展是建立在DeepSeek-R1的基础上的,并为将高性能代码和推理集成到实际应用中提供了增强的灵活性。更重要的是,创建者通过完全开放式模型(包括其培训数据,代码,日志和系统优化)采取了值得称赞的一步。这一举动旨在促进研究并加速该领域的进步。
紧凑的包装中令人印象深刻的表现
DeepCoder-14b在各种编码基准(例如LiveCodebench(LCB),CodeForces和HumaneVal+)上显示出了显着的结果。研究团队的实验强调,该模型的性能与O3-Mini(Low)和O1等领先模型相当。研究人员在博客文章中自豪地说:“我们的模型在所有编码基准中都表现出强大的性能……与O3-Mini(Low)和O1的性能相当。”
特别有趣的是,尽管主要接受了编码任务的训练,但DeepCoder-14b也显示出数学推理的显着改善,在AIME 2024基准中取得了73.8%的得分。这比其基本模型DeepSeek-R1-Distill-Qwen-14B增长了4.1%,这表明通过强化学习(RL)在代码上磨练的推理技能可以有效地转移到其他领域。

*信用:一起AI*
DeepCoder-14b最令人兴奋的功能也许是其效率。仅140亿个参数,它可以达到高性能,同时比许多其他领先的模型要小得多,而且资源效率更高。
Deepcoder成功背后的创新
开发DeepCoder-14B涉及克服几个挑战,尤其是在使用增强学习的培训编码模型中。一个主要障碍是培训数据的策划。与数学任务不同,高质量的可验证数据丰富,编码数据可能会稀缺。 DeepCoder团队通过实施严格的管道来解决此问题,以收集和过滤各种数据集的示例,从而确保有效性,复杂性和避免重复。该过程导致了24,000个高质量问题,为RL培训构成了强大的基础。
该团队还设计了一个直接的奖励功能,只有在生成的代码成功地通过设定的时间限制将所有采样的单元测试通过所有采样的单位测试时,该奖励功能只会奖励模型。这种方法加上高质量的培训示例,确保了该模型的重点是解决核心问题而不是利用快捷方式。
DeepCoder-14b的培训算法基于小组相对政策优化(GRPO),该算法在DeepSeek-R1中取得了成功。但是,团队进行了重大修改以提高稳定性并实现更长的训练时间。

*GRPO+使DeepCoder-14可以继续持续更长的时间而不会崩溃:AI*
此外,团队迭代地扩展了模型的上下文窗口,从较短的序列开始,然后逐渐增加它们。他们还引入了一种过滤方法,以避免在求解复杂提示时超出上下文限制的模型。

*DeepCoder接受了32K上下文问题的培训,但也能够解决64K任务信用:一起AI*
研究人员解释了他们的方法:“为了保留长篇文化推理,同时进行了有效的培训,我们纳入了长时间的过滤……这项技术在训练过程中掩盖了截断的序列,因此模型不会因产生周到但长期的超过当前上下文限制而受到惩罚。”培训从16K到32K上下文窗口缩放,使该模型能够解决需要多达64K令牌的问题。
优化长篇小说RL培训
使用RL培训大型模型,尤其是在产生长序列(例如编码)的任务上,众所周知,它是缓慢且资源密集的。该模型每个示例产生数千个令牌的采样步骤通常会由于响应长度的不同而导致显着延迟。
为了解决这个问题,该团队开发了Verl-Pipeline,这是开源VERL库的优化扩展,用于从人类反馈(RLHF)中学习。他们的“一次性管道”创新重组了采样和模型更新,以最大程度地减少瓶颈并减少加速器上的空闲时间。

*一次性管道*
他们的实验表明,与标准方法相比,一次性管道上的管道可以加快编码RL任务的加快2倍。这种优化对于在合理的时间范围内训练DeepCoder-14b至关重要(32 H100时为2.5周),现在是开源的,作为Verl-Pipeline的一部分,供社区提供利用。
企业影响和开源合作
研究人员已经为Github上的DeepCoder-14B提供了所有培训和操作工件,并在宽松的许可下拥抱了脸。他们说:“通过完全共享我们的数据集,代码和培训食谱,我们使社区有能力重现我们的工作,并使所有人都可以使用RL培训。”
DeepCoder-14b例证了AI景观中有效,公开访问模型的增长趋势。对于企业而言,这意味着对高级模型的更多选项和更大的可访问性。高性能代码的生成和推理不再是大型公司或愿意支付大量API费用的人。各种规模的组织现在可以利用这些功能,为其特定需求量身定制解决方案,并在其环境中安全部署。
这种转变有望降低AI采用的障碍,从而促进了由开源协作驱动的更具竞争力和创新的生态系统。
相关文章
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial
Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros
O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina
Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
评论 (0)
0/200






介绍DeepCoder-14b:开源编码模型中的新边界
AI和Agentica的团队一起揭开了DeepCoder-14B,这是一种开创性的编码模型,侧面肩膀与顶级专有车型(如Openai's O3 Mini)肩并肩。这一令人兴奋的发展是建立在DeepSeek-R1的基础上的,并为将高性能代码和推理集成到实际应用中提供了增强的灵活性。更重要的是,创建者通过完全开放式模型(包括其培训数据,代码,日志和系统优化)采取了值得称赞的一步。这一举动旨在促进研究并加速该领域的进步。
紧凑的包装中令人印象深刻的表现
DeepCoder-14b在各种编码基准(例如LiveCodebench(LCB),CodeForces和HumaneVal+)上显示出了显着的结果。研究团队的实验强调,该模型的性能与O3-Mini(Low)和O1等领先模型相当。研究人员在博客文章中自豪地说:“我们的模型在所有编码基准中都表现出强大的性能……与O3-Mini(Low)和O1的性能相当。”
特别有趣的是,尽管主要接受了编码任务的训练,但DeepCoder-14b也显示出数学推理的显着改善,在AIME 2024基准中取得了73.8%的得分。这比其基本模型DeepSeek-R1-Distill-Qwen-14B增长了4.1%,这表明通过强化学习(RL)在代码上磨练的推理技能可以有效地转移到其他领域。
DeepCoder-14b最令人兴奋的功能也许是其效率。仅140亿个参数,它可以达到高性能,同时比许多其他领先的模型要小得多,而且资源效率更高。
Deepcoder成功背后的创新
开发DeepCoder-14B涉及克服几个挑战,尤其是在使用增强学习的培训编码模型中。一个主要障碍是培训数据的策划。与数学任务不同,高质量的可验证数据丰富,编码数据可能会稀缺。 DeepCoder团队通过实施严格的管道来解决此问题,以收集和过滤各种数据集的示例,从而确保有效性,复杂性和避免重复。该过程导致了24,000个高质量问题,为RL培训构成了强大的基础。
该团队还设计了一个直接的奖励功能,只有在生成的代码成功地通过设定的时间限制将所有采样的单元测试通过所有采样的单位测试时,该奖励功能只会奖励模型。这种方法加上高质量的培训示例,确保了该模型的重点是解决核心问题而不是利用快捷方式。
DeepCoder-14b的培训算法基于小组相对政策优化(GRPO),该算法在DeepSeek-R1中取得了成功。但是,团队进行了重大修改以提高稳定性并实现更长的训练时间。
此外,团队迭代地扩展了模型的上下文窗口,从较短的序列开始,然后逐渐增加它们。他们还引入了一种过滤方法,以避免在求解复杂提示时超出上下文限制的模型。
研究人员解释了他们的方法:“为了保留长篇文化推理,同时进行了有效的培训,我们纳入了长时间的过滤……这项技术在训练过程中掩盖了截断的序列,因此模型不会因产生周到但长期的超过当前上下文限制而受到惩罚。”培训从16K到32K上下文窗口缩放,使该模型能够解决需要多达64K令牌的问题。
优化长篇小说RL培训
使用RL培训大型模型,尤其是在产生长序列(例如编码)的任务上,众所周知,它是缓慢且资源密集的。该模型每个示例产生数千个令牌的采样步骤通常会由于响应长度的不同而导致显着延迟。
为了解决这个问题,该团队开发了Verl-Pipeline,这是开源VERL库的优化扩展,用于从人类反馈(RLHF)中学习。他们的“一次性管道”创新重组了采样和模型更新,以最大程度地减少瓶颈并减少加速器上的空闲时间。
他们的实验表明,与标准方法相比,一次性管道上的管道可以加快编码RL任务的加快2倍。这种优化对于在合理的时间范围内训练DeepCoder-14b至关重要(32 H100时为2.5周),现在是开源的,作为Verl-Pipeline的一部分,供社区提供利用。
企业影响和开源合作
研究人员已经为Github上的DeepCoder-14B提供了所有培训和操作工件,并在宽松的许可下拥抱了脸。他们说:“通过完全共享我们的数据集,代码和培训食谱,我们使社区有能力重现我们的工作,并使所有人都可以使用RL培训。”
DeepCoder-14b例证了AI景观中有效,公开访问模型的增长趋势。对于企业而言,这意味着对高级模型的更多选项和更大的可访问性。高性能代码的生成和推理不再是大型公司或愿意支付大量API费用的人。各种规模的组织现在可以利用这些功能,为其特定需求量身定制解决方案,并在其环境中安全部署。
这种转变有望降低AI采用的障碍,从而促进了由开源协作驱动的更具竞争力和创新的生态系统。


恢复在线数据隐私的5个简单步骤 - 从今天开始









