Deepcoder alcança a alta eficiência de codificação com o modelo aberto 14B
Apresentando DeepCoder-14B: Uma Nova Fronteira em Modelos de Codificação de Código Aberto
As equipes da Together AI e Agentica revelaram o DeepCoder-14B, um modelo de codificação revolucionário que se equipara aos melhores modelos proprietários, como o o3-mini da OpenAI. Este desenvolvimento empolgante é baseado no DeepSeek-R1 e oferece maior flexibilidade para integrar geração de código e raciocínio de alto desempenho em aplicações práticas. Além disso, os criadores deram um passo louvável ao disponibilizar completamente o modelo em código aberto, incluindo seus dados de treinamento, código, logs e otimizações de sistema. Essa iniciativa está pronta para catalisar pesquisas e acelerar avanços no campo.
Desempenho Impressionante em um Pacote Compacto
O DeepCoder-14B demonstrou resultados notáveis em vários benchmarks de codificação, como LiveCodeBench (LCB), Codeforces e HumanEval+. Os experimentos da equipe de pesquisa destacaram que o desempenho do modelo é comparável aos principais modelos, como o3-mini (baixo) e o1. "Nosso modelo demonstra forte desempenho em todos os benchmarks de codificação... comparável ao desempenho do o3-mini (baixo) e o1," declararam os pesquisadores orgulhosamente em seu post de blog.
O que é particularmente intrigante é que, apesar de ser treinado principalmente em tarefas de codificação, o DeepCoder-14B também mostrou uma melhoria notável em raciocínio matemático, alcançando uma pontuação de 73,8% no benchmark AIME 2024. Isso marca um aumento de 4,1% em relação ao seu modelo base, DeepSeek-R1-Distill-Qwen-14B, sugerindo que as habilidades de raciocínio aprimoradas por meio de aprendizado por reforço (RL) em código podem ser transferidas eficazmente para outros domínios.

*Crédito: Together AI* Talvez a característica mais empolgante do DeepCoder-14B seja sua eficiência. Com apenas 14 bilhões de parâmetros, ele alcança alto desempenho, sendo significativamente menor e mais eficiente em recursos do que muitos outros modelos líderes.
Inovações por Trás do Sucesso do DeepCoder
Desenvolver o DeepCoder-14B envolveu superar vários desafios, particularmente no treinamento de modelos de codificação usando aprendizado por reforço. Um grande obstáculo foi a curadoria de dados de treinamento. Diferentemente de tarefas matemáticas, onde dados verificáveis e de alta qualidade são abundantes, dados de codificação podem ser escassos. A equipe do DeepCoder abordou isso implementando um pipeline rigoroso para coletar e filtrar exemplos de vários conjuntos de dados, garantindo validade, complexidade e evitando duplicações. Esse processo resultou em 24.000 problemas de alta qualidade, que formaram uma base robusta para o treinamento por RL.
A equipe também criou uma função de recompensa direta que recompensa o modelo apenas se o código gerado passar em todos os testes unitários amostrados dentro de um limite de tempo estabelecido. Essa abordagem, combinada com exemplos de treinamento de alta qualidade, garantiu que o modelo se concentrasse em resolver problemas centrais, em vez de explorar atalhos.
O algoritmo de treinamento do DeepCoder-14B é baseado na Otimização de Política Relativa de Grupo (GRPO), que foi bem-sucedida no DeepSeek-R1. No entanto, a equipe fez modificações significativas para aumentar a estabilidade e permitir durações de treinamento mais longas.

*GRPO+ permite que o DeepCoder-14 continue por durações mais longas sem colapsar Crédito: Together AI* Além disso, a equipe ampliou iterativamente a janela de contexto do modelo, começando com sequências mais curtas e aumentando gradualmente. Eles também introduziram um método de filtragem para evitar penalizar o modelo por exceder os limites de contexto ao resolver prompts complexos.

*DeepCoder foi treinado em problemas de contexto de 32K, mas também conseguiu resolver tarefas de 64K Crédito: Together AI* Os pesquisadores explicaram sua abordagem: "Para preservar o raciocínio de contexto longo enquanto possibilitamos um treinamento eficiente, incorporamos filtragem de sequências longas... Essa técnica mascara sequências truncadas durante o treinamento para que os modelos não sejam penalizados por gerar saídas longas e bem pensadas que excedem o limite de contexto atual." O treinamento escalou de uma janela de contexto de 16K para 32K, permitindo que o modelo enfrentasse problemas que exigem até 64K tokens.
Otimizando o Treinamento de RL de Contexto Longo
Treinar modelos grandes com RL, especialmente em tarefas que geram sequências longas como codificação, é notoriamente lento e intensivo em recursos. A etapa de amostragem, onde o modelo gera milhares de tokens por exemplo, frequentemente leva a atrasos significativos devido a comprimentos de resposta variados.
Para enfrentar isso, a equipe desenvolveu o verl-pipeline, uma extensão otimizada da biblioteca de código aberto verl para aprendizado por reforço a partir de feedback humano (RLHF). Sua inovação "One-Off Pipelining" reestruturou a amostragem e as atualizações do modelo para minimizar gargalos e reduzir o tempo ocioso em aceleradores.

*One-Off Pipelining* Seus experimentos demonstraram que o one-off pipelining poderia acelerar tarefas de RL de codificação em até 2x em comparação com métodos padrão. Essa otimização foi crucial para treinar o DeepCoder-14B em um prazo razoável (2,5 semanas em 32 H100s) e agora está disponível como código aberto como parte do verl-pipeline para a comunidade aproveitar.
Impacto Empresarial e Colaboração de Código Aberto
Os pesquisadores disponibilizaram todos os artefatos de treinamento e operacionais do DeepCoder-14B no GitHub e Hugging Face sob uma licença permissiva. "Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento de RL acessível a todos," declararam.
O DeepCoder-14B exemplifica a crescente tendência de modelos eficientes e acessíveis abertamente no cenário da IA. Para empresas, isso significa mais opções e maior acessibilidade a modelos avançados. A geração de código de alto desempenho e o raciocínio não são mais exclusivos de grandes corporações ou daqueles dispostos a pagar altas taxas de API. Organizações de todos os tamanhos agora podem aproveitar essas capacidades, personalizar soluções para suas necessidades específicas e implantá-las de forma segura em seus ambientes.
Essa mudança está pronta para reduzir as barreiras à adoção de IA, fomentando um ecossistema mais competitivo e inovador impulsionado pela colaboração de código aberto.
Artigo relacionado
Estudo da Microsoft Revela Limitações de Modelos de IA na Depuração de Software
Modelos de IA da OpenAI, Anthropic e outros laboratórios de IA líderes estão sendo cada vez mais utilizados para tarefas de codificação. O CEO da Google, Sundar Pichai, observou em outubro que a IA ge
Soluções Impulsionadas por IA Podem Reduzir Significativamente as Emissões Globais de Carbono
Um estudo recente da London School of Economics e Systemiq revela que a inteligência artificial pode reduzir substancialmente as emissões globais de carbono sem sacrificar conveniências modernas, posi
Como o Ottawa Hospital usa captura de voz ambiente por IA para reduzir o esgotamento de médicos em 70%, alcançar 97% de satisfação do paciente
Como a IA está Transformando a Saúde: Reduzindo o Esgotamento e Melhorando o Atendimento ao PacienteO Desafio: Sobrecarga de Clínicos e Acesso dos PacientesOs sistemas de saúde em todo o mundo enfrent
Comentários (11)
0/200
BillyLewis
6 de Agosto de 2025 à6 08:01:06 WEST
Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀
0
RaymondWalker
25 de Abril de 2025 à57 04:21:57 WEST
¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔
0
RalphGarcia
24 de Abril de 2025 à21 17:21:21 WEST
DeepCoder-14B、めっちゃ面白そう!😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ!
0
SebastianAnderson
24 de Abril de 2025 à12 08:46:12 WEST
¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻
0
TerryAdams
24 de Abril de 2025 à28 08:38:28 WEST
DeepCoder-14B, c’est impressionnant ! Un modèle open-source qui rivalise avec les géants, ça donne envie de tester. 🖥️
0
JimmyJohnson
24 de Abril de 2025 à50 08:06:50 WEST
DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻
0
Apresentando DeepCoder-14B: Uma Nova Fronteira em Modelos de Codificação de Código Aberto
As equipes da Together AI e Agentica revelaram o DeepCoder-14B, um modelo de codificação revolucionário que se equipara aos melhores modelos proprietários, como o o3-mini da OpenAI. Este desenvolvimento empolgante é baseado no DeepSeek-R1 e oferece maior flexibilidade para integrar geração de código e raciocínio de alto desempenho em aplicações práticas. Além disso, os criadores deram um passo louvável ao disponibilizar completamente o modelo em código aberto, incluindo seus dados de treinamento, código, logs e otimizações de sistema. Essa iniciativa está pronta para catalisar pesquisas e acelerar avanços no campo.
Desempenho Impressionante em um Pacote Compacto
O DeepCoder-14B demonstrou resultados notáveis em vários benchmarks de codificação, como LiveCodeBench (LCB), Codeforces e HumanEval+. Os experimentos da equipe de pesquisa destacaram que o desempenho do modelo é comparável aos principais modelos, como o3-mini (baixo) e o1. "Nosso modelo demonstra forte desempenho em todos os benchmarks de codificação... comparável ao desempenho do o3-mini (baixo) e o1," declararam os pesquisadores orgulhosamente em seu post de blog.
O que é particularmente intrigante é que, apesar de ser treinado principalmente em tarefas de codificação, o DeepCoder-14B também mostrou uma melhoria notável em raciocínio matemático, alcançando uma pontuação de 73,8% no benchmark AIME 2024. Isso marca um aumento de 4,1% em relação ao seu modelo base, DeepSeek-R1-Distill-Qwen-14B, sugerindo que as habilidades de raciocínio aprimoradas por meio de aprendizado por reforço (RL) em código podem ser transferidas eficazmente para outros domínios.
Talvez a característica mais empolgante do DeepCoder-14B seja sua eficiência. Com apenas 14 bilhões de parâmetros, ele alcança alto desempenho, sendo significativamente menor e mais eficiente em recursos do que muitos outros modelos líderes.
Inovações por Trás do Sucesso do DeepCoder
Desenvolver o DeepCoder-14B envolveu superar vários desafios, particularmente no treinamento de modelos de codificação usando aprendizado por reforço. Um grande obstáculo foi a curadoria de dados de treinamento. Diferentemente de tarefas matemáticas, onde dados verificáveis e de alta qualidade são abundantes, dados de codificação podem ser escassos. A equipe do DeepCoder abordou isso implementando um pipeline rigoroso para coletar e filtrar exemplos de vários conjuntos de dados, garantindo validade, complexidade e evitando duplicações. Esse processo resultou em 24.000 problemas de alta qualidade, que formaram uma base robusta para o treinamento por RL.
A equipe também criou uma função de recompensa direta que recompensa o modelo apenas se o código gerado passar em todos os testes unitários amostrados dentro de um limite de tempo estabelecido. Essa abordagem, combinada com exemplos de treinamento de alta qualidade, garantiu que o modelo se concentrasse em resolver problemas centrais, em vez de explorar atalhos.
O algoritmo de treinamento do DeepCoder-14B é baseado na Otimização de Política Relativa de Grupo (GRPO), que foi bem-sucedida no DeepSeek-R1. No entanto, a equipe fez modificações significativas para aumentar a estabilidade e permitir durações de treinamento mais longas.
Além disso, a equipe ampliou iterativamente a janela de contexto do modelo, começando com sequências mais curtas e aumentando gradualmente. Eles também introduziram um método de filtragem para evitar penalizar o modelo por exceder os limites de contexto ao resolver prompts complexos.
Os pesquisadores explicaram sua abordagem: "Para preservar o raciocínio de contexto longo enquanto possibilitamos um treinamento eficiente, incorporamos filtragem de sequências longas... Essa técnica mascara sequências truncadas durante o treinamento para que os modelos não sejam penalizados por gerar saídas longas e bem pensadas que excedem o limite de contexto atual." O treinamento escalou de uma janela de contexto de 16K para 32K, permitindo que o modelo enfrentasse problemas que exigem até 64K tokens.
Otimizando o Treinamento de RL de Contexto Longo
Treinar modelos grandes com RL, especialmente em tarefas que geram sequências longas como codificação, é notoriamente lento e intensivo em recursos. A etapa de amostragem, onde o modelo gera milhares de tokens por exemplo, frequentemente leva a atrasos significativos devido a comprimentos de resposta variados.
Para enfrentar isso, a equipe desenvolveu o verl-pipeline, uma extensão otimizada da biblioteca de código aberto verl para aprendizado por reforço a partir de feedback humano (RLHF). Sua inovação "One-Off Pipelining" reestruturou a amostragem e as atualizações do modelo para minimizar gargalos e reduzir o tempo ocioso em aceleradores.
Seus experimentos demonstraram que o one-off pipelining poderia acelerar tarefas de RL de codificação em até 2x em comparação com métodos padrão. Essa otimização foi crucial para treinar o DeepCoder-14B em um prazo razoável (2,5 semanas em 32 H100s) e agora está disponível como código aberto como parte do verl-pipeline para a comunidade aproveitar.
Impacto Empresarial e Colaboração de Código Aberto
Os pesquisadores disponibilizaram todos os artefatos de treinamento e operacionais do DeepCoder-14B no GitHub e Hugging Face sob uma licença permissiva. "Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento de RL acessível a todos," declararam.
O DeepCoder-14B exemplifica a crescente tendência de modelos eficientes e acessíveis abertamente no cenário da IA. Para empresas, isso significa mais opções e maior acessibilidade a modelos avançados. A geração de código de alto desempenho e o raciocínio não são mais exclusivos de grandes corporações ou daqueles dispostos a pagar altas taxas de API. Organizações de todos os tamanhos agora podem aproveitar essas capacidades, personalizar soluções para suas necessidades específicas e implantá-las de forma segura em seus ambientes.
Essa mudança está pronta para reduzir as barreiras à adoção de IA, fomentando um ecossistema mais competitivo e inovador impulsionado pela colaboração de código aberto.



Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀




¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔




DeepCoder-14B、めっちゃ面白そう!😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ!




¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻




DeepCoder-14B, c’est impressionnant ! Un modèle open-source qui rivalise avec les géants, ça donne envie de tester. 🖥️




DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻












