opção
Lar
Notícias
Deepcoder alcança a alta eficiência de codificação com o modelo aberto 14B

Deepcoder alcança a alta eficiência de codificação com o modelo aberto 14B

23 de Abril de 2025
108

Apresentando DeepCoder-14B: Uma Nova Fronteira em Modelos de Codificação de Código Aberto

As equipes da Together AI e Agentica revelaram o DeepCoder-14B, um modelo de codificação revolucionário que se equipara aos melhores modelos proprietários, como o o3-mini da OpenAI. Este desenvolvimento empolgante é baseado no DeepSeek-R1 e oferece maior flexibilidade para integrar geração de código e raciocínio de alto desempenho em aplicações práticas. Além disso, os criadores deram um passo louvável ao disponibilizar completamente o modelo em código aberto, incluindo seus dados de treinamento, código, logs e otimizações de sistema. Essa iniciativa está pronta para catalisar pesquisas e acelerar avanços no campo.

Desempenho Impressionante em um Pacote Compacto

O DeepCoder-14B demonstrou resultados notáveis em vários benchmarks de codificação, como LiveCodeBench (LCB), Codeforces e HumanEval+. Os experimentos da equipe de pesquisa destacaram que o desempenho do modelo é comparável aos principais modelos, como o3-mini (baixo) e o1. "Nosso modelo demonstra forte desempenho em todos os benchmarks de codificação... comparável ao desempenho do o3-mini (baixo) e o1," declararam os pesquisadores orgulhosamente em seu post de blog.

O que é particularmente intrigante é que, apesar de ser treinado principalmente em tarefas de codificação, o DeepCoder-14B também mostrou uma melhoria notável em raciocínio matemático, alcançando uma pontuação de 73,8% no benchmark AIME 2024. Isso marca um aumento de 4,1% em relação ao seu modelo base, DeepSeek-R1-Distill-Qwen-14B, sugerindo que as habilidades de raciocínio aprimoradas por meio de aprendizado por reforço (RL) em código podem ser transferidas eficazmente para outros domínios.

Desempenho do DeepCoder-14B

*Crédito: Together AI*

Talvez a característica mais empolgante do DeepCoder-14B seja sua eficiência. Com apenas 14 bilhões de parâmetros, ele alcança alto desempenho, sendo significativamente menor e mais eficiente em recursos do que muitos outros modelos líderes.

Inovações por Trás do Sucesso do DeepCoder

Desenvolver o DeepCoder-14B envolveu superar vários desafios, particularmente no treinamento de modelos de codificação usando aprendizado por reforço. Um grande obstáculo foi a curadoria de dados de treinamento. Diferentemente de tarefas matemáticas, onde dados verificáveis e de alta qualidade são abundantes, dados de codificação podem ser escassos. A equipe do DeepCoder abordou isso implementando um pipeline rigoroso para coletar e filtrar exemplos de vários conjuntos de dados, garantindo validade, complexidade e evitando duplicações. Esse processo resultou em 24.000 problemas de alta qualidade, que formaram uma base robusta para o treinamento por RL.

A equipe também criou uma função de recompensa direta que recompensa o modelo apenas se o código gerado passar em todos os testes unitários amostrados dentro de um limite de tempo estabelecido. Essa abordagem, combinada com exemplos de treinamento de alta qualidade, garantiu que o modelo se concentrasse em resolver problemas centrais, em vez de explorar atalhos.

O algoritmo de treinamento do DeepCoder-14B é baseado na Otimização de Política Relativa de Grupo (GRPO), que foi bem-sucedida no DeepSeek-R1. No entanto, a equipe fez modificações significativas para aumentar a estabilidade e permitir durações de treinamento mais longas.

GRPO+

*GRPO+ permite que o DeepCoder-14 continue por durações mais longas sem colapsar Crédito: Together AI*

Além disso, a equipe ampliou iterativamente a janela de contexto do modelo, começando com sequências mais curtas e aumentando gradualmente. Eles também introduziram um método de filtragem para evitar penalizar o modelo por exceder os limites de contexto ao resolver prompts complexos.

Extensão iterativa de contexto

*DeepCoder foi treinado em problemas de contexto de 32K, mas também conseguiu resolver tarefas de 64K Crédito: Together AI*

Os pesquisadores explicaram sua abordagem: "Para preservar o raciocínio de contexto longo enquanto possibilitamos um treinamento eficiente, incorporamos filtragem de sequências longas... Essa técnica mascara sequências truncadas durante o treinamento para que os modelos não sejam penalizados por gerar saídas longas e bem pensadas que excedem o limite de contexto atual." O treinamento escalou de uma janela de contexto de 16K para 32K, permitindo que o modelo enfrentasse problemas que exigem até 64K tokens.

Otimizando o Treinamento de RL de Contexto Longo

Treinar modelos grandes com RL, especialmente em tarefas que geram sequências longas como codificação, é notoriamente lento e intensivo em recursos. A etapa de amostragem, onde o modelo gera milhares de tokens por exemplo, frequentemente leva a atrasos significativos devido a comprimentos de resposta variados.

Para enfrentar isso, a equipe desenvolveu o verl-pipeline, uma extensão otimizada da biblioteca de código aberto verl para aprendizado por reforço a partir de feedback humano (RLHF). Sua inovação "One-Off Pipelining" reestruturou a amostragem e as atualizações do modelo para minimizar gargalos e reduzir o tempo ocioso em aceleradores.

One-Off Pipelining

*One-Off Pipelining*

Seus experimentos demonstraram que o one-off pipelining poderia acelerar tarefas de RL de codificação em até 2x em comparação com métodos padrão. Essa otimização foi crucial para treinar o DeepCoder-14B em um prazo razoável (2,5 semanas em 32 H100s) e agora está disponível como código aberto como parte do verl-pipeline para a comunidade aproveitar.

Impacto Empresarial e Colaboração de Código Aberto

Os pesquisadores disponibilizaram todos os artefatos de treinamento e operacionais do DeepCoder-14B no GitHub e Hugging Face sob uma licença permissiva. "Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento de RL acessível a todos," declararam.

O DeepCoder-14B exemplifica a crescente tendência de modelos eficientes e acessíveis abertamente no cenário da IA. Para empresas, isso significa mais opções e maior acessibilidade a modelos avançados. A geração de código de alto desempenho e o raciocínio não são mais exclusivos de grandes corporações ou daqueles dispostos a pagar altas taxas de API. Organizações de todos os tamanhos agora podem aproveitar essas capacidades, personalizar soluções para suas necessidades específicas e implantá-las de forma segura em seus ambientes.

Essa mudança está pronta para reduzir as barreiras à adoção de IA, fomentando um ecossistema mais competitivo e inovador impulsionado pela colaboração de código aberto.

Artigo relacionado
Estudo da Microsoft Revela Limitações de Modelos de IA na Depuração de Software Estudo da Microsoft Revela Limitações de Modelos de IA na Depuração de Software Modelos de IA da OpenAI, Anthropic e outros laboratórios de IA líderes estão sendo cada vez mais utilizados para tarefas de codificação. O CEO da Google, Sundar Pichai, observou em outubro que a IA ge
Soluções Impulsionadas por IA Podem Reduzir Significativamente as Emissões Globais de Carbono Soluções Impulsionadas por IA Podem Reduzir Significativamente as Emissões Globais de Carbono Um estudo recente da London School of Economics e Systemiq revela que a inteligência artificial pode reduzir substancialmente as emissões globais de carbono sem sacrificar conveniências modernas, posi
Como o Ottawa Hospital usa captura de voz ambiente por IA para reduzir o esgotamento de médicos em 70%, alcançar 97% de satisfação do paciente Como o Ottawa Hospital usa captura de voz ambiente por IA para reduzir o esgotamento de médicos em 70%, alcançar 97% de satisfação do paciente Como a IA está Transformando a Saúde: Reduzindo o Esgotamento e Melhorando o Atendimento ao PacienteO Desafio: Sobrecarga de Clínicos e Acesso dos PacientesOs sistemas de saúde em todo o mundo enfrent
Comentários (11)
0/200
BillyLewis
BillyLewis 6 de Agosto de 2025 à6 08:01:06 WEST

Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀

RaymondWalker
RaymondWalker 25 de Abril de 2025 à57 04:21:57 WEST

¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔

RalphGarcia
RalphGarcia 24 de Abril de 2025 à21 17:21:21 WEST

DeepCoder-14B、めっちゃ面白そう!😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ!

SebastianAnderson
SebastianAnderson 24 de Abril de 2025 à12 08:46:12 WEST

¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻

TerryAdams
TerryAdams 24 de Abril de 2025 à28 08:38:28 WEST

DeepCoder-14B, c’est impressionnant ! Un modèle open-source qui rivalise avec les géants, ça donne envie de tester. 🖥️

JimmyJohnson
JimmyJohnson 24 de Abril de 2025 à50 08:06:50 WEST

DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻

De volta ao topo
OR