Deepcoder alcança a alta eficiência de codificação com o modelo aberto 14B

Lar

Notícias

23 de Abril de 2025

SamuelRamirez

108

# research # LLMs

Apresentando DeepCoder-14B: Uma Nova Fronteira em Modelos de Codificação de Código Aberto

As equipes da Together AI e Agentica revelaram o DeepCoder-14B, um modelo de codificação revolucionário que se equipara aos melhores modelos proprietários, como o o3-mini da OpenAI. Este desenvolvimento empolgante é baseado no DeepSeek-R1 e oferece maior flexibilidade para integrar geração de código e raciocínio de alto desempenho em aplicações práticas. Além disso, os criadores deram um passo louvável ao disponibilizar completamente o modelo em código aberto, incluindo seus dados de treinamento, código, logs e otimizações de sistema. Essa iniciativa está pronta para catalisar pesquisas e acelerar avanços no campo.

Desempenho Impressionante em um Pacote Compacto

O DeepCoder-14B demonstrou resultados notáveis em vários benchmarks de codificação, como LiveCodeBench (LCB), Codeforces e HumanEval+. Os experimentos da equipe de pesquisa destacaram que o desempenho do modelo é comparável aos principais modelos, como o3-mini (baixo) e o1. "Nosso modelo demonstra forte desempenho em todos os benchmarks de codificação... comparável ao desempenho do o3-mini (baixo) e o1," declararam os pesquisadores orgulhosamente em seu post de blog.

O que é particularmente intrigante é que, apesar de ser treinado principalmente em tarefas de codificação, o DeepCoder-14B também mostrou uma melhoria notável em raciocínio matemático, alcançando uma pontuação de 73,8% no benchmark AIME 2024. Isso marca um aumento de 4,1% em relação ao seu modelo base, DeepSeek-R1-Distill-Qwen-14B, sugerindo que as habilidades de raciocínio aprimoradas por meio de aprendizado por reforço (RL) em código podem ser transferidas eficazmente para outros domínios.

Desempenho do DeepCoder-14B

*Crédito: Together AI*

Talvez a característica mais empolgante do DeepCoder-14B seja sua eficiência. Com apenas 14 bilhões de parâmetros, ele alcança alto desempenho, sendo significativamente menor e mais eficiente em recursos do que muitos outros modelos líderes.

Inovações por Trás do Sucesso do DeepCoder

Desenvolver o DeepCoder-14B envolveu superar vários desafios, particularmente no treinamento de modelos de codificação usando aprendizado por reforço. Um grande obstáculo foi a curadoria de dados de treinamento. Diferentemente de tarefas matemáticas, onde dados verificáveis e de alta qualidade são abundantes, dados de codificação podem ser escassos. A equipe do DeepCoder abordou isso implementando um pipeline rigoroso para coletar e filtrar exemplos de vários conjuntos de dados, garantindo validade, complexidade e evitando duplicações. Esse processo resultou em 24.000 problemas de alta qualidade, que formaram uma base robusta para o treinamento por RL.

A equipe também criou uma função de recompensa direta que recompensa o modelo apenas se o código gerado passar em todos os testes unitários amostrados dentro de um limite de tempo estabelecido. Essa abordagem, combinada com exemplos de treinamento de alta qualidade, garantiu que o modelo se concentrasse em resolver problemas centrais, em vez de explorar atalhos.

O algoritmo de treinamento do DeepCoder-14B é baseado na Otimização de Política Relativa de Grupo (GRPO), que foi bem-sucedida no DeepSeek-R1. No entanto, a equipe fez modificações significativas para aumentar a estabilidade e permitir durações de treinamento mais longas.

GRPO+

*GRPO+ permite que o DeepCoder-14 continue por durações mais longas sem colapsar Crédito: Together AI*

Além disso, a equipe ampliou iterativamente a janela de contexto do modelo, começando com sequências mais curtas e aumentando gradualmente. Eles também introduziram um método de filtragem para evitar penalizar o modelo por exceder os limites de contexto ao resolver prompts complexos.

Extensão iterativa de contexto

*DeepCoder foi treinado em problemas de contexto de 32K, mas também conseguiu resolver tarefas de 64K Crédito: Together AI*

Os pesquisadores explicaram sua abordagem: "Para preservar o raciocínio de contexto longo enquanto possibilitamos um treinamento eficiente, incorporamos filtragem de sequências longas... Essa técnica mascara sequências truncadas durante o treinamento para que os modelos não sejam penalizados por gerar saídas longas e bem pensadas que excedem o limite de contexto atual." O treinamento escalou de uma janela de contexto de 16K para 32K, permitindo que o modelo enfrentasse problemas que exigem até 64K tokens.

Otimizando o Treinamento de RL de Contexto Longo

Treinar modelos grandes com RL, especialmente em tarefas que geram sequências longas como codificação, é notoriamente lento e intensivo em recursos. A etapa de amostragem, onde o modelo gera milhares de tokens por exemplo, frequentemente leva a atrasos significativos devido a comprimentos de resposta variados.

Para enfrentar isso, a equipe desenvolveu o verl-pipeline, uma extensão otimizada da biblioteca de código aberto verl para aprendizado por reforço a partir de feedback humano (RLHF). Sua inovação "One-Off Pipelining" reestruturou a amostragem e as atualizações do modelo para minimizar gargalos e reduzir o tempo ocioso em aceleradores.

One-Off Pipelining

*One-Off Pipelining*

Seus experimentos demonstraram que o one-off pipelining poderia acelerar tarefas de RL de codificação em até 2x em comparação com métodos padrão. Essa otimização foi crucial para treinar o DeepCoder-14B em um prazo razoável (2,5 semanas em 32 H100s) e agora está disponível como código aberto como parte do verl-pipeline para a comunidade aproveitar.

Impacto Empresarial e Colaboração de Código Aberto

Os pesquisadores disponibilizaram todos os artefatos de treinamento e operacionais do DeepCoder-14B no GitHub e Hugging Face sob uma licença permissiva. "Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento de RL acessível a todos," declararam.

O DeepCoder-14B exemplifica a crescente tendência de modelos eficientes e acessíveis abertamente no cenário da IA. Para empresas, isso significa mais opções e maior acessibilidade a modelos avançados. A geração de código de alto desempenho e o raciocínio não são mais exclusivos de grandes corporações ou daqueles dispostos a pagar altas taxas de API. Organizações de todos os tamanhos agora podem aproveitar essas capacidades, personalizar soluções para suas necessidades específicas e implantá-las de forma segura em seus ambientes.

Essa mudança está pronta para reduzir as barreiras à adoção de IA, fomentando um ecossistema mais competitivo e inovador impulsionado pela colaboração de código aberto.

101

Artigo relacionado

Estudo da Microsoft Revela Limitações de Modelos de IA na Depuração de Software Modelos de IA da OpenAI, Anthropic e outros laboratórios de IA líderes estão sendo cada vez mais utilizados para tarefas de codificação. O CEO da Google, Sundar Pichai, observou em outubro que a IA ge

Soluções Impulsionadas por IA Podem Reduzir Significativamente as Emissões Globais de Carbono Um estudo recente da London School of Economics e Systemiq revela que a inteligência artificial pode reduzir substancialmente as emissões globais de carbono sem sacrificar conveniências modernas, posi

Como o Ottawa Hospital usa captura de voz ambiente por IA para reduzir o esgotamento de médicos em 70%, alcançar 97% de satisfação do paciente Como a IA está Transformando a Saúde: Reduzindo o Esgotamento e Melhorando o Atendimento ao PacienteO Desafio: Sobrecarga de Clínicos e Acesso dos PacientesOs sistemas de saúde em todo o mundo enfrent

Comentários (11)

0/200

Enviar

BillyLewis

6 de Agosto de 2025 à6 08:01:06 WEST

Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀

RaymondWalker

25 de Abril de 2025 à57 04:21:57 WEST

¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔

RalphGarcia

24 de Abril de 2025 à21 17:21:21 WEST

DeepCoder-14B、めっちゃ面白そう！😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ！

SebastianAnderson

24 de Abril de 2025 à12 08:46:12 WEST

¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻

TerryAdams

24 de Abril de 2025 à28 08:38:28 WEST

DeepCoder-14B, c’est impressionnant ! Un modèle open-source qui rivalise avec les géants, ça donne envie de tester. 🖥️

JimmyJohnson

24 de Abril de 2025 à50 08:06:50 WEST

DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia Dublagem AI: Guia Definitivo para Criação de Voz Realista Ai computando para consumir poder de múltiplos NYCs até 2026, diz o fundador Clone de Voz por IA: Guia definitivo para dominar a conversão de voz Experimente as palavras cruzadas de E/S da IA: uma reviravolta moderna no jogo clássico de palavras O CEO da NVIDIA esclarece conceitos errôneos sobre o impacto do mercado de Deepseek

Mais

Apresentou