Lar Notícias Deepcoder alcança a alta eficiência de codificação com o modelo aberto 14B

Deepcoder alcança a alta eficiência de codificação com o modelo aberto 14B

23 de Abril de 2025
SamuelRamirez
0

Apresentando DeepCoder-14b: uma nova fronteira em modelos de codificação de código aberto

As equipes da AI e da Agentica divulgaram o DeepCoder-14b, um modelo de codificação inovador que fica com modelos proprietários de ombro a ombro com modelos proprietários de primeira linha como o OpenAi da O3-mini. Esse desenvolvimento emocionante é construído com base na base do Deepseek-R1 e oferece flexibilidade aprimorada para integrar a geração de código de alto desempenho e o raciocínio em aplicações práticas. Além disso, os criadores deram uma etapa louvável, de origem totalmente aberta do modelo, incluindo seus dados de treinamento, código, logs e otimizações do sistema. Este movimento está definido para catalisar a pesquisa e acelerar os avanços no campo.

Desempenho impressionante em um pacote compacto

O DeepCoder-14b mostrou resultados notáveis ​​em vários benchmarks de codificação, como LivecodeBench (LCB), Codeforces e Humaneval+. Os experimentos da equipe de pesquisa destacaram que o desempenho do modelo está em pé de igualdade com os principais modelos como O3-mini (Low) e O1. "Nosso modelo demonstra um forte desempenho em todos os benchmarks de codificação ... comparável ao desempenho de O3-mini (Low) e O1", afirmaram os pesquisadores orgulhosamente em sua postagem no blog.

O que é particularmente intrigante é que, apesar de ter sido treinado principalmente em tarefas de codificação, o DeepCoder-14b também mostrou uma melhoria notável no raciocínio matemático, alcançando uma pontuação de 73,8% na referência Aime 2024. Isso marca um aumento de 4,1% em relação ao seu modelo básico, Deepseek-R1-Distill-Qwen-14b, sugerindo que as habilidades de raciocínio aprimoradas pelo aprendizado de reforço (RL) no código podem efetivamente transferir para outros domínios.

Deepcoder-14b Performance

*Crédito: juntos ai*

Talvez a característica mais emocionante do DeepCoder-14b seja sua eficiência. Com apenas 14 bilhões de parâmetros, ele atinge o alto desempenho, sendo significativamente menor e mais eficiente em termos de recursos do que muitos outros modelos principais.

Inovações por trás do sucesso do DeepCoder

O desenvolvimento do DeepCoder-14B envolveu a superação de vários desafios, principalmente no treinamento de modelos de codificação usando o aprendizado de reforço. Um grande obstáculo foi a curadoria dos dados de treinamento. Ao contrário das tarefas matemáticas, onde dados verificáveis ​​de alta qualidade são abundantes, os dados de codificação podem ser escassos. A equipe Deepcoder abordou isso implementando um pipeline rigoroso para reunir e filtrar exemplos de vários conjuntos de dados, garantindo validade, complexidade e evitar duplicação. Esse processo resultou em 24.000 problemas de alta qualidade, que formaram uma base robusta para o treinamento da RL.

A equipe também desenvolveu uma função de recompensa direta que apenas recompensa o modelo se o código gerado passar com sucesso em todos os testes de unidade amostrados dentro de um prazo definido. Essa abordagem, juntamente com exemplos de treinamento de alta qualidade, garantiu que o modelo se concentrasse na solução de problemas principais, em vez de explorar atalhos.

O algoritmo de treinamento do DeepCoder-14B é baseado na otimização relativa de políticas relativas do grupo (GRPO), que foi bem-sucedida no Deepseek-R1. No entanto, a equipe fez modificações significativas para aumentar a estabilidade e permitir durações mais longas de treinamento.

GRPO+

*GRPO+ permite que o DeepCoder-14 continue por durações mais longas sem desmoronar o crédito: juntos ai*

Além disso, a equipe estendeu iterativamente a janela de contexto do modelo, começando com sequências mais curtas e aumentando gradualmente. Eles também introduziram um método de filtragem para evitar a penalização do modelo para exceder os limites de contexto ao resolver instruções complexas.

Extensão de contexto iterativa

*Deepcoder foi treinado em problemas de contexto de 32k, mas também foi capaz de resolver 64 mil tarefas de crédito: juntos ai*

Os pesquisadores explicaram sua abordagem: "Para preservar o raciocínio de longa duração e permitir treinamento eficiente, incorporamos a filtragem sobrecarregada ... Essa técnica mascara sequências truncadas durante o treinamento, para que os modelos não sejam penalizados para gerar resultados pensativos, mas longos, que excedem o limite de contexto atual". O treinamento escalou de uma janela de contexto de 16k para 32k, permitindo que o modelo resolva problemas que exigem até 64 mil tokens.

Otimizando o treinamento de RL de longo contexto

Treinar grandes modelos com RL, especialmente em tarefas que geram longas seqüências como codificação, são notoriamente lentas e intensivas em recursos. A etapa de amostragem, onde o modelo gera milhares de tokens por exemplo, geralmente leva a atrasos significativos devido a vários comprimentos de resposta.

Para enfrentar isso, a equipe desenvolveu a Verl-PiPeline, uma extensão otimizada da biblioteca verl de código aberto para aprender a reforço com o feedback humano (RLHF). Sua inovação "única de pipelining" reestruturou as atualizações de amostragem e modelo para minimizar gargalos e reduzir o tempo ocioso nos aceleradores.

Pipelining único

*Pipelining único*

Seus experimentos demonstraram que a pipelinização única poderia acelerar as tarefas de codificação de RL em até 2x em comparação com os métodos padrão. Essa otimização foi crucial no treinamento de Deepcoder-14b dentro de um prazo razoável (2,5 semanas em 32 H100s) e agora é de origem aberta como parte da linha verl-pipela para a comunidade alavancar.

Impacto corporativo e colaboração de código aberto

Os pesquisadores disponibilizaram todos os artefatos operacionais e de treinamento para o DeepCoder-14b, no Github e abraçando o rosto sob uma licença permissiva. "Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento da RL acessível a todos", afirmou eles.

Deepcoder-14b exemplifica a tendência crescente de modelos eficientes e abertamente acessíveis na paisagem da IA. Para empresas, isso significa mais opções e maior acessibilidade a modelos avançados. A geração e o raciocínio do código de alto desempenho não são mais exclusivos de grandes empresas ou daquelas dispostas a pagar taxas de API. As organizações de todos os tamanhos agora podem aproveitar essas capacidades, adaptar as soluções para suas necessidades específicas e implantá -las com segurança em seus ambientes.

Essa mudança está pronta para diminuir as barreiras à adoção da IA, promovendo um ecossistema mais competitivo e inovador impulsionado pela colaboração de código aberto.

Artigo relacionado
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros O AIS de Deepseek descobre desejos humanos verdadeiros O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA ​​Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA ​​promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
Comentários (0)
0/200
OR