Deepcoder alcança a alta eficiência de codificação com o modelo aberto 14B
23 de Abril de 2025
SamuelRamirez
0
Apresentando DeepCoder-14b: uma nova fronteira em modelos de codificação de código aberto
As equipes da AI e da Agentica divulgaram o DeepCoder-14b, um modelo de codificação inovador que fica com modelos proprietários de ombro a ombro com modelos proprietários de primeira linha como o OpenAi da O3-mini. Esse desenvolvimento emocionante é construído com base na base do Deepseek-R1 e oferece flexibilidade aprimorada para integrar a geração de código de alto desempenho e o raciocínio em aplicações práticas. Além disso, os criadores deram uma etapa louvável, de origem totalmente aberta do modelo, incluindo seus dados de treinamento, código, logs e otimizações do sistema. Este movimento está definido para catalisar a pesquisa e acelerar os avanços no campo.
Desempenho impressionante em um pacote compacto
O DeepCoder-14b mostrou resultados notáveis em vários benchmarks de codificação, como LivecodeBench (LCB), Codeforces e Humaneval+. Os experimentos da equipe de pesquisa destacaram que o desempenho do modelo está em pé de igualdade com os principais modelos como O3-mini (Low) e O1. "Nosso modelo demonstra um forte desempenho em todos os benchmarks de codificação ... comparável ao desempenho de O3-mini (Low) e O1", afirmaram os pesquisadores orgulhosamente em sua postagem no blog.
O que é particularmente intrigante é que, apesar de ter sido treinado principalmente em tarefas de codificação, o DeepCoder-14b também mostrou uma melhoria notável no raciocínio matemático, alcançando uma pontuação de 73,8% na referência Aime 2024. Isso marca um aumento de 4,1% em relação ao seu modelo básico, Deepseek-R1-Distill-Qwen-14b, sugerindo que as habilidades de raciocínio aprimoradas pelo aprendizado de reforço (RL) no código podem efetivamente transferir para outros domínios.

*Crédito: juntos ai*
Talvez a característica mais emocionante do DeepCoder-14b seja sua eficiência. Com apenas 14 bilhões de parâmetros, ele atinge o alto desempenho, sendo significativamente menor e mais eficiente em termos de recursos do que muitos outros modelos principais.
Inovações por trás do sucesso do DeepCoder
O desenvolvimento do DeepCoder-14B envolveu a superação de vários desafios, principalmente no treinamento de modelos de codificação usando o aprendizado de reforço. Um grande obstáculo foi a curadoria dos dados de treinamento. Ao contrário das tarefas matemáticas, onde dados verificáveis de alta qualidade são abundantes, os dados de codificação podem ser escassos. A equipe Deepcoder abordou isso implementando um pipeline rigoroso para reunir e filtrar exemplos de vários conjuntos de dados, garantindo validade, complexidade e evitar duplicação. Esse processo resultou em 24.000 problemas de alta qualidade, que formaram uma base robusta para o treinamento da RL.
A equipe também desenvolveu uma função de recompensa direta que apenas recompensa o modelo se o código gerado passar com sucesso em todos os testes de unidade amostrados dentro de um prazo definido. Essa abordagem, juntamente com exemplos de treinamento de alta qualidade, garantiu que o modelo se concentrasse na solução de problemas principais, em vez de explorar atalhos.
O algoritmo de treinamento do DeepCoder-14B é baseado na otimização relativa de políticas relativas do grupo (GRPO), que foi bem-sucedida no Deepseek-R1. No entanto, a equipe fez modificações significativas para aumentar a estabilidade e permitir durações mais longas de treinamento.

*GRPO+ permite que o DeepCoder-14 continue por durações mais longas sem desmoronar o crédito: juntos ai*
Além disso, a equipe estendeu iterativamente a janela de contexto do modelo, começando com sequências mais curtas e aumentando gradualmente. Eles também introduziram um método de filtragem para evitar a penalização do modelo para exceder os limites de contexto ao resolver instruções complexas.

*Deepcoder foi treinado em problemas de contexto de 32k, mas também foi capaz de resolver 64 mil tarefas de crédito: juntos ai*
Os pesquisadores explicaram sua abordagem: "Para preservar o raciocínio de longa duração e permitir treinamento eficiente, incorporamos a filtragem sobrecarregada ... Essa técnica mascara sequências truncadas durante o treinamento, para que os modelos não sejam penalizados para gerar resultados pensativos, mas longos, que excedem o limite de contexto atual". O treinamento escalou de uma janela de contexto de 16k para 32k, permitindo que o modelo resolva problemas que exigem até 64 mil tokens.
Otimizando o treinamento de RL de longo contexto
Treinar grandes modelos com RL, especialmente em tarefas que geram longas seqüências como codificação, são notoriamente lentas e intensivas em recursos. A etapa de amostragem, onde o modelo gera milhares de tokens por exemplo, geralmente leva a atrasos significativos devido a vários comprimentos de resposta.
Para enfrentar isso, a equipe desenvolveu a Verl-PiPeline, uma extensão otimizada da biblioteca verl de código aberto para aprender a reforço com o feedback humano (RLHF). Sua inovação "única de pipelining" reestruturou as atualizações de amostragem e modelo para minimizar gargalos e reduzir o tempo ocioso nos aceleradores.

*Pipelining único*
Seus experimentos demonstraram que a pipelinização única poderia acelerar as tarefas de codificação de RL em até 2x em comparação com os métodos padrão. Essa otimização foi crucial no treinamento de Deepcoder-14b dentro de um prazo razoável (2,5 semanas em 32 H100s) e agora é de origem aberta como parte da linha verl-pipela para a comunidade alavancar.
Impacto corporativo e colaboração de código aberto
Os pesquisadores disponibilizaram todos os artefatos operacionais e de treinamento para o DeepCoder-14b, no Github e abraçando o rosto sob uma licença permissiva. "Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento da RL acessível a todos", afirmou eles.
Deepcoder-14b exemplifica a tendência crescente de modelos eficientes e abertamente acessíveis na paisagem da IA. Para empresas, isso significa mais opções e maior acessibilidade a modelos avançados. A geração e o raciocínio do código de alto desempenho não são mais exclusivos de grandes empresas ou daquelas dispostas a pagar taxas de API. As organizações de todos os tamanhos agora podem aproveitar essas capacidades, adaptar as soluções para suas necessidades específicas e implantá -las com segurança em seus ambientes.
Essa mudança está pronta para diminuir as barreiras à adoção da IA, promovendo um ecossistema mais competitivo e inovador impulsionado pela colaboração de código aberto.
Artigo relacionado
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial
Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros
O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina
Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
Comentários (0)
0/200






Apresentando DeepCoder-14b: uma nova fronteira em modelos de codificação de código aberto
As equipes da AI e da Agentica divulgaram o DeepCoder-14b, um modelo de codificação inovador que fica com modelos proprietários de ombro a ombro com modelos proprietários de primeira linha como o OpenAi da O3-mini. Esse desenvolvimento emocionante é construído com base na base do Deepseek-R1 e oferece flexibilidade aprimorada para integrar a geração de código de alto desempenho e o raciocínio em aplicações práticas. Além disso, os criadores deram uma etapa louvável, de origem totalmente aberta do modelo, incluindo seus dados de treinamento, código, logs e otimizações do sistema. Este movimento está definido para catalisar a pesquisa e acelerar os avanços no campo.
Desempenho impressionante em um pacote compacto
O DeepCoder-14b mostrou resultados notáveis em vários benchmarks de codificação, como LivecodeBench (LCB), Codeforces e Humaneval+. Os experimentos da equipe de pesquisa destacaram que o desempenho do modelo está em pé de igualdade com os principais modelos como O3-mini (Low) e O1. "Nosso modelo demonstra um forte desempenho em todos os benchmarks de codificação ... comparável ao desempenho de O3-mini (Low) e O1", afirmaram os pesquisadores orgulhosamente em sua postagem no blog.
O que é particularmente intrigante é que, apesar de ter sido treinado principalmente em tarefas de codificação, o DeepCoder-14b também mostrou uma melhoria notável no raciocínio matemático, alcançando uma pontuação de 73,8% na referência Aime 2024. Isso marca um aumento de 4,1% em relação ao seu modelo básico, Deepseek-R1-Distill-Qwen-14b, sugerindo que as habilidades de raciocínio aprimoradas pelo aprendizado de reforço (RL) no código podem efetivamente transferir para outros domínios.
Talvez a característica mais emocionante do DeepCoder-14b seja sua eficiência. Com apenas 14 bilhões de parâmetros, ele atinge o alto desempenho, sendo significativamente menor e mais eficiente em termos de recursos do que muitos outros modelos principais.
Inovações por trás do sucesso do DeepCoder
O desenvolvimento do DeepCoder-14B envolveu a superação de vários desafios, principalmente no treinamento de modelos de codificação usando o aprendizado de reforço. Um grande obstáculo foi a curadoria dos dados de treinamento. Ao contrário das tarefas matemáticas, onde dados verificáveis de alta qualidade são abundantes, os dados de codificação podem ser escassos. A equipe Deepcoder abordou isso implementando um pipeline rigoroso para reunir e filtrar exemplos de vários conjuntos de dados, garantindo validade, complexidade e evitar duplicação. Esse processo resultou em 24.000 problemas de alta qualidade, que formaram uma base robusta para o treinamento da RL.
A equipe também desenvolveu uma função de recompensa direta que apenas recompensa o modelo se o código gerado passar com sucesso em todos os testes de unidade amostrados dentro de um prazo definido. Essa abordagem, juntamente com exemplos de treinamento de alta qualidade, garantiu que o modelo se concentrasse na solução de problemas principais, em vez de explorar atalhos.
O algoritmo de treinamento do DeepCoder-14B é baseado na otimização relativa de políticas relativas do grupo (GRPO), que foi bem-sucedida no Deepseek-R1. No entanto, a equipe fez modificações significativas para aumentar a estabilidade e permitir durações mais longas de treinamento.
Além disso, a equipe estendeu iterativamente a janela de contexto do modelo, começando com sequências mais curtas e aumentando gradualmente. Eles também introduziram um método de filtragem para evitar a penalização do modelo para exceder os limites de contexto ao resolver instruções complexas.
Os pesquisadores explicaram sua abordagem: "Para preservar o raciocínio de longa duração e permitir treinamento eficiente, incorporamos a filtragem sobrecarregada ... Essa técnica mascara sequências truncadas durante o treinamento, para que os modelos não sejam penalizados para gerar resultados pensativos, mas longos, que excedem o limite de contexto atual". O treinamento escalou de uma janela de contexto de 16k para 32k, permitindo que o modelo resolva problemas que exigem até 64 mil tokens.
Otimizando o treinamento de RL de longo contexto
Treinar grandes modelos com RL, especialmente em tarefas que geram longas seqüências como codificação, são notoriamente lentas e intensivas em recursos. A etapa de amostragem, onde o modelo gera milhares de tokens por exemplo, geralmente leva a atrasos significativos devido a vários comprimentos de resposta.
Para enfrentar isso, a equipe desenvolveu a Verl-PiPeline, uma extensão otimizada da biblioteca verl de código aberto para aprender a reforço com o feedback humano (RLHF). Sua inovação "única de pipelining" reestruturou as atualizações de amostragem e modelo para minimizar gargalos e reduzir o tempo ocioso nos aceleradores.
Seus experimentos demonstraram que a pipelinização única poderia acelerar as tarefas de codificação de RL em até 2x em comparação com os métodos padrão. Essa otimização foi crucial no treinamento de Deepcoder-14b dentro de um prazo razoável (2,5 semanas em 32 H100s) e agora é de origem aberta como parte da linha verl-pipela para a comunidade alavancar.
Impacto corporativo e colaboração de código aberto
Os pesquisadores disponibilizaram todos os artefatos operacionais e de treinamento para o DeepCoder-14b, no Github e abraçando o rosto sob uma licença permissiva. "Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento da RL acessível a todos", afirmou eles.
Deepcoder-14b exemplifica a tendência crescente de modelos eficientes e abertamente acessíveis na paisagem da IA. Para empresas, isso significa mais opções e maior acessibilidade a modelos avançados. A geração e o raciocínio do código de alto desempenho não são mais exclusivos de grandes empresas ou daquelas dispostas a pagar taxas de API. As organizações de todos os tamanhos agora podem aproveitar essas capacidades, adaptar as soluções para suas necessidades específicas e implantá -las com segurança em seus ambientes.
Essa mudança está pronta para diminuir as barreiras à adoção da IA, promovendo um ecossistema mais competitivo e inovador impulsionado pela colaboração de código aberto.


5 etapas fáceis para recuperar sua privacidade de dados on -line - comece hoje









