Deepcoder alcança a alta eficiência de codificação com o modelo aberto 14B
Apresentando DeepCoder-14b: uma nova fronteira em modelos de codificação de código aberto
As equipes da AI e da Agentica divulgaram o DeepCoder-14b, um modelo de codificação inovador que fica com modelos proprietários de ombro a ombro com modelos proprietários de primeira linha como o OpenAi da O3-mini. Esse desenvolvimento emocionante é construído com base na base do Deepseek-R1 e oferece flexibilidade aprimorada para integrar a geração de código de alto desempenho e o raciocínio em aplicações práticas. Além disso, os criadores deram uma etapa louvável, de origem totalmente aberta do modelo, incluindo seus dados de treinamento, código, logs e otimizações do sistema. Este movimento está definido para catalisar a pesquisa e acelerar os avanços no campo.
Desempenho impressionante em um pacote compacto
O DeepCoder-14b mostrou resultados notáveis em vários benchmarks de codificação, como LivecodeBench (LCB), Codeforces e Humaneval+. Os experimentos da equipe de pesquisa destacaram que o desempenho do modelo está em pé de igualdade com os principais modelos como O3-mini (Low) e O1. "Nosso modelo demonstra um forte desempenho em todos os benchmarks de codificação ... comparável ao desempenho de O3-mini (Low) e O1", afirmaram os pesquisadores orgulhosamente em sua postagem no blog.
O que é particularmente intrigante é que, apesar de ter sido treinado principalmente em tarefas de codificação, o DeepCoder-14b também mostrou uma melhoria notável no raciocínio matemático, alcançando uma pontuação de 73,8% na referência Aime 2024. Isso marca um aumento de 4,1% em relação ao seu modelo básico, Deepseek-R1-Distill-Qwen-14b, sugerindo que as habilidades de raciocínio aprimoradas pelo aprendizado de reforço (RL) no código podem efetivamente transferir para outros domínios.

*Crédito: juntos ai*
Talvez a característica mais emocionante do DeepCoder-14b seja sua eficiência. Com apenas 14 bilhões de parâmetros, ele atinge o alto desempenho, sendo significativamente menor e mais eficiente em termos de recursos do que muitos outros modelos principais.
Inovações por trás do sucesso do DeepCoder
O desenvolvimento do DeepCoder-14B envolveu a superação de vários desafios, principalmente no treinamento de modelos de codificação usando o aprendizado de reforço. Um grande obstáculo foi a curadoria dos dados de treinamento. Ao contrário das tarefas matemáticas, onde dados verificáveis de alta qualidade são abundantes, os dados de codificação podem ser escassos. A equipe Deepcoder abordou isso implementando um pipeline rigoroso para reunir e filtrar exemplos de vários conjuntos de dados, garantindo validade, complexidade e evitar duplicação. Esse processo resultou em 24.000 problemas de alta qualidade, que formaram uma base robusta para o treinamento da RL.
A equipe também desenvolveu uma função de recompensa direta que apenas recompensa o modelo se o código gerado passar com sucesso em todos os testes de unidade amostrados dentro de um prazo definido. Essa abordagem, juntamente com exemplos de treinamento de alta qualidade, garantiu que o modelo se concentrasse na solução de problemas principais, em vez de explorar atalhos.
O algoritmo de treinamento do DeepCoder-14B é baseado na otimização relativa de políticas relativas do grupo (GRPO), que foi bem-sucedida no Deepseek-R1. No entanto, a equipe fez modificações significativas para aumentar a estabilidade e permitir durações mais longas de treinamento.

*GRPO+ permite que o DeepCoder-14 continue por durações mais longas sem desmoronar o crédito: juntos ai*
Além disso, a equipe estendeu iterativamente a janela de contexto do modelo, começando com sequências mais curtas e aumentando gradualmente. Eles também introduziram um método de filtragem para evitar a penalização do modelo para exceder os limites de contexto ao resolver instruções complexas.

*Deepcoder foi treinado em problemas de contexto de 32k, mas também foi capaz de resolver 64 mil tarefas de crédito: juntos ai*
Os pesquisadores explicaram sua abordagem: "Para preservar o raciocínio de longa duração e permitir treinamento eficiente, incorporamos a filtragem sobrecarregada ... Essa técnica mascara sequências truncadas durante o treinamento, para que os modelos não sejam penalizados para gerar resultados pensativos, mas longos, que excedem o limite de contexto atual". O treinamento escalou de uma janela de contexto de 16k para 32k, permitindo que o modelo resolva problemas que exigem até 64 mil tokens.
Otimizando o treinamento de RL de longo contexto
Treinar grandes modelos com RL, especialmente em tarefas que geram longas seqüências como codificação, são notoriamente lentas e intensivas em recursos. A etapa de amostragem, onde o modelo gera milhares de tokens por exemplo, geralmente leva a atrasos significativos devido a vários comprimentos de resposta.
Para enfrentar isso, a equipe desenvolveu a Verl-PiPeline, uma extensão otimizada da biblioteca verl de código aberto para aprender a reforço com o feedback humano (RLHF). Sua inovação "única de pipelining" reestruturou as atualizações de amostragem e modelo para minimizar gargalos e reduzir o tempo ocioso nos aceleradores.

*Pipelining único*
Seus experimentos demonstraram que a pipelinização única poderia acelerar as tarefas de codificação de RL em até 2x em comparação com os métodos padrão. Essa otimização foi crucial no treinamento de Deepcoder-14b dentro de um prazo razoável (2,5 semanas em 32 H100s) e agora é de origem aberta como parte da linha verl-pipela para a comunidade alavancar.
Impacto corporativo e colaboração de código aberto
Os pesquisadores disponibilizaram todos os artefatos operacionais e de treinamento para o DeepCoder-14b, no Github e abraçando o rosto sob uma licença permissiva. "Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento da RL acessível a todos", afirmou eles.
Deepcoder-14b exemplifica a tendência crescente de modelos eficientes e abertamente acessíveis na paisagem da IA. Para empresas, isso significa mais opções e maior acessibilidade a modelos avançados. A geração e o raciocínio do código de alto desempenho não são mais exclusivos de grandes empresas ou daquelas dispostas a pagar taxas de API. As organizações de todos os tamanhos agora podem aproveitar essas capacidades, adaptar as soluções para suas necessidades específicas e implantá -las com segurança em seus ambientes.
Essa mudança está pronta para diminuir as barreiras à adoção da IA, promovendo um ecossistema mais competitivo e inovador impulsionado pela colaboração de código aberto.
Artigo relacionado
Deep Cogito phát hành các mô hình AI nguồn mở và đã đứng đầu bảng xếp hạng
Deep Cogito Ra Mắt Các Mô Hình Trí Tuệ Nhân Tạo Cách MạngTrong một bước đi đột phá, Deep Cogito, một công ty khởi nghiệp nghiên cứu AI hàng đầu có trụ sở tại San Francisco, đã chín
Hệ thống tập trung thật cho Thực tế tăng cường giá cả phải chăng
Thay đổi cuộc chơi trong Thực tế Tăng cường Dựa trên Chiếu hìnhCác nhà nghiên cứu từ Viện Điện tử và Viễn thông danh tiếng (IEEE) đã đạt được bước tiến vượt bậc trong lĩnh vực thực
Cựu CEO OpenAI Cảnh Báo Về Sự Nịnh Hót và Xu Nịnh của AI
Sự thật đáng lo ngại về AI quá đồng ýHãy tưởng tượng một trợ lý AI đồng ý với mọi điều bạn nói, bất kể ý tưởng của bạn có phi lý hay gây hại đến đâu. Nó nghe như cốt truyện từ một
Comentários (5)
0/200
NicholasGonzález
24 de Abril de 2025 à0 00:00:00 GMT
DeepCoder-14B is a beast! It's amazing how it can code so efficiently, almost like having a top-notch programmer on speed dial. I've used it for some complex projects and it nailed it every time. The only thing is, it can be a bit slow on my old laptop. Still, a solid tool for any coder! 🤓💻
0
RaymondGreen
24 de Abril de 2025 à0 00:00:00 GMT
DeepCoder-14Bは本当に素晴らしいです!効率的にコードを書くことができ、まるで一流のプログラマーをいつでも呼べるようです。複雑なプロジェクトでも完璧にこなしてくれます。ただ、私の古いラップトップでは少し遅いですね。それでも、どんなコーダーにもおすすめのツールです!🤓💻
0
HaroldLopez
24 de Abril de 2025 à0 00:00:00 GMT
DeepCoder-14B 정말 대단해요! 효율적으로 코드를 작성할 수 있어서, 마치 최고의 프로그래머를 언제든지 불러낼 수 있는 것 같아요. 복잡한 프로젝트도 매번 완벽하게 해냈어요. 다만, 제 오래된 랩탑에서는 조금 느리네요. 그래도 어떤 코더에게나 추천할 만한 도구입니다! 🤓💻
0
JimmyJohnson
24 de Abril de 2025 à0 00:00:00 GMT
DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻
0
SebastianAnderson
24 de Abril de 2025 à0 00:00:00 GMT
¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻
0
Apresentando DeepCoder-14b: uma nova fronteira em modelos de codificação de código aberto
As equipes da AI e da Agentica divulgaram o DeepCoder-14b, um modelo de codificação inovador que fica com modelos proprietários de ombro a ombro com modelos proprietários de primeira linha como o OpenAi da O3-mini. Esse desenvolvimento emocionante é construído com base na base do Deepseek-R1 e oferece flexibilidade aprimorada para integrar a geração de código de alto desempenho e o raciocínio em aplicações práticas. Além disso, os criadores deram uma etapa louvável, de origem totalmente aberta do modelo, incluindo seus dados de treinamento, código, logs e otimizações do sistema. Este movimento está definido para catalisar a pesquisa e acelerar os avanços no campo.
Desempenho impressionante em um pacote compacto
O DeepCoder-14b mostrou resultados notáveis em vários benchmarks de codificação, como LivecodeBench (LCB), Codeforces e Humaneval+. Os experimentos da equipe de pesquisa destacaram que o desempenho do modelo está em pé de igualdade com os principais modelos como O3-mini (Low) e O1. "Nosso modelo demonstra um forte desempenho em todos os benchmarks de codificação ... comparável ao desempenho de O3-mini (Low) e O1", afirmaram os pesquisadores orgulhosamente em sua postagem no blog.
O que é particularmente intrigante é que, apesar de ter sido treinado principalmente em tarefas de codificação, o DeepCoder-14b também mostrou uma melhoria notável no raciocínio matemático, alcançando uma pontuação de 73,8% na referência Aime 2024. Isso marca um aumento de 4,1% em relação ao seu modelo básico, Deepseek-R1-Distill-Qwen-14b, sugerindo que as habilidades de raciocínio aprimoradas pelo aprendizado de reforço (RL) no código podem efetivamente transferir para outros domínios.
Talvez a característica mais emocionante do DeepCoder-14b seja sua eficiência. Com apenas 14 bilhões de parâmetros, ele atinge o alto desempenho, sendo significativamente menor e mais eficiente em termos de recursos do que muitos outros modelos principais.
Inovações por trás do sucesso do DeepCoder
O desenvolvimento do DeepCoder-14B envolveu a superação de vários desafios, principalmente no treinamento de modelos de codificação usando o aprendizado de reforço. Um grande obstáculo foi a curadoria dos dados de treinamento. Ao contrário das tarefas matemáticas, onde dados verificáveis de alta qualidade são abundantes, os dados de codificação podem ser escassos. A equipe Deepcoder abordou isso implementando um pipeline rigoroso para reunir e filtrar exemplos de vários conjuntos de dados, garantindo validade, complexidade e evitar duplicação. Esse processo resultou em 24.000 problemas de alta qualidade, que formaram uma base robusta para o treinamento da RL.
A equipe também desenvolveu uma função de recompensa direta que apenas recompensa o modelo se o código gerado passar com sucesso em todos os testes de unidade amostrados dentro de um prazo definido. Essa abordagem, juntamente com exemplos de treinamento de alta qualidade, garantiu que o modelo se concentrasse na solução de problemas principais, em vez de explorar atalhos.
O algoritmo de treinamento do DeepCoder-14B é baseado na otimização relativa de políticas relativas do grupo (GRPO), que foi bem-sucedida no Deepseek-R1. No entanto, a equipe fez modificações significativas para aumentar a estabilidade e permitir durações mais longas de treinamento.
Além disso, a equipe estendeu iterativamente a janela de contexto do modelo, começando com sequências mais curtas e aumentando gradualmente. Eles também introduziram um método de filtragem para evitar a penalização do modelo para exceder os limites de contexto ao resolver instruções complexas.
Os pesquisadores explicaram sua abordagem: "Para preservar o raciocínio de longa duração e permitir treinamento eficiente, incorporamos a filtragem sobrecarregada ... Essa técnica mascara sequências truncadas durante o treinamento, para que os modelos não sejam penalizados para gerar resultados pensativos, mas longos, que excedem o limite de contexto atual". O treinamento escalou de uma janela de contexto de 16k para 32k, permitindo que o modelo resolva problemas que exigem até 64 mil tokens.
Otimizando o treinamento de RL de longo contexto
Treinar grandes modelos com RL, especialmente em tarefas que geram longas seqüências como codificação, são notoriamente lentas e intensivas em recursos. A etapa de amostragem, onde o modelo gera milhares de tokens por exemplo, geralmente leva a atrasos significativos devido a vários comprimentos de resposta.
Para enfrentar isso, a equipe desenvolveu a Verl-PiPeline, uma extensão otimizada da biblioteca verl de código aberto para aprender a reforço com o feedback humano (RLHF). Sua inovação "única de pipelining" reestruturou as atualizações de amostragem e modelo para minimizar gargalos e reduzir o tempo ocioso nos aceleradores.
Seus experimentos demonstraram que a pipelinização única poderia acelerar as tarefas de codificação de RL em até 2x em comparação com os métodos padrão. Essa otimização foi crucial no treinamento de Deepcoder-14b dentro de um prazo razoável (2,5 semanas em 32 H100s) e agora é de origem aberta como parte da linha verl-pipela para a comunidade alavancar.
Impacto corporativo e colaboração de código aberto
Os pesquisadores disponibilizaram todos os artefatos operacionais e de treinamento para o DeepCoder-14b, no Github e abraçando o rosto sob uma licença permissiva. "Ao compartilhar totalmente nosso conjunto de dados, código e receita de treinamento, capacitamos a comunidade a reproduzir nosso trabalho e tornar o treinamento da RL acessível a todos", afirmou eles.
Deepcoder-14b exemplifica a tendência crescente de modelos eficientes e abertamente acessíveis na paisagem da IA. Para empresas, isso significa mais opções e maior acessibilidade a modelos avançados. A geração e o raciocínio do código de alto desempenho não são mais exclusivos de grandes empresas ou daquelas dispostas a pagar taxas de API. As organizações de todos os tamanhos agora podem aproveitar essas capacidades, adaptar as soluções para suas necessidades específicas e implantá -las com segurança em seus ambientes.
Essa mudança está pronta para diminuir as barreiras à adoção da IA, promovendo um ecossistema mais competitivo e inovador impulsionado pela colaboração de código aberto.




DeepCoder-14B is a beast! It's amazing how it can code so efficiently, almost like having a top-notch programmer on speed dial. I've used it for some complex projects and it nailed it every time. The only thing is, it can be a bit slow on my old laptop. Still, a solid tool for any coder! 🤓💻




DeepCoder-14Bは本当に素晴らしいです!効率的にコードを書くことができ、まるで一流のプログラマーをいつでも呼べるようです。複雑なプロジェクトでも完璧にこなしてくれます。ただ、私の古いラップトップでは少し遅いですね。それでも、どんなコーダーにもおすすめのツールです!🤓💻




DeepCoder-14B 정말 대단해요! 효율적으로 코드를 작성할 수 있어서, 마치 최고의 프로그래머를 언제든지 불러낼 수 있는 것 같아요. 복잡한 프로젝트도 매번 완벽하게 해냈어요. 다만, 제 오래된 랩탑에서는 조금 느리네요. 그래도 어떤 코더에게나 추천할 만한 도구입니다! 🤓💻




DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻




¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻












