Deepcoder logra una alta eficiencia de codificación con un modelo abierto de 14b
Presentación de DeepCoder-14b: una nueva frontera en modelos de codificación de código abierto
Los equipos de Together AI y Agentica han presentado DeepCoder-14b, un modelo de codificación innovador que se mantiene hombro con hombro con modelos patentados de primer nivel como Openi's O3-Mini. Este emocionante desarrollo se basa en la base de Deepseek-R1 y ofrece una flexibilidad mejorada para integrar la generación de código de alto rendimiento y el razonamiento en aplicaciones prácticas. Además, los creadores han dado un paso encomiable al recibir el modelo completamente abierto, incluidos sus datos de capacitación, código, registros y optimizaciones del sistema. Este movimiento está configurado para catalizar la investigación y acelerar los avances en el campo.
Rendimiento impresionante en un paquete compacto
DeepCoder-14b ha mostrado resultados notables en varios puntos de referencia de codificación como LivecodeBench (LCB), CodeForces y Humaneval+. Los experimentos del equipo de investigación han destacado que el rendimiento del modelo está a la par con modelos principales como O3-Mini (Low) y O1. "Nuestro modelo demuestra un fuerte rendimiento en todos los puntos de referencia de codificación ... comparable al rendimiento de O3-Mini (Low) y O1", declararon con orgullo en su publicación de blog.
Lo que es particularmente intrigante es que, a pesar de estar entrenado principalmente en tareas de codificación, DeepCoder-14b también ha mostrado una mejora notable en el razonamiento matemático, logre un puntaje del 73.8% en el punto de referencia AIME 2024. Esto marca un aumento del 4.1% sobre su modelo base, Deepseek-R1-Distill-Qwen-14b, lo que sugiere que las habilidades de razonamiento perfeccionadas a través del aprendizaje de refuerzo (RL) en el código pueden transferir efectivamente a otros dominios.

*Crédito: juntos ai*
Quizás la característica más emocionante de DeepCoder-14b es su eficiencia. Con solo 14 mil millones de parámetros, logra un alto rendimiento, mientras que es significativamente más pequeño y más eficiente en los recursos que muchos otros modelos principales.
Innovaciones detrás del éxito de Deepcoder
El desarrollo de DeepCoder-14b implicó superar varios desafíos, particularmente en la capacitación de modelos de codificación utilizando el aprendizaje de refuerzo. Un obstáculo importante fue la curación de los datos de entrenamiento. A diferencia de las tareas matemáticas, donde los datos verificables de alta calidad son abundantes, los datos de codificación pueden ser escasos. El equipo de Deepcoder abordó esto implementando una tubería rigurosa para recopilar y filtrar ejemplos de varios conjuntos de datos, asegurando la validez, la complejidad y la evitación de la duplicación. Este proceso dio como resultado 24,000 problemas de alta calidad, que formaron una base sólida para la capacitación RL.
El equipo también ideó una función de recompensa directa que solo recompensa el modelo si el código generado pasa con éxito todas las pruebas unitarias muestreadas dentro de un límite de tiempo establecido. Este enfoque, junto con ejemplos de entrenamiento de alta calidad, aseguró que el modelo se centró en resolver problemas centrales en lugar de explotar los atajos.
El algoritmo de entrenamiento de DeepCoder-14b se basa en la optimización de políticas relativas del grupo (GRPO), que tuvo éxito en Deepseek-R1. Sin embargo, el equipo realizó modificaciones significativas para mejorar la estabilidad y permitir duraciones de entrenamiento más largas.

*GRPO+ permite que DeepCoder-14 continúe durante duraciones más largas sin colapsar crédito: juntos ai*
Además, el equipo extendió iterativamente la ventana de contexto del modelo, comenzando con secuencias más cortas y aumentándolas gradualmente. También introdujeron un método de filtrado para evitar penalizar el modelo para exceder los límites de contexto al resolver indicaciones complejas.

*Deepcoder fue entrenado en 32k problemas de contexto, pero también pudo resolver 64k tareas crédito: juntos ai*
Los investigadores explicaron su enfoque: "Para preservar el razonamiento de contexto largo al tiempo que habilitamos un entrenamiento eficiente, incorporamos un filtrado demasiado largo ... esta técnica enmascara secuencias truncadas durante el entrenamiento para que los modelos no sean penalizados por generar salidas reflexivas pero largas que exceden el límite de contexto actual". La capacitación amplió de una ventana de contexto de 16k a una 32k, lo que permite que el modelo aborde los problemas que requieren hasta 64k tokens.
Optimización del entrenamiento RL de contexto largo
El entrenamiento de grandes modelos con RL, especialmente en tareas que generan secuencias largas como la codificación, es notoriamente lento y intensivo en recursos. El paso de muestreo, donde el modelo genera miles de tokens por ejemplo, a menudo conduce a retrasos significativos debido a diferentes longitudes de respuesta.
Para abordar esto, el equipo desarrolló Verl-Pipeline, una extensión optimizada de la biblioteca de verl de código abierto para el aprendizaje de refuerzo de la retroalimentación humana (RLHF). Su innovación de "tuberías únicas" reestructuró el muestreo y las actualizaciones del modelo para minimizar los cuellos de botella y reducir el tiempo de inactividad en los aceleradores.

*Tuberías únicas*
Sus experimentos demostraron que la canalización única podría acelerar las tareas de codificación RL hasta 2x en comparación con los métodos estándar. Esta optimización fue crucial en el entrenamiento de DeepCoder-14b dentro de un plazo razonable (2.5 semanas en 32 H100) y ahora es de código abierto como parte de Verl-Pipeline para que la comunidad lo aproveche.
Impacto empresarial y colaboración de código abierto
Los investigadores han puesto a disposición todos los artefactos operativos y de capacitación para DeepCoder-14b en GitHub y abrazar la cara bajo una licencia permisiva. "Al compartir completamente nuestro conjunto de datos, código y receta de capacitación, capacitamos a la comunidad para reproducir nuestro trabajo y hacer que la capacitación de RL sea accesible para todos", afirmaron.
Deepcoder-14b ejemplifica la tendencia creciente de modelos eficientes y accesibles en el panorama de IA. Para las empresas, esto significa más opciones y una mayor accesibilidad a los modelos avanzados. La generación y el razonamiento de código de alto rendimiento ya no son exclusivos para grandes corporaciones o aquellos dispuestos a pagar las fuertes tarifas de API. Las organizaciones de todos los tamaños ahora pueden aprovechar estas capacidades, adaptar soluciones a sus necesidades específicas y implementarlas de forma segura dentro de sus entornos.
Este cambio está listo para reducir las barreras para la adopción de IA, fomentando un ecosistema más competitivo e innovador impulsado por la colaboración de código abierto.
Artículo relacionado
Deep Cogito phát hành các mô hình AI nguồn mở và đã đứng đầu bảng xếp hạng
Deep Cogito Ra Mắt Các Mô Hình Trí Tuệ Nhân Tạo Cách MạngTrong một bước đi đột phá, Deep Cogito, một công ty khởi nghiệp nghiên cứu AI hàng đầu có trụ sở tại San Francisco, đã chín
Hệ thống tập trung thật cho Thực tế tăng cường giá cả phải chăng
Thay đổi cuộc chơi trong Thực tế Tăng cường Dựa trên Chiếu hìnhCác nhà nghiên cứu từ Viện Điện tử và Viễn thông danh tiếng (IEEE) đã đạt được bước tiến vượt bậc trong lĩnh vực thực
Cựu CEO OpenAI Cảnh Báo Về Sự Nịnh Hót và Xu Nịnh của AI
Sự thật đáng lo ngại về AI quá đồng ýHãy tưởng tượng một trợ lý AI đồng ý với mọi điều bạn nói, bất kể ý tưởng của bạn có phi lý hay gây hại đến đâu. Nó nghe như cốt truyện từ một
comentario (5)
0/200
NicholasGonzález
24 de abril de 2025 00:00:00 GMT
DeepCoder-14B is a beast! It's amazing how it can code so efficiently, almost like having a top-notch programmer on speed dial. I've used it for some complex projects and it nailed it every time. The only thing is, it can be a bit slow on my old laptop. Still, a solid tool for any coder! 🤓💻
0
RaymondGreen
24 de abril de 2025 00:00:00 GMT
DeepCoder-14Bは本当に素晴らしいです!効率的にコードを書くことができ、まるで一流のプログラマーをいつでも呼べるようです。複雑なプロジェクトでも完璧にこなしてくれます。ただ、私の古いラップトップでは少し遅いですね。それでも、どんなコーダーにもおすすめのツールです!🤓💻
0
HaroldLopez
24 de abril de 2025 00:00:00 GMT
DeepCoder-14B 정말 대단해요! 효율적으로 코드를 작성할 수 있어서, 마치 최고의 프로그래머를 언제든지 불러낼 수 있는 것 같아요. 복잡한 프로젝트도 매번 완벽하게 해냈어요. 다만, 제 오래된 랩탑에서는 조금 느리네요. 그래도 어떤 코더에게나 추천할 만한 도구입니다! 🤓💻
0
JimmyJohnson
24 de abril de 2025 00:00:00 GMT
DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻
0
SebastianAnderson
24 de abril de 2025 00:00:00 GMT
¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻
0
Presentación de DeepCoder-14b: una nueva frontera en modelos de codificación de código abierto
Los equipos de Together AI y Agentica han presentado DeepCoder-14b, un modelo de codificación innovador que se mantiene hombro con hombro con modelos patentados de primer nivel como Openi's O3-Mini. Este emocionante desarrollo se basa en la base de Deepseek-R1 y ofrece una flexibilidad mejorada para integrar la generación de código de alto rendimiento y el razonamiento en aplicaciones prácticas. Además, los creadores han dado un paso encomiable al recibir el modelo completamente abierto, incluidos sus datos de capacitación, código, registros y optimizaciones del sistema. Este movimiento está configurado para catalizar la investigación y acelerar los avances en el campo.
Rendimiento impresionante en un paquete compacto
DeepCoder-14b ha mostrado resultados notables en varios puntos de referencia de codificación como LivecodeBench (LCB), CodeForces y Humaneval+. Los experimentos del equipo de investigación han destacado que el rendimiento del modelo está a la par con modelos principales como O3-Mini (Low) y O1. "Nuestro modelo demuestra un fuerte rendimiento en todos los puntos de referencia de codificación ... comparable al rendimiento de O3-Mini (Low) y O1", declararon con orgullo en su publicación de blog.
Lo que es particularmente intrigante es que, a pesar de estar entrenado principalmente en tareas de codificación, DeepCoder-14b también ha mostrado una mejora notable en el razonamiento matemático, logre un puntaje del 73.8% en el punto de referencia AIME 2024. Esto marca un aumento del 4.1% sobre su modelo base, Deepseek-R1-Distill-Qwen-14b, lo que sugiere que las habilidades de razonamiento perfeccionadas a través del aprendizaje de refuerzo (RL) en el código pueden transferir efectivamente a otros dominios.
Quizás la característica más emocionante de DeepCoder-14b es su eficiencia. Con solo 14 mil millones de parámetros, logra un alto rendimiento, mientras que es significativamente más pequeño y más eficiente en los recursos que muchos otros modelos principales.
Innovaciones detrás del éxito de Deepcoder
El desarrollo de DeepCoder-14b implicó superar varios desafíos, particularmente en la capacitación de modelos de codificación utilizando el aprendizaje de refuerzo. Un obstáculo importante fue la curación de los datos de entrenamiento. A diferencia de las tareas matemáticas, donde los datos verificables de alta calidad son abundantes, los datos de codificación pueden ser escasos. El equipo de Deepcoder abordó esto implementando una tubería rigurosa para recopilar y filtrar ejemplos de varios conjuntos de datos, asegurando la validez, la complejidad y la evitación de la duplicación. Este proceso dio como resultado 24,000 problemas de alta calidad, que formaron una base sólida para la capacitación RL.
El equipo también ideó una función de recompensa directa que solo recompensa el modelo si el código generado pasa con éxito todas las pruebas unitarias muestreadas dentro de un límite de tiempo establecido. Este enfoque, junto con ejemplos de entrenamiento de alta calidad, aseguró que el modelo se centró en resolver problemas centrales en lugar de explotar los atajos.
El algoritmo de entrenamiento de DeepCoder-14b se basa en la optimización de políticas relativas del grupo (GRPO), que tuvo éxito en Deepseek-R1. Sin embargo, el equipo realizó modificaciones significativas para mejorar la estabilidad y permitir duraciones de entrenamiento más largas.
Además, el equipo extendió iterativamente la ventana de contexto del modelo, comenzando con secuencias más cortas y aumentándolas gradualmente. También introdujeron un método de filtrado para evitar penalizar el modelo para exceder los límites de contexto al resolver indicaciones complejas.
Los investigadores explicaron su enfoque: "Para preservar el razonamiento de contexto largo al tiempo que habilitamos un entrenamiento eficiente, incorporamos un filtrado demasiado largo ... esta técnica enmascara secuencias truncadas durante el entrenamiento para que los modelos no sean penalizados por generar salidas reflexivas pero largas que exceden el límite de contexto actual". La capacitación amplió de una ventana de contexto de 16k a una 32k, lo que permite que el modelo aborde los problemas que requieren hasta 64k tokens.
Optimización del entrenamiento RL de contexto largo
El entrenamiento de grandes modelos con RL, especialmente en tareas que generan secuencias largas como la codificación, es notoriamente lento y intensivo en recursos. El paso de muestreo, donde el modelo genera miles de tokens por ejemplo, a menudo conduce a retrasos significativos debido a diferentes longitudes de respuesta.
Para abordar esto, el equipo desarrolló Verl-Pipeline, una extensión optimizada de la biblioteca de verl de código abierto para el aprendizaje de refuerzo de la retroalimentación humana (RLHF). Su innovación de "tuberías únicas" reestructuró el muestreo y las actualizaciones del modelo para minimizar los cuellos de botella y reducir el tiempo de inactividad en los aceleradores.
Sus experimentos demostraron que la canalización única podría acelerar las tareas de codificación RL hasta 2x en comparación con los métodos estándar. Esta optimización fue crucial en el entrenamiento de DeepCoder-14b dentro de un plazo razonable (2.5 semanas en 32 H100) y ahora es de código abierto como parte de Verl-Pipeline para que la comunidad lo aproveche.
Impacto empresarial y colaboración de código abierto
Los investigadores han puesto a disposición todos los artefactos operativos y de capacitación para DeepCoder-14b en GitHub y abrazar la cara bajo una licencia permisiva. "Al compartir completamente nuestro conjunto de datos, código y receta de capacitación, capacitamos a la comunidad para reproducir nuestro trabajo y hacer que la capacitación de RL sea accesible para todos", afirmaron.
Deepcoder-14b ejemplifica la tendencia creciente de modelos eficientes y accesibles en el panorama de IA. Para las empresas, esto significa más opciones y una mayor accesibilidad a los modelos avanzados. La generación y el razonamiento de código de alto rendimiento ya no son exclusivos para grandes corporaciones o aquellos dispuestos a pagar las fuertes tarifas de API. Las organizaciones de todos los tamaños ahora pueden aprovechar estas capacidades, adaptar soluciones a sus necesidades específicas y implementarlas de forma segura dentro de sus entornos.
Este cambio está listo para reducir las barreras para la adopción de IA, fomentando un ecosistema más competitivo e innovador impulsado por la colaboración de código abierto.




DeepCoder-14B is a beast! It's amazing how it can code so efficiently, almost like having a top-notch programmer on speed dial. I've used it for some complex projects and it nailed it every time. The only thing is, it can be a bit slow on my old laptop. Still, a solid tool for any coder! 🤓💻




DeepCoder-14Bは本当に素晴らしいです!効率的にコードを書くことができ、まるで一流のプログラマーをいつでも呼べるようです。複雑なプロジェクトでも完璧にこなしてくれます。ただ、私の古いラップトップでは少し遅いですね。それでも、どんなコーダーにもおすすめのツールです!🤓💻




DeepCoder-14B 정말 대단해요! 효율적으로 코드를 작성할 수 있어서, 마치 최고의 프로그래머를 언제든지 불러낼 수 있는 것 같아요. 복잡한 프로젝트도 매번 완벽하게 해냈어요. 다만, 제 오래된 랩탑에서는 조금 느리네요. 그래도 어떤 코더에게나 추천할 만한 도구입니다! 🤓💻




DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻




¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻












