Deepcoder logra una alta eficiencia de codificación con un modelo abierto de 14b
23 de abril de 2025
SamuelRamirez
0
Presentación de DeepCoder-14b: una nueva frontera en modelos de codificación de código abierto
Los equipos de Together AI y Agentica han presentado DeepCoder-14b, un modelo de codificación innovador que se mantiene hombro con hombro con modelos patentados de primer nivel como Openi's O3-Mini. Este emocionante desarrollo se basa en la base de Deepseek-R1 y ofrece una flexibilidad mejorada para integrar la generación de código de alto rendimiento y el razonamiento en aplicaciones prácticas. Además, los creadores han dado un paso encomiable al recibir el modelo completamente abierto, incluidos sus datos de capacitación, código, registros y optimizaciones del sistema. Este movimiento está configurado para catalizar la investigación y acelerar los avances en el campo.
Rendimiento impresionante en un paquete compacto
DeepCoder-14b ha mostrado resultados notables en varios puntos de referencia de codificación como LivecodeBench (LCB), CodeForces y Humaneval+. Los experimentos del equipo de investigación han destacado que el rendimiento del modelo está a la par con modelos principales como O3-Mini (Low) y O1. "Nuestro modelo demuestra un fuerte rendimiento en todos los puntos de referencia de codificación ... comparable al rendimiento de O3-Mini (Low) y O1", declararon con orgullo en su publicación de blog.
Lo que es particularmente intrigante es que, a pesar de estar entrenado principalmente en tareas de codificación, DeepCoder-14b también ha mostrado una mejora notable en el razonamiento matemático, logre un puntaje del 73.8% en el punto de referencia AIME 2024. Esto marca un aumento del 4.1% sobre su modelo base, Deepseek-R1-Distill-Qwen-14b, lo que sugiere que las habilidades de razonamiento perfeccionadas a través del aprendizaje de refuerzo (RL) en el código pueden transferir efectivamente a otros dominios.

*Crédito: juntos ai*
Quizás la característica más emocionante de DeepCoder-14b es su eficiencia. Con solo 14 mil millones de parámetros, logra un alto rendimiento, mientras que es significativamente más pequeño y más eficiente en los recursos que muchos otros modelos principales.
Innovaciones detrás del éxito de Deepcoder
El desarrollo de DeepCoder-14b implicó superar varios desafíos, particularmente en la capacitación de modelos de codificación utilizando el aprendizaje de refuerzo. Un obstáculo importante fue la curación de los datos de entrenamiento. A diferencia de las tareas matemáticas, donde los datos verificables de alta calidad son abundantes, los datos de codificación pueden ser escasos. El equipo de Deepcoder abordó esto implementando una tubería rigurosa para recopilar y filtrar ejemplos de varios conjuntos de datos, asegurando la validez, la complejidad y la evitación de la duplicación. Este proceso dio como resultado 24,000 problemas de alta calidad, que formaron una base sólida para la capacitación RL.
El equipo también ideó una función de recompensa directa que solo recompensa el modelo si el código generado pasa con éxito todas las pruebas unitarias muestreadas dentro de un límite de tiempo establecido. Este enfoque, junto con ejemplos de entrenamiento de alta calidad, aseguró que el modelo se centró en resolver problemas centrales en lugar de explotar los atajos.
El algoritmo de entrenamiento de DeepCoder-14b se basa en la optimización de políticas relativas del grupo (GRPO), que tuvo éxito en Deepseek-R1. Sin embargo, el equipo realizó modificaciones significativas para mejorar la estabilidad y permitir duraciones de entrenamiento más largas.

*GRPO+ permite que DeepCoder-14 continúe durante duraciones más largas sin colapsar crédito: juntos ai*
Además, el equipo extendió iterativamente la ventana de contexto del modelo, comenzando con secuencias más cortas y aumentándolas gradualmente. También introdujeron un método de filtrado para evitar penalizar el modelo para exceder los límites de contexto al resolver indicaciones complejas.

*Deepcoder fue entrenado en 32k problemas de contexto, pero también pudo resolver 64k tareas crédito: juntos ai*
Los investigadores explicaron su enfoque: "Para preservar el razonamiento de contexto largo al tiempo que habilitamos un entrenamiento eficiente, incorporamos un filtrado demasiado largo ... esta técnica enmascara secuencias truncadas durante el entrenamiento para que los modelos no sean penalizados por generar salidas reflexivas pero largas que exceden el límite de contexto actual". La capacitación amplió de una ventana de contexto de 16k a una 32k, lo que permite que el modelo aborde los problemas que requieren hasta 64k tokens.
Optimización del entrenamiento RL de contexto largo
El entrenamiento de grandes modelos con RL, especialmente en tareas que generan secuencias largas como la codificación, es notoriamente lento y intensivo en recursos. El paso de muestreo, donde el modelo genera miles de tokens por ejemplo, a menudo conduce a retrasos significativos debido a diferentes longitudes de respuesta.
Para abordar esto, el equipo desarrolló Verl-Pipeline, una extensión optimizada de la biblioteca de verl de código abierto para el aprendizaje de refuerzo de la retroalimentación humana (RLHF). Su innovación de "tuberías únicas" reestructuró el muestreo y las actualizaciones del modelo para minimizar los cuellos de botella y reducir el tiempo de inactividad en los aceleradores.

*Tuberías únicas*
Sus experimentos demostraron que la canalización única podría acelerar las tareas de codificación RL hasta 2x en comparación con los métodos estándar. Esta optimización fue crucial en el entrenamiento de DeepCoder-14b dentro de un plazo razonable (2.5 semanas en 32 H100) y ahora es de código abierto como parte de Verl-Pipeline para que la comunidad lo aproveche.
Impacto empresarial y colaboración de código abierto
Los investigadores han puesto a disposición todos los artefactos operativos y de capacitación para DeepCoder-14b en GitHub y abrazar la cara bajo una licencia permisiva. "Al compartir completamente nuestro conjunto de datos, código y receta de capacitación, capacitamos a la comunidad para reproducir nuestro trabajo y hacer que la capacitación de RL sea accesible para todos", afirmaron.
Deepcoder-14b ejemplifica la tendencia creciente de modelos eficientes y accesibles en el panorama de IA. Para las empresas, esto significa más opciones y una mayor accesibilidad a los modelos avanzados. La generación y el razonamiento de código de alto rendimiento ya no son exclusivos para grandes corporaciones o aquellos dispuestos a pagar las fuertes tarifas de API. Las organizaciones de todos los tamaños ahora pueden aprovechar estas capacidades, adaptar soluciones a sus necesidades específicas y implementarlas de forma segura dentro de sus entornos.
Este cambio está listo para reducir las barreras para la adopción de IA, fomentando un ecosistema más competitivo e innovador impulsado por la colaboración de código abierto.
Artículo relacionado
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial
Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros
O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina
Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
Comentario (0)
0/200






Presentación de DeepCoder-14b: una nueva frontera en modelos de codificación de código abierto
Los equipos de Together AI y Agentica han presentado DeepCoder-14b, un modelo de codificación innovador que se mantiene hombro con hombro con modelos patentados de primer nivel como Openi's O3-Mini. Este emocionante desarrollo se basa en la base de Deepseek-R1 y ofrece una flexibilidad mejorada para integrar la generación de código de alto rendimiento y el razonamiento en aplicaciones prácticas. Además, los creadores han dado un paso encomiable al recibir el modelo completamente abierto, incluidos sus datos de capacitación, código, registros y optimizaciones del sistema. Este movimiento está configurado para catalizar la investigación y acelerar los avances en el campo.
Rendimiento impresionante en un paquete compacto
DeepCoder-14b ha mostrado resultados notables en varios puntos de referencia de codificación como LivecodeBench (LCB), CodeForces y Humaneval+. Los experimentos del equipo de investigación han destacado que el rendimiento del modelo está a la par con modelos principales como O3-Mini (Low) y O1. "Nuestro modelo demuestra un fuerte rendimiento en todos los puntos de referencia de codificación ... comparable al rendimiento de O3-Mini (Low) y O1", declararon con orgullo en su publicación de blog.
Lo que es particularmente intrigante es que, a pesar de estar entrenado principalmente en tareas de codificación, DeepCoder-14b también ha mostrado una mejora notable en el razonamiento matemático, logre un puntaje del 73.8% en el punto de referencia AIME 2024. Esto marca un aumento del 4.1% sobre su modelo base, Deepseek-R1-Distill-Qwen-14b, lo que sugiere que las habilidades de razonamiento perfeccionadas a través del aprendizaje de refuerzo (RL) en el código pueden transferir efectivamente a otros dominios.
Quizás la característica más emocionante de DeepCoder-14b es su eficiencia. Con solo 14 mil millones de parámetros, logra un alto rendimiento, mientras que es significativamente más pequeño y más eficiente en los recursos que muchos otros modelos principales.
Innovaciones detrás del éxito de Deepcoder
El desarrollo de DeepCoder-14b implicó superar varios desafíos, particularmente en la capacitación de modelos de codificación utilizando el aprendizaje de refuerzo. Un obstáculo importante fue la curación de los datos de entrenamiento. A diferencia de las tareas matemáticas, donde los datos verificables de alta calidad son abundantes, los datos de codificación pueden ser escasos. El equipo de Deepcoder abordó esto implementando una tubería rigurosa para recopilar y filtrar ejemplos de varios conjuntos de datos, asegurando la validez, la complejidad y la evitación de la duplicación. Este proceso dio como resultado 24,000 problemas de alta calidad, que formaron una base sólida para la capacitación RL.
El equipo también ideó una función de recompensa directa que solo recompensa el modelo si el código generado pasa con éxito todas las pruebas unitarias muestreadas dentro de un límite de tiempo establecido. Este enfoque, junto con ejemplos de entrenamiento de alta calidad, aseguró que el modelo se centró en resolver problemas centrales en lugar de explotar los atajos.
El algoritmo de entrenamiento de DeepCoder-14b se basa en la optimización de políticas relativas del grupo (GRPO), que tuvo éxito en Deepseek-R1. Sin embargo, el equipo realizó modificaciones significativas para mejorar la estabilidad y permitir duraciones de entrenamiento más largas.
Además, el equipo extendió iterativamente la ventana de contexto del modelo, comenzando con secuencias más cortas y aumentándolas gradualmente. También introdujeron un método de filtrado para evitar penalizar el modelo para exceder los límites de contexto al resolver indicaciones complejas.
Los investigadores explicaron su enfoque: "Para preservar el razonamiento de contexto largo al tiempo que habilitamos un entrenamiento eficiente, incorporamos un filtrado demasiado largo ... esta técnica enmascara secuencias truncadas durante el entrenamiento para que los modelos no sean penalizados por generar salidas reflexivas pero largas que exceden el límite de contexto actual". La capacitación amplió de una ventana de contexto de 16k a una 32k, lo que permite que el modelo aborde los problemas que requieren hasta 64k tokens.
Optimización del entrenamiento RL de contexto largo
El entrenamiento de grandes modelos con RL, especialmente en tareas que generan secuencias largas como la codificación, es notoriamente lento y intensivo en recursos. El paso de muestreo, donde el modelo genera miles de tokens por ejemplo, a menudo conduce a retrasos significativos debido a diferentes longitudes de respuesta.
Para abordar esto, el equipo desarrolló Verl-Pipeline, una extensión optimizada de la biblioteca de verl de código abierto para el aprendizaje de refuerzo de la retroalimentación humana (RLHF). Su innovación de "tuberías únicas" reestructuró el muestreo y las actualizaciones del modelo para minimizar los cuellos de botella y reducir el tiempo de inactividad en los aceleradores.
Sus experimentos demostraron que la canalización única podría acelerar las tareas de codificación RL hasta 2x en comparación con los métodos estándar. Esta optimización fue crucial en el entrenamiento de DeepCoder-14b dentro de un plazo razonable (2.5 semanas en 32 H100) y ahora es de código abierto como parte de Verl-Pipeline para que la comunidad lo aproveche.
Impacto empresarial y colaboración de código abierto
Los investigadores han puesto a disposición todos los artefactos operativos y de capacitación para DeepCoder-14b en GitHub y abrazar la cara bajo una licencia permisiva. "Al compartir completamente nuestro conjunto de datos, código y receta de capacitación, capacitamos a la comunidad para reproducir nuestro trabajo y hacer que la capacitación de RL sea accesible para todos", afirmaron.
Deepcoder-14b ejemplifica la tendencia creciente de modelos eficientes y accesibles en el panorama de IA. Para las empresas, esto significa más opciones y una mayor accesibilidad a los modelos avanzados. La generación y el razonamiento de código de alto rendimiento ya no son exclusivos para grandes corporaciones o aquellos dispuestos a pagar las fuertes tarifas de API. Las organizaciones de todos los tamaños ahora pueden aprovechar estas capacidades, adaptar soluciones a sus necesidades específicas y implementarlas de forma segura dentro de sus entornos.
Este cambio está listo para reducir las barreras para la adopción de IA, fomentando un ecosistema más competitivo e innovador impulsado por la colaboración de código abierto.


5 Pasos sencillos para reclamar su privacidad de datos en línea: comience hoy









