Maison Nouvelles Deepcoder atteint une efficacité de codage élevée avec un modèle ouvert 14B

Deepcoder atteint une efficacité de codage élevée avec un modèle ouvert 14B

23 avril 2025
SamuelRamirez
0

Présentation de Deepcoder-14b: une nouvelle frontière dans les modèles de codage open source

Les équipes de Togelt Ai et Agetica ont dévoilé Deepcoder-14b, un modèle de codage révolutionnaire qui se dresse d'épaule à épaule avec des modèles propriétaires de haut niveau comme O3-MinI d'Openai. Ce développement passionnant est construit sur la base de Deepseek-R1 et offre une flexibilité accrue pour intégrer la génération de code et le raisonnement de code haute performance dans des applications pratiques. De plus, les créateurs ont franchi une étape louable par le modèle entièrement ouvert, y compris ses données de formation, le code, les journaux et les optimisations du système. Cette décision est définie pour catalyser la recherche et accélérer les progrès dans le domaine.

Performances impressionnantes dans un package compact

Deepcoder-14b a montré des résultats remarquables à travers divers repères de codage tels que LivecodeBench (LCB), CodeForces et Humaneval +. Les expériences de l'équipe de recherche ont souligné que les performances du modèle sont à égalité avec les principaux modèles comme O3-MinI (bas) et O1. "Notre modèle démontre de solides performances dans tous les benchmarks codants ... comparables aux performances d'O3-MinI (bas) et O1", ont déclaré fièrement les chercheurs dans leur article de blog.

Ce qui est particulièrement intrigant, c'est que, bien qu'il soit principalement formé sur les tâches de codage, Deepcoder-14b a également montré une amélioration notable du raisonnement mathématique, atteignant un score de 73,8% sur la référence AIME 2024. Cela marque une augmentation de 4,1% par rapport à son modèle de base, Deepseek-R1-Distill-QWEN-14B, ce qui suggère que les compétences de raisonnement perfectionnées par l'apprentissage par renforcement (RL) sur le code peuvent efficacement transférer vers d'autres domaines.

Performance Deepcoder-14b

* Crédit: ensemble ai *

La caractéristique la plus excitante de Deepcoder-14b est peut-être son efficacité. Avec seulement 14 milliards de paramètres, il obtient des performances élevées tout en étant significativement plus faible et plus économe en ressources que de nombreux autres modèles de premier plan.

Innovations derrière le succès de Deepcoder

Le développement de Deepcoder-14b impliquait de surmonter plusieurs défis, en particulier dans les modèles de codage de formation à l'aide de l'apprentissage par renforcement. Un obstacle majeur a été la conservation des données de formation. Contrairement aux tâches mathématiques, où des données de haute qualité et vérifiables sont nombreuses, les données de codage peuvent être rares. L'équipe Deepcoder l'a abordé en mettant en œuvre un pipeline rigoureux pour recueillir et filtrer des exemples à partir de divers ensembles de données, assurer la validité, la complexité et éviter la duplication. Ce processus a entraîné 24 000 problèmes de haute qualité, qui ont formé une base solide pour la formation RL.

L'équipe a également conçu une fonction de récompense simple qui ne récompense le modèle que si le code généré passe avec succès tous les tests unitaires échantillonnés dans un délai défini. Cette approche, associée à des exemples de formation de haute qualité, a permis que le modèle se concentre sur la résolution des problèmes de base plutôt que sur l'exploitation des raccourcis.

L'algorithme de formation de Deepcoder-14b est basé sur l'optimisation relative des politiques de groupe (GRPO), qui a réussi dans Deepseek-R1. Cependant, l'équipe a apporté des modifications importantes pour améliorer la stabilité et permettre des durées d'entraînement plus longues.

Grpo +

* GRPO + permet à Deepcoder-14 de continuer pour des durées plus longues sans effondrement du crédit: ensemble Ai *

De plus, l'équipe a étendu itérativement la fenêtre de contexte du modèle, en commençant par des séquences plus courtes et en les augmentant progressivement. Ils ont également introduit une méthode de filtrage pour éviter la pénalisation du modèle pour dépasser les limites de contexte lors de la résolution des invites complexes.

Extension de contexte itérative

* Deepcoder a été formé sur des problèmes de contexte 32k mais a également pu résoudre le crédit de tâches de 64K: ensemble Ai *

Les chercheurs ont expliqué leur approche: "Pour préserver le raisonnement à long terme tout en permettant une formation efficace, nous avons incorporé un filtrage trop long ... Cette technique masque des séquences tronquées pendant la formation afin que les modèles ne soient pas pénalisés pour générer des résultats réfléchis mais longs qui dépassent la limite de contexte actuelle." La formation a évolué d'une fenêtre de contexte de 16k à 32k, permettant au modèle de s'attaquer aux problèmes nécessitant jusqu'à 64k jetons.

Optimisation de la formation RL à long contexte

La formation de grands modèles avec RL, en particulier sur les tâches qui génèrent de longues séquences comme le codage, est notoirement lente et à forte intensité de ressources. L'étape d'échantillonnage, où le modèle génère des milliers de jetons par exemple, entraîne souvent des retards importants en raison de la longueur de réponse variable.

Pour résoudre ce problème, l'équipe a développé Verl-Pipeline, une extension optimisée de la bibliothèque Verl open source pour l'apprentissage par renforcement de la rétroaction humaine (RLHF). Leur innovation "pipeline unique" a restructuré les mises à jour d'échantillonnage et de modèle pour minimiser les goulots d'étranglement et réduire le temps d'inactivité sur les accélérateurs.

Pipeline unique

* Pipeline unique *

Leurs expériences ont démontré que le pipeline unique pourrait accélérer les tâches RL codantes jusqu'à 2x par rapport aux méthodes standard. Cette optimisation a été cruciale dans la formation Deepcoder-14b dans un délai raisonnable (2,5 semaines sur 32 H100S) et est désormais open source dans le cadre de Verl-Pipeline pour que la communauté puisse tirer parti.

Impact de l'entreprise et collaboration open source

Les chercheurs ont mis tous les artefacts de formation et opérationnels pour Deepcoder-14b disponibles sur Github et étreignant le visage sous une licence permissive. "En partageant pleinement notre ensemble de données, notre code et notre recette de formation, nous permettons à la communauté de reproduire notre travail et de rendre la formation RL accessible à tous", ont-ils déclaré.

Deepcoder-14b illustre la tendance croissante des modèles efficaces et ouvertement accessibles dans le paysage de l'IA. Pour les entreprises, cela signifie plus d'options et une plus grande accessibilité aux modèles avancés. La génération et le raisonnement de code haute performance ne sont plus exclusifs aux grandes sociétés ou à ceux qui sont prêts à payer de lourds frais d'API. Les organisations de toutes tailles peuvent désormais exploiter ces capacités, adapter les solutions à leurs besoins spécifiques et les déployer en toute sécurité dans leur environnement.

Ce changement est sur le point de réduire les obstacles à l'adoption de l'IA, favorisant un écosystème plus compétitif et innovant motivé par la collaboration open source.

Article connexe
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros O AIS de Deepseek descobre desejos humanos verdadeiros O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA ​​Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA ​​promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
Commentaires (0)
0/200
OR