option
Maison
Nouvelles
Deepcoder atteint une efficacité de codage élevée avec un modèle ouvert 14B

Deepcoder atteint une efficacité de codage élevée avec un modèle ouvert 14B

23 avril 2025
108

Présentation de DeepCoder-14B : Une nouvelle frontière dans les modèles de codage open-source

Les équipes de Together AI et Agentica ont dévoilé DeepCoder-14B, un modèle de codage révolutionnaire qui rivalise avec les modèles propriétaires de premier plan comme l'o3-mini d'OpenAI. Ce développement passionnant repose sur les bases de DeepSeek-R1 et offre une flexibilité accrue pour intégrer la génération de code et le raisonnement de haute performance dans des applications pratiques. De plus, les créateurs ont pris une initiative louable en rendant le modèle entièrement open-source, y compris ses données d'entraînement, son code, ses journaux et ses optimisations système. Cette démarche est destinée à catalyser la recherche et à accélérer les progrès dans le domaine.

Performance impressionnante dans un format compact

DeepCoder-14B a montré des résultats remarquables sur divers benchmarks de codage tels que LiveCodeBench (LCB), Codeforces et HumanEval+. Les expériences de l'équipe de recherche ont souligné que les performances du modèle sont comparables à celles des modèles leaders comme l'o3-mini (bas) et l'o1. « Notre modèle démontre une forte performance sur tous les benchmarks de codage... comparable aux performances de l'o3-mini (bas) et de l'o1 », ont fièrement déclaré les chercheurs dans leur billet de blog.

Ce qui est particulièrement intrigant, c'est que, bien qu'entraîné principalement sur des tâches de codage, DeepCoder-14B a également montré une amélioration notable dans le raisonnement mathématique, atteignant un score de 73,8 % sur le benchmark AIME 2024. Cela représente une augmentation de 4,1 % par rapport à son modèle de base, DeepSeek-R1-Distill-Qwen-14B, suggérant que les compétences de raisonnement développées grâce à l'apprentissage par renforcement (RL) sur le code peuvent être efficacement transférées à d'autres domaines.

Performance de DeepCoder-14B

*Crédit : Together AI*

La caractéristique peut-être la plus excitante de DeepCoder-14B est son efficacité. Avec seulement 14 milliards de paramètres, il atteint des performances élevées tout en étant significativement plus petit et plus économe en ressources que de nombreux autres modèles leaders.

Innovations derrière le succès de DeepCoder

Le développement de DeepCoder-14B a impliqué de surmonter plusieurs défis, notamment dans l'entraînement des modèles de codage à l'aide de l'apprentissage par renforcement. Un obstacle majeur était la curation des données d'entraînement. Contrairement aux tâches mathématiques, où les données de haute qualité et vérifiables sont abondantes, les données de codage peuvent être rares. L'équipe de DeepCoder a résolu ce problème en mettant en place un pipeline rigoureux pour collecter et filtrer des exemples provenant de divers ensembles de données, garantissant leur validité, leur complexité et évitant les duplications. Ce processus a abouti à 24 000 problèmes de haute qualité, qui ont constitué une base solide pour l'entraînement RL.

L'équipe a également conçu une fonction de récompense simple qui ne récompense le modèle que si le code généré passe avec succès tous les tests unitaires échantillonnés dans une limite de temps définie. Cette approche, couplée à des exemples d'entraînement de haute qualité, a garanti que le modèle se concentrait sur la résolution des problèmes centraux plutôt que d'exploiter des raccourcis.

L'algorithme d'entraînement de DeepCoder-14B est basé sur l'Optimisation de la Politique Relative de Groupe (GRPO), qui a réussi dans DeepSeek-R1. Cependant, l'équipe a apporté des modifications significatives pour améliorer la stabilité et permettre des durées d'entraînement plus longues.

GRPO+

*GRPO+ permet à DeepCoder-14 de continuer sur de plus longues durées sans s'effondrer Crédit : Together AI*

De plus, l'équipe a progressivement étendu la fenêtre de contexte du modèle, commençant par des séquences plus courtes et les augmentant graduellement. Ils ont également introduit une méthode de filtrage pour éviter de pénaliser le modèle lorsqu'il dépasse les limites de contexte en résolvant des prompts complexes.

Extension itérative du contexte

*DeepCoder a été entraîné sur des problèmes de contexte de 32K mais a également pu résoudre des tâches de 64K Crédit : Together AI*

Les chercheurs ont expliqué leur approche : « Pour préserver le raisonnement sur de longs contextes tout en permettant un entraînement efficace, nous avons incorporé un filtrage des séquences trop longues... Cette technique masque les séquences tronquées pendant l'entraînement afin que les modèles ne soient pas pénalisés pour générer des sorties réfléchies mais longues qui dépassent la limite de contexte actuelle. » L'entraînement a évolué d'une fenêtre de contexte de 16K à 32K, permettant au modèle de s'attaquer à des problèmes nécessitant jusqu'à 64K tokens.

Optimisation de l'entraînement RL à long contexte

L'entraînement de grands modèles avec RL, en particulier sur des tâches qui génèrent de longues séquences comme le codage, est notoirement lent et gourmand en ressources. L'étape d'échantillonnage, où le modèle génère des milliers de tokens par exemple, entraîne souvent des retards significatifs en raison des longueurs de réponse variables.

Pour y remédier, l'équipe a développé verl-pipeline, une extension optimisée de la bibliothèque open-source verl pour l'apprentissage par renforcement à partir des retours humains (RLHF). Leur innovation « One-Off Pipelining » a restructuré l'échantillonnage et les mises à jour du modèle pour minimiser les goulots d'étranglement et réduire le temps d'inactivité des accélérateurs.

One-Off Pipelining

*One-Off Pipelining*

Leurs expériences ont démontré que le pipelining one-off pouvait accélérer les tâches de codage RL jusqu'à 2 fois par rapport aux méthodes standard. Cette optimisation a été cruciale pour entraîner DeepCoder-14B dans un délai raisonnable (2,5 semaines sur 32 H100) et est maintenant open-source dans le cadre de verl-pipeline pour que la communauté puisse en tirer parti.

Impact sur les entreprises et collaboration open-source

Les chercheurs ont rendu tous les artefacts d'entraînement et opérationnels de DeepCoder-14B disponibles sur GitHub et Hugging Face sous une licence permissive. « En partageant entièrement notre ensemble de données, notre code et notre recette d'entraînement, nous permettons à la communauté de reproduire notre travail et de rendre l'entraînement RL accessible à tous », ont-ils déclaré.

DeepCoder-14B illustre la tendance croissante des modèles efficaces et accessibles publiquement dans le paysage de l'IA. Pour les entreprises, cela signifie plus d'options et une meilleure accessibilité aux modèles avancés. La génération de code et le raisonnement de haute performance ne sont plus exclusifs aux grandes entreprises ou à ceux prêts à payer des frais d'API élevés. Les organisations de toutes tailles peuvent désormais exploiter ces capacités, adapter des solutions à leurs besoins spécifiques et les déployer en toute sécurité dans leurs environnements.

Ce changement est prêt à abaisser les barrières à l'adoption de l'IA, favorisant un écosystème plus compétitif et innovant, stimulé par la collaboration open-source.

Article connexe
Étude de Microsoft révèle les limites des modèles d'IA dans le débogage de logiciels Étude de Microsoft révèle les limites des modèles d'IA dans le débogage de logiciels Les modèles d'IA d'OpenAI, Anthropic et d'autres laboratoires d'IA de pointe sont de plus en plus utilisés pour les tâches de codage. Le PDG de Google, Sundar Pichai, a noté en octobre que l'IA génère
Solutions alimentées par l'IA pourraient réduire significativement les émissions mondiales de carbone Solutions alimentées par l'IA pourraient réduire significativement les émissions mondiales de carbone Une étude récente de la London School of Economics et Systemiq révèle que l'intelligence artificielle pourrait considérablement réduire les émissions mondiales de carbone sans sacrifier les commodités
Comment l’Hôpital d’Ottawa utilise la capture vocale ambiante par IA pour réduire le burnout des médecins de 70 %, atteindre 97 % de satisfaction des patients Comment l’Hôpital d’Ottawa utilise la capture vocale ambiante par IA pour réduire le burnout des médecins de 70 %, atteindre 97 % de satisfaction des patients Comment l’IA transforme les soins de santé : Réduire le burnout et améliorer les soins aux patientsLe défi : Surcharge des cliniciens et accès des patientsLes systèmes de santé du monde entier font fa
commentaires (11)
0/200
BillyLewis
BillyLewis 6 août 2025 09:01:06 UTC+02:00

Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀

RaymondWalker
RaymondWalker 25 avril 2025 05:21:57 UTC+02:00

¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔

RalphGarcia
RalphGarcia 24 avril 2025 18:21:21 UTC+02:00

DeepCoder-14B、めっちゃ面白そう!😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ!

SebastianAnderson
SebastianAnderson 24 avril 2025 09:46:12 UTC+02:00

¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻

TerryAdams
TerryAdams 24 avril 2025 09:38:28 UTC+02:00

DeepCoder-14B, c’est impressionnant ! Un modèle open-source qui rivalise avec les géants, ça donne envie de tester. 🖥️

JimmyJohnson
JimmyJohnson 24 avril 2025 09:06:50 UTC+02:00

DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻

Retour en haut
OR