option
Maison
Nouvelles
Deepcoder atteint une efficacité de codage élevée avec un modèle ouvert 14B

Deepcoder atteint une efficacité de codage élevée avec un modèle ouvert 14B

23 avril 2025
81

Présentation de Deepcoder-14b: une nouvelle frontière dans les modèles de codage open source

Les équipes de Togelt Ai et Agetica ont dévoilé Deepcoder-14b, un modèle de codage révolutionnaire qui se dresse d'épaule à épaule avec des modèles propriétaires de haut niveau comme O3-MinI d'Openai. Ce développement passionnant est construit sur la base de Deepseek-R1 et offre une flexibilité accrue pour intégrer la génération de code et le raisonnement de code haute performance dans des applications pratiques. De plus, les créateurs ont franchi une étape louable par le modèle entièrement ouvert, y compris ses données de formation, le code, les journaux et les optimisations du système. Cette décision est définie pour catalyser la recherche et accélérer les progrès dans le domaine.

Performances impressionnantes dans un package compact

Deepcoder-14b a montré des résultats remarquables à travers divers repères de codage tels que LivecodeBench (LCB), CodeForces et Humaneval +. Les expériences de l'équipe de recherche ont souligné que les performances du modèle sont à égalité avec les principaux modèles comme O3-MinI (bas) et O1. "Notre modèle démontre de solides performances dans tous les benchmarks codants ... comparables aux performances d'O3-MinI (bas) et O1", ont déclaré fièrement les chercheurs dans leur article de blog.

Ce qui est particulièrement intrigant, c'est que, bien qu'il soit principalement formé sur les tâches de codage, Deepcoder-14b a également montré une amélioration notable du raisonnement mathématique, atteignant un score de 73,8% sur la référence AIME 2024. Cela marque une augmentation de 4,1% par rapport à son modèle de base, Deepseek-R1-Distill-QWEN-14B, ce qui suggère que les compétences de raisonnement perfectionnées par l'apprentissage par renforcement (RL) sur le code peuvent efficacement transférer vers d'autres domaines.

Performance Deepcoder-14b

* Crédit: ensemble ai *

La caractéristique la plus excitante de Deepcoder-14b est peut-être son efficacité. Avec seulement 14 milliards de paramètres, il obtient des performances élevées tout en étant significativement plus faible et plus économe en ressources que de nombreux autres modèles de premier plan.

Innovations derrière le succès de Deepcoder

Le développement de Deepcoder-14b impliquait de surmonter plusieurs défis, en particulier dans les modèles de codage de formation à l'aide de l'apprentissage par renforcement. Un obstacle majeur a été la conservation des données de formation. Contrairement aux tâches mathématiques, où des données de haute qualité et vérifiables sont nombreuses, les données de codage peuvent être rares. L'équipe Deepcoder l'a abordé en mettant en œuvre un pipeline rigoureux pour recueillir et filtrer des exemples à partir de divers ensembles de données, assurer la validité, la complexité et éviter la duplication. Ce processus a entraîné 24 000 problèmes de haute qualité, qui ont formé une base solide pour la formation RL.

L'équipe a également conçu une fonction de récompense simple qui ne récompense le modèle que si le code généré passe avec succès tous les tests unitaires échantillonnés dans un délai défini. Cette approche, associée à des exemples de formation de haute qualité, a permis que le modèle se concentre sur la résolution des problèmes de base plutôt que sur l'exploitation des raccourcis.

L'algorithme de formation de Deepcoder-14b est basé sur l'optimisation relative des politiques de groupe (GRPO), qui a réussi dans Deepseek-R1. Cependant, l'équipe a apporté des modifications importantes pour améliorer la stabilité et permettre des durées d'entraînement plus longues.

Grpo +

* GRPO + permet à Deepcoder-14 de continuer pour des durées plus longues sans effondrement du crédit: ensemble Ai *

De plus, l'équipe a étendu itérativement la fenêtre de contexte du modèle, en commençant par des séquences plus courtes et en les augmentant progressivement. Ils ont également introduit une méthode de filtrage pour éviter la pénalisation du modèle pour dépasser les limites de contexte lors de la résolution des invites complexes.

Extension de contexte itérative

* Deepcoder a été formé sur des problèmes de contexte 32k mais a également pu résoudre le crédit de tâches de 64K: ensemble Ai *

Les chercheurs ont expliqué leur approche: "Pour préserver le raisonnement à long terme tout en permettant une formation efficace, nous avons incorporé un filtrage trop long ... Cette technique masque des séquences tronquées pendant la formation afin que les modèles ne soient pas pénalisés pour générer des résultats réfléchis mais longs qui dépassent la limite de contexte actuelle." La formation a évolué d'une fenêtre de contexte de 16k à 32k, permettant au modèle de s'attaquer aux problèmes nécessitant jusqu'à 64k jetons.

Optimisation de la formation RL à long contexte

La formation de grands modèles avec RL, en particulier sur les tâches qui génèrent de longues séquences comme le codage, est notoirement lente et à forte intensité de ressources. L'étape d'échantillonnage, où le modèle génère des milliers de jetons par exemple, entraîne souvent des retards importants en raison de la longueur de réponse variable.

Pour résoudre ce problème, l'équipe a développé Verl-Pipeline, une extension optimisée de la bibliothèque Verl open source pour l'apprentissage par renforcement de la rétroaction humaine (RLHF). Leur innovation "pipeline unique" a restructuré les mises à jour d'échantillonnage et de modèle pour minimiser les goulots d'étranglement et réduire le temps d'inactivité sur les accélérateurs.

Pipeline unique

* Pipeline unique *

Leurs expériences ont démontré que le pipeline unique pourrait accélérer les tâches RL codantes jusqu'à 2x par rapport aux méthodes standard. Cette optimisation a été cruciale dans la formation Deepcoder-14b dans un délai raisonnable (2,5 semaines sur 32 H100S) et est désormais open source dans le cadre de Verl-Pipeline pour que la communauté puisse tirer parti.

Impact de l'entreprise et collaboration open source

Les chercheurs ont mis tous les artefacts de formation et opérationnels pour Deepcoder-14b disponibles sur Github et étreignant le visage sous une licence permissive. "En partageant pleinement notre ensemble de données, notre code et notre recette de formation, nous permettons à la communauté de reproduire notre travail et de rendre la formation RL accessible à tous", ont-ils déclaré.

Deepcoder-14b illustre la tendance croissante des modèles efficaces et ouvertement accessibles dans le paysage de l'IA. Pour les entreprises, cela signifie plus d'options et une plus grande accessibilité aux modèles avancés. La génération et le raisonnement de code haute performance ne sont plus exclusifs aux grandes sociétés ou à ceux qui sont prêts à payer de lourds frais d'API. Les organisations de toutes tailles peuvent désormais exploiter ces capacités, adapter les solutions à leurs besoins spécifiques et les déployer en toute sécurité dans leur environnement.

Ce changement est sur le point de réduire les obstacles à l'adoption de l'IA, favorisant un écosystème plus compétitif et innovant motivé par la collaboration open source.

Article connexe
Deep Cogito phát hành các mô hình AI nguồn mở và đã đứng đầu bảng xếp hạng Deep Cogito phát hành các mô hình AI nguồn mở và đã đứng đầu bảng xếp hạng Deep Cogito Ra Mắt Các Mô Hình Trí Tuệ Nhân Tạo Cách MạngTrong một bước đi đột phá, Deep Cogito, một công ty khởi nghiệp nghiên cứu AI hàng đầu có trụ sở tại San Francisco, đã chín
Hệ thống tập trung thật cho Thực tế tăng cường giá cả phải chăng Hệ thống tập trung thật cho Thực tế tăng cường giá cả phải chăng Thay đổi cuộc chơi trong Thực tế Tăng cường Dựa trên Chiếu hìnhCác nhà nghiên cứu từ Viện Điện tử và Viễn thông danh tiếng (IEEE) đã đạt được bước tiến vượt bậc trong lĩnh vực thực
Cựu CEO OpenAI Cảnh Báo Về Sự Nịnh Hót và Xu Nịnh của AI Cựu CEO OpenAI Cảnh Báo Về Sự Nịnh Hót và Xu Nịnh của AI Sự thật đáng lo ngại về AI quá đồng ýHãy tưởng tượng một trợ lý AI đồng ý với mọi điều bạn nói, bất kể ý tưởng của bạn có phi lý hay gây hại đến đâu. Nó nghe như cốt truyện từ một
commentaires (5)
0/200
NicholasGonzález
NicholasGonzález 24 avril 2025 00:00:00 UTC

DeepCoder-14B is a beast! It's amazing how it can code so efficiently, almost like having a top-notch programmer on speed dial. I've used it for some complex projects and it nailed it every time. The only thing is, it can be a bit slow on my old laptop. Still, a solid tool for any coder! 🤓💻

RaymondGreen
RaymondGreen 24 avril 2025 00:00:00 UTC

DeepCoder-14Bは本当に素晴らしいです!効率的にコードを書くことができ、まるで一流のプログラマーをいつでも呼べるようです。複雑なプロジェクトでも完璧にこなしてくれます。ただ、私の古いラップトップでは少し遅いですね。それでも、どんなコーダーにもおすすめのツールです!🤓💻

HaroldLopez
HaroldLopez 24 avril 2025 00:00:00 UTC

DeepCoder-14B 정말 대단해요! 효율적으로 코드를 작성할 수 있어서, 마치 최고의 프로그래머를 언제든지 불러낼 수 있는 것 같아요. 복잡한 프로젝트도 매번 완벽하게 해냈어요. 다만, 제 오래된 랩탑에서는 조금 느리네요. 그래도 어떤 코더에게나 추천할 만한 도구입니다! 🤓💻

JimmyJohnson
JimmyJohnson 24 avril 2025 00:00:00 UTC

DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻

SebastianAnderson
SebastianAnderson 24 avril 2025 00:00:00 UTC

¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻

Retour en haut
OR