DeepCoder erreicht eine hohe Codierungseffizienz mit 14B Open -Modell

Heim

Nachricht

23. April 2025

SamuelRamirez

108

# research # LLMs

Einführung von DeepCoder-14B: Eine neue Grenze in Open-Source-Coding-Modellen

Die Teams bei Together AI und Agentica haben DeepCoder-14B vorgestellt, ein bahnbrechendes Coding-Modell, das mit erstklassigen proprietären Modellen wie OpenAI's o3-mini gleichzieht. Diese spannende Entwicklung basiert auf DeepSeek-R1 und bietet verbesserte Flexibilität für die Integration von leistungsstarker Codegenerierung und -logik in praktische Anwendungen. Darüber hinaus haben die Entwickler einen lobenswerten Schritt unternommen, indem sie das Modell vollständig open-source gemacht haben, einschließlich Trainingsdaten, Code, Logs und Systemoptimierungen. Dieser Schritt wird die Forschung katalysieren und Fortschritte im Bereich beschleunigen.

Beeindruckende Leistung in einem kompakten Paket

DeepCoder-14B hat bemerkenswerte Ergebnisse bei verschiedenen Coding-Benchmarks wie LiveCodeBench (LCB), Codeforces und HumanEval+ gezeigt. Die Experimente des Forschungsteams haben gezeigt, dass die Leistung des Modells mit führenden Modellen wie o3-mini (low) und o1 vergleichbar ist. „Unser Modell zeigt starke Leistungen bei allen Coding-Benchmarks... vergleichbar mit der Leistung von o3-mini (low) und o1“, erklärten die Forscher stolz in ihrem Blogbeitrag.

Besonders faszinierend ist, dass DeepCoder-14B, obwohl hauptsächlich auf Coding-Aufgaben trainiert, auch eine bemerkenswerte Verbesserung im mathematischen Denken gezeigt hat und eine Punktzahl von 73,8 % beim AIME 2024 Benchmark erreichte. Dies markiert eine Steigerung von 4,1 % gegenüber seinem Basismodell DeepSeek-R1-Distill-Qwen-14B, was darauf hindeutet, dass die durch Reinforcement Learning (RL) an Code geschulten Denkfähigkeiten effektiv auf andere Domänen übertragen werden können.

DeepCoder-14B Leistung

*Quelle: Together AI*

Die vielleicht spannendste Eigenschaft von DeepCoder-14B ist seine Effizienz. Mit nur 14 Milliarden Parametern erreicht es hohe Leistung, während es deutlich kleiner und ressourcenschonender ist als viele andere führende Modelle.

Innovationen hinter DeepCoders Erfolg

Die Entwicklung von DeepCoder-14B erforderte die Überwindung mehrerer Herausforderungen, insbesondere beim Training von Coding-Modellen mit Reinforcement Learning. Eine große Hürde war die Kuratierung der Trainingsdaten. Im Gegensatz zu mathematischen Aufgaben, bei denen hochwertige, verifizierbare Daten reichlich vorhanden sind, können Coding-Daten knapp sein. Das DeepCoder-Team löste dies durch die Implementierung einer strengen Pipeline zur Sammlung und Filterung von Beispielen aus verschiedenen Datensätzen, um Gültigkeit, Komplexität und Vermeidung von Duplikaten zu gewährleisten. Dieses Verfahren führte zu 24.000 hochwertigen Problemen, die eine robuste Grundlage für das RL-Training bildeten.

Das Team entwickelte auch eine einfache Belohnungsfunktion, die das Modell nur belohnt, wenn der generierte Code alle gesampelten Unit-Tests innerhalb einer festgelegten Zeitgrenze erfolgreich besteht. Dieser Ansatz, gepaart mit hochwertigen Trainingsbeispielen, stellte sicher, dass das Modell sich auf die Lösung zentraler Probleme konzentrierte, anstatt Abkürzungen auszunutzen.

Der Trainingsalgorithmus von DeepCoder-14B basiert auf Group Relative Policy Optimization (GRPO), das in DeepSeek-R1 erfolgreich war. Das Team nahm jedoch bedeutende Änderungen vor, um die Stabilität zu verbessern und längere Trainingsdauern zu ermöglichen.

GRPO+

*GRPO+ ermöglicht DeepCoder-14 längere Laufzeiten ohne Zusammenbruch Quelle: Together AI*

Zusätzlich erweiterte das Team iterativ das Kontextfenster des Modells, beginnend mit kürzeren Sequenzen und diese schrittweise erhöhend. Sie führten auch eine Filtermethode ein, um zu vermeiden, dass das Modell für das Überschreiten von Kontextgrenzen bei der Lösung komplexer Prompts bestraft wird.

Iterative Kontexterweiterung

*DeepCoder wurde auf 32K-Kontextprobleme trainiert, konnte aber auch 64K-Aufgaben lösen Quelle: Together AI*

Die Forscher erläuterten ihren Ansatz: „Um langkontextuelles Denken zu bewahren und gleichzeitig effizientes Training zu ermöglichen, haben wir überlange Filterung integriert... Diese Technik maskiert abgeschnittene Sequenzen während des Trainings, sodass Modelle nicht für das Generieren durchdachter, aber langer Ausgaben bestraft werden, die die aktuelle Kontextgrenze überschreiten.“ Das Training skalierte von einem 16K- zu einem 32K-Kontextfenster, was dem Modell ermöglichte, Probleme mit bis zu 64K Token anzugehen.

Optimierung des Langkontext-RL-Trainings

Das Training großer Modelle mit RL, insbesondere bei Aufgaben, die lange Sequenzen wie Coding generieren, ist notorisch langsam und ressourcenintensiv. Der Sampling-Schritt, bei dem das Modell Tausende von Token pro Beispiel generiert, führt oft zu erheblichen Verzögerungen aufgrund variierender Antwortlängen.

Um dies anzugehen, entwickelte das Team verl-pipeline, eine optimierte Erweiterung der Open-Source-verl-Bibliothek für Reinforcement Learning von menschlichem Feedback (RLHF). Ihre „One-Off Pipelining“-Innovation restrukturierte das Sampling und die Modellaktualisierungen, um Engpässe zu minimieren und Leerlaufzeiten auf Beschleunigern zu reduzieren.

One-Off Pipelining

*One-Off Pipelining*

Ihre Experimente zeigten, dass One-Off Pipelining Coding-RL-Aufgaben im Vergleich zu Standardmethoden um bis zu 2x beschleunigen konnte. Diese Optimierung war entscheidend, um DeepCoder-14B in einem angemessenen Zeitrahmen (2,5 Wochen auf 32 H100s) zu trainieren und ist nun als Teil von verl-pipeline für die Community open-source verfügbar.

Unternehmensauswirkungen und Open-Source-Zusammenarbeit

Die Forscher haben alle Trainings- und Betriebsartefakte für DeepCoder-14B auf GitHub und Hugging Face unter einer permissiven Lizenz verfügbar gemacht. „Durch das vollständige Teilen unseres Datensatzes, Codes und Trainingsrezepts befähigen wir die Community, unsere Arbeit zu reproduzieren und RL-Training für alle zugänglich zu machen“, erklärten sie.

DeepCoder-14B ist ein Beispiel für den wachsenden Trend effizienter, offen zugänglicher Modelle in der AI-Landschaft. Für Unternehmen bedeutet dies mehr Optionen und größere Zugänglichkeit zu fortschrittlichen Modellen. Hochleistungsfähige Codegenerierung und -logik sind nicht länger exklusiv für große Konzerne oder jene, die bereit sind, hohe API-Gebühren zu zahlen. Organisationen aller Größen können diese Fähigkeiten nun nutzen, Lösungen an ihre spezifischen Bedürfnisse anpassen und sie sicher in ihren Umgebungen einsetzen.

Dieser Wandel wird die Barrieren für die Einführung von AI senken und ein wettbewerbsfähigeres und innovativeres Ökosystem fördern, das von Open-Source-Zusammenarbeit angetrieben wird.

101

Verwandter Artikel

Microsoft-Studie zeigt die Grenzen von KI-Modellen beim Software-Debugging KI-Modelle von OpenAI, Anthropic und anderen führenden KI-Laboren werden zunehmend für Programmieraufgaben eingesetzt. Google-CEO Sundar Pichai bemerkte im Oktober, dass KI 25 % des neuen Codes im Unt

KI-gestützte Lösungen könnten globale Kohlenstoffemissionen erheblich reduzieren Eine kürzlich veröffentlichte Studie der London School of Economics und Systemiq zeigt, dass künstliche Intelligenz die globalen Kohlenstoffemissionen erheblich senken könnte, ohne moderne Annehmlichk

Wie das Ottawa Hospital KI-gestützte Spracherfassung nutzt, um die Burnout-Rate von Ärzten um 70% zu senken und 97% Patientenzufriedenheit zu erreichen Wie KI die Gesundheitsversorgung transformiert: Burnout reduzieren und Patientenversorgung verbessernDie Herausforderung: Überlastung der Ärzte und Zugangshürden für PatientenGesundheitssysteme weltwe

Kommentare (11)

0/200

Einreichen

BillyLewis

6. August 2025 09:01:06 MESZ

Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀

RaymondWalker

25. April 2025 05:21:57 MESZ

¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔

RalphGarcia

24. April 2025 18:21:21 MESZ

DeepCoder-14B、めっちゃ面白そう！😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ！

SebastianAnderson

24. April 2025 09:46:12 MESZ

¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻

TerryAdams

24. April 2025 09:38:28 MESZ

DeepCoder-14B, c’est impressionnant ! Un modèle open-source qui rivalise avec les géants, ça donne envie de tester. 🖥️

JimmyJohnson

24. April 2025 09:06:50 MESZ

DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen OpenAI verbessert den AI -Sprachassistenten für bessere Chats NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten AI Computing, um die Leistung mehrerer NYCs bis 2026 zu verbrauchen, sagt Gründer Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung Erleben Sie das KI-angetriebene E/A-Kreuzworträtsel: Eine moderne Wendung auf dem klassischen Wortspiel Der CEO von Nvidia verdeutlicht falsche Vorstellungen über Deepseeks Marktauswirkungen

Mehr

Vorgestellt