Heim Nachricht DeepCoder erreicht eine hohe Codierungseffizienz mit 14B Open -Modell

DeepCoder erreicht eine hohe Codierungseffizienz mit 14B Open -Modell

23. April 2025
SamuelRamirez
0

Einführung von DeepCoder-14b: Eine neue Grenze in Open-Source-Codierungsmodellen

Die Teams von Together AI und Agentica haben DeepCoder-14b vorgestellt, ein bahnbrechendes Codierungsmodell, das Schulter-an-Schulter mit hochrangigen proprietären Modellen wie Openai's O3-Mini steht. Diese aufregende Entwicklung basiert auf der Grundlage von Deepseek-R1 und bietet eine verbesserte Flexibilität für die Integration von Hochleistungscodegenerierung und -Reming in praktische Anwendungen. Darüber hinaus haben die Schöpfer einen lobenswerten Schritt gemacht, indem sie das Modell vollständig öffnen, einschließlich der Schulungsdaten, Code, Protokolle und Systemoptimierungen. Dieser Schritt soll die Forschung katalysieren und Fortschritte vor Ort beschleunigen.

Beeindruckende Leistung in einem kompakten Paket

DeepCoder-14b hat bemerkenswerte Ergebnisse in verschiedenen Codierungsbenchmarks wie LiveCodeBench (LCB), Codeforces und Humaneval+gezeigt. Die Experimente des Forschungsteams haben hervorgehoben, dass die Leistung des Modells mit führenden Modellen wie O3-Mini (Low) und O1 entspricht. "Unser Modell zeigt eine starke Leistung in allen kodierenden Benchmarks ... vergleichbar mit der Leistung von O3-Mini (niedrig) und O1", erklärten die Forscher stolz in ihrem Blog-Beitrag.

Besonders faszinierend ist, dass DeepCoder-14b trotz der hauptsächlich in kodierenden Aufgaben geschult wurde, und hat auch eine bemerkenswerte Verbesserung des mathematischen Denkens gezeigt und eine Punktzahl von 73,8% auf der Aime 2024-Benchmark erzielt. Dies markiert einen Anstieg von 4,1% gegenüber seinem Basismodell, Deepseek-R1-Distill-Qwen-14b, was darauf hindeutet, dass die durch Verstärkungslernen (RL) im Code verbesserten Argumentationsfähigkeiten auf andere Domänen effektiv übertragen werden können.

TEEPCODER-14B-Leistung

*Kredit: zusammen ai*

Das vielleicht aufregendste Merkmal von DeepCoder-14b ist seine Effizienz. Mit nur 14 Milliarden Parametern erzielt es eine hohe Leistung und ist gleichzeitig deutlich kleiner und ressourceneffizienter als viele andere führende Modelle.

Innovationen hinter Deepcoders Erfolg

Durch die Entwicklung von DeepCoder-14B wurden mehrere Herausforderungen überwunden, insbesondere in Trainingscodierungsmodellen mithilfe des Verstärkungslernens. Eine große Hürde war die Kuration von Trainingsdaten. Im Gegensatz zu mathematischen Aufgaben, bei denen qualitativ hochwertige, überprüfbare Daten reichlich vorhanden sind, können kodierende Daten knapp sein. Das DeepCoder -Team hat dies angesprochen, indem es eine strenge Pipeline implementierte, um Beispiele aus verschiedenen Datensätzen zu sammeln und zu filtern, um Gültigkeit, Komplexität und Vermeidung von Duplikation zu gewährleisten. Dieser Prozess führte zu 24.000 qualitativ hochwertigen Problemen, was eine robuste Grundlage für RL-Schulungen bildete.

Das Team hat auch eine einfache Belohnungsfunktion entwickelt, die das Modell nur belohnt, wenn der generierte Code alle abgetasteten Unit -Tests innerhalb eines festgelegten Zeitlimits erfolgreich bestanden hat. Dieser Ansatz in Verbindung mit hochwertigen Trainingsbeispielen stellte sicher, dass sich das Modell auf die Lösung von Kernproblemen konzentrierte, anstatt Verknüpfungen zu nutzen.

Der Trainingsalgorithmus von DeepCoder-14b basiert auf der Relativpolitikoptimierung (GRPO), die in Deepseek-R1 erfolgreich war. Das Team nahm jedoch erhebliche Änderungen vor, um die Stabilität zu verbessern und längere Trainingsdauern zu ermöglichen.

Grpo+

*GRPO+ ermöglicht DeepCoder-14, für längere Dauern weiterzumachen, ohne zu krednen: zusammen ai**

Darüber hinaus hat das Team das Kontextfenster des Modells iterativ erweitert, beginnend mit kürzeren Sequenzen und allmählich erhöhte sie. Sie führten auch eine Filtermethode ein, um zu vermeiden, dass das Modell bei der Lösung komplexer Eingabeaufforderungen überschritten wird.

iterative Kontextverlängerung

*DeepCoder wurde auf 32 -km -Kontextproblemen ausgebildet, konnte aber auch 64K -Aufgaben -Gutschriften lösen: zusammen ai**

Die Forscher erläuterten ihren Ansatz: "Um das lange Kontext-Argument zu bewahren, während wir effizientes Training ermöglichen, haben wir überlange Filterung eingebaut ... Diese Technik maskiert verkürzte Sequenzen während des Trainings aus, damit Modelle nicht für die Erzeugung von nachdenklichen, aber langwierigen Ausgaben, die das aktuelle Kontextlimit überschreiten, nicht bestraft werden." Das Training skalierte von einem 16K zu einem 32 -km -Kontextfenster, sodass das Modell Probleme angehen kann, die bis zu 64.000 Token erfordern.

Optimierung des Langkontext-RL-Trainings

Das Training großer Modelle mit RL, insbesondere bei Aufgaben, die lange Sequenzen wie Codierung erzeugen, sind notorisch langsam und ressourcenintensiv. Der Stichprobenschritt, bei dem das Modell Tausende von Token pro Beispiel erzeugt, führt häufig zu erheblichen Verzögerungen aufgrund unterschiedlicher Reaktionslängen.

Um dies anzugehen, entwickelte das Team Verl-Pipeline, eine optimierte Erweiterung der Open-Source-Verl-Bibliothek zum Verstärkungslernen aus dem menschlichen Feedback (RLHF). Ihre "einmalige Pipelining" -Novation hat die Stichproben- und Modellaktualisierungen umstrukturiert, um Engpässe zu minimieren und die Leerlaufzeit für Beschleuniger zu verkürzen.

Einmalige Pipelination

*Einmalige Pipelination*

Ihre Experimente zeigten, dass ein einmaliges Pipelining im Vergleich zu Standardmethoden die Codierung von RL-Aufgaben um bis zu 2x beschleunigen könnte. Diese Optimierung war für das Training von DeepCoder-14b innerhalb eines angemessenen Zeitrahmens (2,5 Wochen auf 32 H100) von entscheidender Bedeutung und ist jetzt als Teil der Verl-Pipeline für die Community zum Nutzen.

Enterprise Impact und Open-Source-Zusammenarbeit

Die Forscher haben alle Ausbildungs- und Betriebsartefakte für DeepCoder-14B auf Github und Umarmung im Rahmen einer zulässigen Lizenz zur Verfügung gestellt. "Indem wir unser Datensatz-, Code- und Schulungsrezept vollständig teilen, befähigen wir die Community, unsere Arbeit zu reproduzieren und RL -Schulungen für alle zugänglich zu machen", erklärten sie.

DeepCoder-14b veranschaulicht den wachsenden Trend effizienter, offen zugänglicher Modelle in der KI-Landschaft. Für Unternehmen bedeutet dies mehr Optionen und mehr Zugänglichkeit für fortschrittliche Modelle. Die Erzeugung und Argumentation von Hochleistungscode und Argumentation sind nicht mehr ausschließlich für große Unternehmen oder solche, die bereit sind, hohe API-Gebühren zu zahlen. Unternehmen aller Größen können diese Funktionen nun nutzen, Lösungen auf ihre spezifischen Bedürfnisse anpassen und sie sicher in ihren Umgebungen einsetzen.

Diese Verschiebung ist bereit, die Hindernisse für die Einführung der KI zu senken und ein wettbewerbsfähigeres und innovativeres Ökosystem zu fördern, das von Open-Source-Zusammenarbeit angetrieben wird.

Verwandter Artikel
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros O AIS de Deepseek descobre desejos humanos verdadeiros O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA ​​Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA ​​promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
Kommentare (0)
0/200
OR