옵션
뉴스
DeepCoder는 14B 오픈 모델로 높은 코딩 효율을 달성합니다

DeepCoder는 14B 오픈 모델로 높은 코딩 효율을 달성합니다

2025년 4월 23일
116

DeepCoder-14B 소개: 오픈 소스 코딩 모델의 새로운 지평

Together AI와 Agentica의 팀은 DeepCoder-14B를 공개했습니다. 이는 OpenAI의 o3-mini와 같은 최고 수준의 독점 모델과 어깨를 나란히 하는 획기적인 코딩 모델입니다. 이 흥미로운 개발은 DeepSeek-R1을 기반으로 하며, 고성능 코드 생성 및 추론을 실제 응용 프로그램에 통합할 수 있는 향상된 유연성을 제공합니다. 더욱이, 제작자들은 모델을 완전히 오픈 소스로 공개하며 훈련 데이터, 코드, 로그, 시스템 최적화를 포함하는 훌륭한 조치를 취했습니다. 이 결정은 연구를 촉진하고 해당 분야의 발전을 가속화할 것입니다.

컴팩트한 패키지에서의 인상적인 성능

DeepCoder-14B는 LiveCodeBench(LCB), Codeforces, HumanEval+와 같은 다양한 코딩 벤치마크에서 놀라운 결과를 보여주었습니다. 연구팀의 실험은 이 모델의 성능이 o3-mini(낮음) 및 o1과 같은 선도 모델들과 동등하다는 것을 강조했습니다. 연구진은 블로그 포스트에서 “우리 모델은 모든 코딩 벤치마크에서 강력한 성능을 보여주며… o3-mini(낮음) 및 o1의 성능과 비슷하다”고 자랑스럽게 밝혔습니다.

특히 흥미로운 점은 주로 코딩 작업에 훈련되었음에도 불구하고, DeepCoder-14B는 수학적 추론에서도 주목할 만한 향상을 보여 AIME 2024 벤치마크에서 73.8%의 점수를 달성했습니다. 이는 기본 모델인 DeepSeek-R1-Distill-Qwen-14B보다 4.1% 향상된 결과로, 코드에 대한 강화 학습(RL)을 통해 연마된 추론 기술이 다른 도메인으로 효과적으로 전이될 수 있음을 시사합니다.

DeepCoder-14B 성능

*출처: Together AI*

DeepCoder-14B의 가장 흥미로운 특징은 그 효율성입니다. 140억 개의 파라미터만으로도 높은 성능을 달성하며, 다른 많은 선도 모델들보다 훨씬 작고 자원 효율적입니다.

DeepCoder 성공의 이면에 있는 혁신

DeepCoder-14B 개발에는 강화 학습을 사용한 코딩 모델 훈련에서 여러 가지 도전 과제를 극복하는 과정이 포함되었습니다. 주요 장애물 중 하나는 훈련 데이터의 선별이었습니다. 고품질의 검증 가능한 데이터가 풍부한 수학적 작업과 달리, 코딩 데이터는 부족할 수 있습니다. DeepCoder 팀은 다양한 데이터셋에서 예제를 수집하고 필터링하는 엄격한 파이프라인을 구현하여 유효성, 복잡성, 중복 방지를 보장함으로써 이를 해결했습니다. 이 과정은 RL 훈련을 위한 견고한 기반이 되는 24,000개의 고품질 문제를 만들어냈습니다.

팀은 또한 생성된 코드가 설정된 시간 제한 내에서 모든 샘플링된 단위 테스트를 성공적으로 통과할 경우에만 모델에 보상을 주는 간단한 보상 함수를 고안했습니다. 이러한 접근 방식은 고품질 훈련 예제와 결합하여 모델이 단축키를 활용하기보다는 핵심 문제를 해결하는 데 집중하도록 했습니다.

DeepCoder-14B의 훈련 알고리즘은 DeepSeek-R1에서 성공적이었던 Group Relative Policy Optimization(GRPO)을 기반으로 하지만, 팀은 안정성을 높이고 더 긴 훈련 기간을 가능하게 하기 위해 상당한 수정 작업을 수행했습니다.

GRPO+

*GRPO+는 DeepCoder-14가 붕괴 없이 더 긴 기간 동안 지속할 수 있도록 합니다 출처: Together AI*

또한, 팀은 모델의 컨텍스트 창을 반복적으로 확장하여 짧은 시퀀스에서 시작해 점진적으로 늘려갔습니다. 또한 복잡한 프롬프트를 해결할 때 컨텍스트 제한을 초과하는 것에 대해 모델이 불이익을 받지 않도록 필터링 방법을 도입했습니다.

반복적 컨텍스트 확장

*DeepCoder는 32K 컨텍스트 문제로 훈련되었지만 64K 작업도 해결할 수 있었습니다 출처: Together AI*

연구진은 그들의 접근 방식을 이렇게 설명했습니다: “효율적인 훈련을 가능하게 하면서 장문 컨텍스트 추론을 보존하기 위해, 우리는 과도한 필터링을 포함했습니다… 이 기술은 훈련 중 잘린 시퀀스를 마스킹하여 모델이 현재 컨텍스트 제한을 초과하는 신중하지만 긴 출력을 생성하는 데 불이익을 받지 않도록 합니다.” 훈련은 16K에서 32K 컨텍스트 창으로 확장되어 최대 64K 토큰이 필요한 문제를 해결할 수 있게 했습니다.

장문 컨텍스트 RL 훈련 최적화

코딩과 같이 긴 시퀀스를 생성하는 작업에 RL로 대규모 모델을 훈련시키는 것은 매우 느리고 자원 집약적입니다. 모델이 예제당 수천 개의 토큰을 생성하는 샘플링 단계는 응답 길이의 다양성으로 인해 상당한 지연을 초래합니다.

이를 해결하기 위해 팀은 인간 피드백으로부터의 강화 학습(RLHF)을 위한 오픈 소스 verl 라이브러리의 최적화된 확장인 verl-pipeline을 개발했습니다. 그들의 “One-Off Pipelining” 혁신은 샘플링과 모델 업데이트를 재구성하여 병목 현상을 최소화하고 가속기의 유휴 시간을 줄였습니다.

One-Off Pipelining

*One-Off Pipelining*

그들의 실험은 one-off pipelining이 표준 방법에 비해 코딩 RL 작업을 최대 2배까지 가속화할 수 있음을 보여주었습니다. 이 최적화는 DeepCoder-14B를 합리적인 시간 내(32개의 H100에서 2.5주)에 훈련시키는 데 결정적이었으며, 이제 커뮤니티가 활용할 수 있도록 verl-pipeline의 일부로 오픈 소스화되었습니다.

기업 영향과 오픈 소스 협업

연구진은 DeepCoder-14B의 모든 훈련 및 운영 아티팩트를 GitHub와 Hugging Face에 허용 라이선스로 공개했습니다. “우리의 데이터셋, 코드, 훈련 레시피를 완전히 공유함으로써, 우리는 커뮤니티가 우리의 작업을 재현하고 RL 훈련을 모두에게 접근 가능하게 할 수 있도록 힘을 실어줍니다”라고 그들은 밝혔습니다.

DeepCoder-14B는 AI 환경에서 효율적이고 공개적으로 접근 가능한 모델의 증가 추세를 잘 보여줍니다. 기업에게 이는 고급 모델에 대한 더 많은 선택지와 더 큰 접근성을 의미합니다. 고성능 코드 생성과 추론은 더 이상 대기업이나 높은 API 비용을 지불하려는 이들에게만 독점적이지 않습니다. 이제 모든 규모의 조직이 이러한 기능을 활용하여 특정 요구에 맞는 솔루션을 맞춤화하고 안전하게 환경 내에서 배포할 수 있습니다.

이러한 변화는 AI 채택의 장벽을 낮추고 오픈 소스 협업에 의해 구동되는 보다 경쟁적이고 혁신적인 생태계를 촉진할 준비가 되어 있습니다.

관련 기사
Microsoft 연구, AI 모델의 소프트웨어 디버깅 한계 드러내다 Microsoft 연구, AI 모델의 소프트웨어 디버깅 한계 드러내다 OpenAI, Anthropic 및 기타 주요 AI 연구소의 AI 모델은 코딩 작업에 점점 더 많이 활용되고 있다. Google CEO Sundar Pichai는 10월에 AI가 회사 내 새로운 코드의 25%를 생성한다고 언급했으며, Meta CEO Mark Zuckerberg는 소셜 미디어 대기업 내에서 AI 코딩 도구를 광범위하게 구현하려고 한다.그러나
AI 기반 솔루션이 글로벌 탄소 배출을 크게 줄일 수 있음 AI 기반 솔루션이 글로벌 탄소 배출을 크게 줄일 수 있음 런던 경제 학교와 Systemiq의 최근 연구에 따르면, 인공지능은 현대적 편의를 희생하지 않으면서 글로벌 탄소 배출을 상당히 줄일 수 있으며, 기후 변화 대응에서 AI를 중요한 동맹으로 자리매김하고 있습니다.이 연구는 단 세 개의 산업에서 지능형 AI 응용 프로그램을 통해 2035년까지 매년 32억에서 54억 톤의 온실가스 배출을 줄일 수 있다고 강조합니
오타와 병원이 AI 음성 캡처를 활용해 의사 소진을 70% 줄이고, 97% 환자 만족도를 달성한 방법 오타와 병원이 AI 음성 캡처를 활용해 의사 소진을 70% 줄이고, 97% 환자 만족도를 달성한 방법 AI가 의료를 어떻게 변화시키는가: 소진 감소와 환자 치료 개선도전 과제: 의료진 과부하와 환자 접근성전 세계 의료 시스템은 두 가지 도전에 직면해 있습니다: 의료진 소진과 환자 접근 지연. 의사들은 행정 업무에 압도되고, 환자들은 적시에 치료를 받기 위해 애쓰고 있습니다. 오타와 병원 (TOH)의 리더들은 이 문제를 인식하고 AI를 해결책으로 선택했습니
의견 (11)
0/200
BillyLewis
BillyLewis 2025년 8월 6일 오후 4시 1분 6초 GMT+09:00

Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀

RaymondWalker
RaymondWalker 2025년 4월 25일 오후 12시 21분 57초 GMT+09:00

¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔

RalphGarcia
RalphGarcia 2025년 4월 25일 오전 1시 21분 21초 GMT+09:00

DeepCoder-14B、めっちゃ面白そう!😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ!

SebastianAnderson
SebastianAnderson 2025년 4월 24일 오후 4시 46분 12초 GMT+09:00

¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻

TerryAdams
TerryAdams 2025년 4월 24일 오후 4시 38분 28초 GMT+09:00

DeepCoder-14B, c’est impressionnant ! Un modèle open-source qui rivalise avec les géants, ça donne envie de tester. 🖥️

JimmyJohnson
JimmyJohnson 2025년 4월 24일 오후 4시 6분 50초 GMT+09:00

DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻

위로 돌아갑니다
OR