DeepCoder는 14B 오픈 모델로 높은 코딩 효율을 달성합니다
DeepCoder-14B 소개: 오픈 소스 코딩 모델의 새로운 지평
Together AI와 Agentica의 팀은 DeepCoder-14B를 공개했습니다. 이는 OpenAI의 o3-mini와 같은 최고 수준의 독점 모델과 어깨를 나란히 하는 획기적인 코딩 모델입니다. 이 흥미로운 개발은 DeepSeek-R1을 기반으로 하며, 고성능 코드 생성 및 추론을 실제 응용 프로그램에 통합할 수 있는 향상된 유연성을 제공합니다. 더욱이, 제작자들은 모델을 완전히 오픈 소스로 공개하며 훈련 데이터, 코드, 로그, 시스템 최적화를 포함하는 훌륭한 조치를 취했습니다. 이 결정은 연구를 촉진하고 해당 분야의 발전을 가속화할 것입니다.
컴팩트한 패키지에서의 인상적인 성능
DeepCoder-14B는 LiveCodeBench(LCB), Codeforces, HumanEval+와 같은 다양한 코딩 벤치마크에서 놀라운 결과를 보여주었습니다. 연구팀의 실험은 이 모델의 성능이 o3-mini(낮음) 및 o1과 같은 선도 모델들과 동등하다는 것을 강조했습니다. 연구진은 블로그 포스트에서 “우리 모델은 모든 코딩 벤치마크에서 강력한 성능을 보여주며… o3-mini(낮음) 및 o1의 성능과 비슷하다”고 자랑스럽게 밝혔습니다.
특히 흥미로운 점은 주로 코딩 작업에 훈련되었음에도 불구하고, DeepCoder-14B는 수학적 추론에서도 주목할 만한 향상을 보여 AIME 2024 벤치마크에서 73.8%의 점수를 달성했습니다. 이는 기본 모델인 DeepSeek-R1-Distill-Qwen-14B보다 4.1% 향상된 결과로, 코드에 대한 강화 학습(RL)을 통해 연마된 추론 기술이 다른 도메인으로 효과적으로 전이될 수 있음을 시사합니다.

*출처: Together AI* DeepCoder-14B의 가장 흥미로운 특징은 그 효율성입니다. 140억 개의 파라미터만으로도 높은 성능을 달성하며, 다른 많은 선도 모델들보다 훨씬 작고 자원 효율적입니다.
DeepCoder 성공의 이면에 있는 혁신
DeepCoder-14B 개발에는 강화 학습을 사용한 코딩 모델 훈련에서 여러 가지 도전 과제를 극복하는 과정이 포함되었습니다. 주요 장애물 중 하나는 훈련 데이터의 선별이었습니다. 고품질의 검증 가능한 데이터가 풍부한 수학적 작업과 달리, 코딩 데이터는 부족할 수 있습니다. DeepCoder 팀은 다양한 데이터셋에서 예제를 수집하고 필터링하는 엄격한 파이프라인을 구현하여 유효성, 복잡성, 중복 방지를 보장함으로써 이를 해결했습니다. 이 과정은 RL 훈련을 위한 견고한 기반이 되는 24,000개의 고품질 문제를 만들어냈습니다.
팀은 또한 생성된 코드가 설정된 시간 제한 내에서 모든 샘플링된 단위 테스트를 성공적으로 통과할 경우에만 모델에 보상을 주는 간단한 보상 함수를 고안했습니다. 이러한 접근 방식은 고품질 훈련 예제와 결합하여 모델이 단축키를 활용하기보다는 핵심 문제를 해결하는 데 집중하도록 했습니다.
DeepCoder-14B의 훈련 알고리즘은 DeepSeek-R1에서 성공적이었던 Group Relative Policy Optimization(GRPO)을 기반으로 하지만, 팀은 안정성을 높이고 더 긴 훈련 기간을 가능하게 하기 위해 상당한 수정 작업을 수행했습니다.

*GRPO+는 DeepCoder-14가 붕괴 없이 더 긴 기간 동안 지속할 수 있도록 합니다 출처: Together AI* 또한, 팀은 모델의 컨텍스트 창을 반복적으로 확장하여 짧은 시퀀스에서 시작해 점진적으로 늘려갔습니다. 또한 복잡한 프롬프트를 해결할 때 컨텍스트 제한을 초과하는 것에 대해 모델이 불이익을 받지 않도록 필터링 방법을 도입했습니다.

*DeepCoder는 32K 컨텍스트 문제로 훈련되었지만 64K 작업도 해결할 수 있었습니다 출처: Together AI* 연구진은 그들의 접근 방식을 이렇게 설명했습니다: “효율적인 훈련을 가능하게 하면서 장문 컨텍스트 추론을 보존하기 위해, 우리는 과도한 필터링을 포함했습니다… 이 기술은 훈련 중 잘린 시퀀스를 마스킹하여 모델이 현재 컨텍스트 제한을 초과하는 신중하지만 긴 출력을 생성하는 데 불이익을 받지 않도록 합니다.” 훈련은 16K에서 32K 컨텍스트 창으로 확장되어 최대 64K 토큰이 필요한 문제를 해결할 수 있게 했습니다.
장문 컨텍스트 RL 훈련 최적화
코딩과 같이 긴 시퀀스를 생성하는 작업에 RL로 대규모 모델을 훈련시키는 것은 매우 느리고 자원 집약적입니다. 모델이 예제당 수천 개의 토큰을 생성하는 샘플링 단계는 응답 길이의 다양성으로 인해 상당한 지연을 초래합니다.
이를 해결하기 위해 팀은 인간 피드백으로부터의 강화 학습(RLHF)을 위한 오픈 소스 verl 라이브러리의 최적화된 확장인 verl-pipeline을 개발했습니다. 그들의 “One-Off Pipelining” 혁신은 샘플링과 모델 업데이트를 재구성하여 병목 현상을 최소화하고 가속기의 유휴 시간을 줄였습니다.

*One-Off Pipelining* 그들의 실험은 one-off pipelining이 표준 방법에 비해 코딩 RL 작업을 최대 2배까지 가속화할 수 있음을 보여주었습니다. 이 최적화는 DeepCoder-14B를 합리적인 시간 내(32개의 H100에서 2.5주)에 훈련시키는 데 결정적이었으며, 이제 커뮤니티가 활용할 수 있도록 verl-pipeline의 일부로 오픈 소스화되었습니다.
기업 영향과 오픈 소스 협업
연구진은 DeepCoder-14B의 모든 훈련 및 운영 아티팩트를 GitHub와 Hugging Face에 허용 라이선스로 공개했습니다. “우리의 데이터셋, 코드, 훈련 레시피를 완전히 공유함으로써, 우리는 커뮤니티가 우리의 작업을 재현하고 RL 훈련을 모두에게 접근 가능하게 할 수 있도록 힘을 실어줍니다”라고 그들은 밝혔습니다.
DeepCoder-14B는 AI 환경에서 효율적이고 공개적으로 접근 가능한 모델의 증가 추세를 잘 보여줍니다. 기업에게 이는 고급 모델에 대한 더 많은 선택지와 더 큰 접근성을 의미합니다. 고성능 코드 생성과 추론은 더 이상 대기업이나 높은 API 비용을 지불하려는 이들에게만 독점적이지 않습니다. 이제 모든 규모의 조직이 이러한 기능을 활용하여 특정 요구에 맞는 솔루션을 맞춤화하고 안전하게 환경 내에서 배포할 수 있습니다.
이러한 변화는 AI 채택의 장벽을 낮추고 오픈 소스 협업에 의해 구동되는 보다 경쟁적이고 혁신적인 생태계를 촉진할 준비가 되어 있습니다.
관련 기사
과학 연구 및 발견의 혁신을 지원하는 Google 클라우드
디지털 혁명은 전례 없는 연산 능력을 통해 과학적 방법론을 변화시키고 있습니다. 최첨단 기술은 이제 이론적 프레임워크와 실험실 실험을 모두 보강하여 정교한 시뮬레이션과 빅데이터 분석을 통해 여러 분야에 걸쳐 획기적인 발전을 촉진하고 있습니다.기초 연구, 확장 가능한 클라우드 아키텍처, 인공 지능 개발에 전략적으로 투자함으로써 과학 발전을 가속화하는 생태계를
실생활에 더 큰 영향을 미치는 과학적 연구를 가속화하는 AI
Google은 지속적으로 AI를 과학 발전의 촉매제로 활용해 왔으며, 오늘날의 발견 속도는 놀랍도록 새로운 수준에 도달했습니다. 이러한 가속화는 연구 주기를 변화시켜 그 어느 때보다 빠르게 근본적인 돌파구를 실용적인 응용 분야로 전환하고 있습니다.AI는 인간의 창의성을 대체하는 것이 아니라 인간의 잠재력을 강력하게 증폭시키는 역할을 합니다. Facebook
알리바바의 '제로서치' AI, 자율 학습으로 교육 비용 88% 절감
알리바바의 제로서치: AI 학습 효율성의 판도를 바꾸는 방법알리바바 그룹 연구원들은 값비싼 상용 검색 엔진 API를 완전히 우회하여 AI 시스템이 정보 검색을 학습하는 방식을 혁신할 수 있는 획기적인 방법을 개척했습니다. 이들의 제로서치 기술은 대규모 언어 모델이 훈련 단계에서 기존의 검색 엔진 상호 작용 대신 시뮬레이션 환경을 통해 정교한 검색 능력을 배
의견 (13)
0/200
FrankRodriguez
2025년 8월 26일 오후 2시 25분 25초 GMT+09:00
Wow, DeepCoder-14B sounds like a game-changer! I'm stoked to see open-source models catching up to the big players. Can't wait to try it out for my side projects—hope it’s as fast as they claim! 🚀
0
GregoryBaker
2025년 8월 11일 오후 3시 20분 39초 GMT+09:00
DeepCoder-14B sounds like a game-changer! Can't wait to try it out and see how it stacks up against the big players. 🚀
0
BillyLewis
2025년 8월 6일 오후 4시 1분 6초 GMT+09:00
Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀
0
RaymondWalker
2025년 4월 25일 오후 12시 21분 57초 GMT+09:00
¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔
0
RalphGarcia
2025년 4월 25일 오전 1시 21분 21초 GMT+09:00
DeepCoder-14B、めっちゃ面白そう!😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ!
0
SebastianAnderson
2025년 4월 24일 오후 4시 46분 12초 GMT+09:00
¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻
0
DeepCoder-14B 소개: 오픈 소스 코딩 모델의 새로운 지평
Together AI와 Agentica의 팀은 DeepCoder-14B를 공개했습니다. 이는 OpenAI의 o3-mini와 같은 최고 수준의 독점 모델과 어깨를 나란히 하는 획기적인 코딩 모델입니다. 이 흥미로운 개발은 DeepSeek-R1을 기반으로 하며, 고성능 코드 생성 및 추론을 실제 응용 프로그램에 통합할 수 있는 향상된 유연성을 제공합니다. 더욱이, 제작자들은 모델을 완전히 오픈 소스로 공개하며 훈련 데이터, 코드, 로그, 시스템 최적화를 포함하는 훌륭한 조치를 취했습니다. 이 결정은 연구를 촉진하고 해당 분야의 발전을 가속화할 것입니다.
컴팩트한 패키지에서의 인상적인 성능
DeepCoder-14B는 LiveCodeBench(LCB), Codeforces, HumanEval+와 같은 다양한 코딩 벤치마크에서 놀라운 결과를 보여주었습니다. 연구팀의 실험은 이 모델의 성능이 o3-mini(낮음) 및 o1과 같은 선도 모델들과 동등하다는 것을 강조했습니다. 연구진은 블로그 포스트에서 “우리 모델은 모든 코딩 벤치마크에서 강력한 성능을 보여주며… o3-mini(낮음) 및 o1의 성능과 비슷하다”고 자랑스럽게 밝혔습니다.
특히 흥미로운 점은 주로 코딩 작업에 훈련되었음에도 불구하고, DeepCoder-14B는 수학적 추론에서도 주목할 만한 향상을 보여 AIME 2024 벤치마크에서 73.8%의 점수를 달성했습니다. 이는 기본 모델인 DeepSeek-R1-Distill-Qwen-14B보다 4.1% 향상된 결과로, 코드에 대한 강화 학습(RL)을 통해 연마된 추론 기술이 다른 도메인으로 효과적으로 전이될 수 있음을 시사합니다.
DeepCoder-14B의 가장 흥미로운 특징은 그 효율성입니다. 140억 개의 파라미터만으로도 높은 성능을 달성하며, 다른 많은 선도 모델들보다 훨씬 작고 자원 효율적입니다.
DeepCoder 성공의 이면에 있는 혁신
DeepCoder-14B 개발에는 강화 학습을 사용한 코딩 모델 훈련에서 여러 가지 도전 과제를 극복하는 과정이 포함되었습니다. 주요 장애물 중 하나는 훈련 데이터의 선별이었습니다. 고품질의 검증 가능한 데이터가 풍부한 수학적 작업과 달리, 코딩 데이터는 부족할 수 있습니다. DeepCoder 팀은 다양한 데이터셋에서 예제를 수집하고 필터링하는 엄격한 파이프라인을 구현하여 유효성, 복잡성, 중복 방지를 보장함으로써 이를 해결했습니다. 이 과정은 RL 훈련을 위한 견고한 기반이 되는 24,000개의 고품질 문제를 만들어냈습니다.
팀은 또한 생성된 코드가 설정된 시간 제한 내에서 모든 샘플링된 단위 테스트를 성공적으로 통과할 경우에만 모델에 보상을 주는 간단한 보상 함수를 고안했습니다. 이러한 접근 방식은 고품질 훈련 예제와 결합하여 모델이 단축키를 활용하기보다는 핵심 문제를 해결하는 데 집중하도록 했습니다.
DeepCoder-14B의 훈련 알고리즘은 DeepSeek-R1에서 성공적이었던 Group Relative Policy Optimization(GRPO)을 기반으로 하지만, 팀은 안정성을 높이고 더 긴 훈련 기간을 가능하게 하기 위해 상당한 수정 작업을 수행했습니다.
또한, 팀은 모델의 컨텍스트 창을 반복적으로 확장하여 짧은 시퀀스에서 시작해 점진적으로 늘려갔습니다. 또한 복잡한 프롬프트를 해결할 때 컨텍스트 제한을 초과하는 것에 대해 모델이 불이익을 받지 않도록 필터링 방법을 도입했습니다.
연구진은 그들의 접근 방식을 이렇게 설명했습니다: “효율적인 훈련을 가능하게 하면서 장문 컨텍스트 추론을 보존하기 위해, 우리는 과도한 필터링을 포함했습니다… 이 기술은 훈련 중 잘린 시퀀스를 마스킹하여 모델이 현재 컨텍스트 제한을 초과하는 신중하지만 긴 출력을 생성하는 데 불이익을 받지 않도록 합니다.” 훈련은 16K에서 32K 컨텍스트 창으로 확장되어 최대 64K 토큰이 필요한 문제를 해결할 수 있게 했습니다.
장문 컨텍스트 RL 훈련 최적화
코딩과 같이 긴 시퀀스를 생성하는 작업에 RL로 대규모 모델을 훈련시키는 것은 매우 느리고 자원 집약적입니다. 모델이 예제당 수천 개의 토큰을 생성하는 샘플링 단계는 응답 길이의 다양성으로 인해 상당한 지연을 초래합니다.
이를 해결하기 위해 팀은 인간 피드백으로부터의 강화 학습(RLHF)을 위한 오픈 소스 verl 라이브러리의 최적화된 확장인 verl-pipeline을 개발했습니다. 그들의 “One-Off Pipelining” 혁신은 샘플링과 모델 업데이트를 재구성하여 병목 현상을 최소화하고 가속기의 유휴 시간을 줄였습니다.
그들의 실험은 one-off pipelining이 표준 방법에 비해 코딩 RL 작업을 최대 2배까지 가속화할 수 있음을 보여주었습니다. 이 최적화는 DeepCoder-14B를 합리적인 시간 내(32개의 H100에서 2.5주)에 훈련시키는 데 결정적이었으며, 이제 커뮤니티가 활용할 수 있도록 verl-pipeline의 일부로 오픈 소스화되었습니다.
기업 영향과 오픈 소스 협업
연구진은 DeepCoder-14B의 모든 훈련 및 운영 아티팩트를 GitHub와 Hugging Face에 허용 라이선스로 공개했습니다. “우리의 데이터셋, 코드, 훈련 레시피를 완전히 공유함으로써, 우리는 커뮤니티가 우리의 작업을 재현하고 RL 훈련을 모두에게 접근 가능하게 할 수 있도록 힘을 실어줍니다”라고 그들은 밝혔습니다.
DeepCoder-14B는 AI 환경에서 효율적이고 공개적으로 접근 가능한 모델의 증가 추세를 잘 보여줍니다. 기업에게 이는 고급 모델에 대한 더 많은 선택지와 더 큰 접근성을 의미합니다. 고성능 코드 생성과 추론은 더 이상 대기업이나 높은 API 비용을 지불하려는 이들에게만 독점적이지 않습니다. 이제 모든 규모의 조직이 이러한 기능을 활용하여 특정 요구에 맞는 솔루션을 맞춤화하고 안전하게 환경 내에서 배포할 수 있습니다.
이러한 변화는 AI 채택의 장벽을 낮추고 오픈 소스 협업에 의해 구동되는 보다 경쟁적이고 혁신적인 생태계를 촉진할 준비가 되어 있습니다.




Wow, DeepCoder-14B sounds like a game-changer! I'm stoked to see open-source models catching up to the big players. Can't wait to try it out for my side projects—hope it’s as fast as they claim! 🚀




DeepCoder-14B sounds like a game-changer! Can't wait to try it out and see how it stacks up against the big players. 🚀




Wow, DeepCoder-14B sounds like a game-changer for open-source coding! I'm curious how it stacks up against o3-mini in real-world projects. Anyone tried it yet? 🚀




¡DeepCoder-14B es una locura! Un modelo de código abierto que compite con los grandes. ¿Será el fin de los modelos propietarios? 🤔




DeepCoder-14B、めっちゃ面白そう!😊 オープンソースでここまでできるなんて、コーディングの未来が楽しみ!




¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻












