소식 DeepCoder는 14B 오픈 모델로 높은 코딩 효율을 달성합니다

DeepCoder는 14B 오픈 모델로 높은 코딩 효율을 달성합니다

2025년 4월 23일
SamuelRamirez
0

DeepCoder-14B 소개 : 오픈 소스 코딩 모델의 새로운 프론티어

함께 AI와 Agentica의 팀은 Openai의 O3-MINI와 같은 최상위 독점 모델을 갖춘 획기적인 코딩 모델 인 DeepCoder-14B를 공개했습니다. 이 흥미 진진한 개발은 DeepSeek-R1의 기초를 기반으로하며 고성능 코드 생성 및 추론을 실제 응용 프로그램에 통합 할 수있는 유연성 향상을 제공합니다. 또한, 제작자는 교육 데이터, 코드, 로그 및 시스템 최적화를 포함하여 모델을 완전히 오픈 소싱함으로써 훌륭한 단계를 밟았습니다. 이 움직임은 연구를 촉진하고 현장의 발전을 가속화하도록 설정되었습니다.

소형 패키지의 인상적인 성능

DeepCoder-14B는 LIVECODEBENCH (LCB), Codeforces 및 HumaneVal+와 같은 다양한 코딩 벤치 마크에서 놀라운 결과를 보여주었습니다. 연구팀의 실험은 모델의 성능이 O3-Mini (Low) 및 O1과 같은 주요 모델과 동등하다는 것을 강조했다. "우리의 모델은 모든 코딩 벤치 마크에서 강력한 성능을 보여줍니다. O3-MINI (LOW) 및 O1의 성능과 비슷합니다.

특히 흥미로운 점은 주로 코딩 작업에 대한 교육을 받았음에도 불구하고 DeepCoder-14B는 수학적 추론이 현저히 개선되어 AIME 2024 벤치 마크에서 73.8% 점수를 달성했다는 것입니다. 이는 기본 모델 인 DeepSeek-R1-Distill-QWEN-14B에 비해 4.1% 증가한 것으로 나타 났으며, 이는 코드에서 RL (Rencement Learning)을 통해 연마 된 추론 기술이 다른 도메인으로 효과적으로 전송 될 수 있음을 시사합니다.

DeepCoder-14B 성능

*신용 : 함께 ai*

아마도 DeepCoder-14B의 가장 흥미로운 특징은 효율성 일 것입니다. 140 억 개의 매개 변수만으로 고성능을 달성하면서 다른 많은 주요 모델보다 훨씬 작고 리소스 효율이 높습니다.

DeepCoder의 성공 뒤의 혁신

DeepCoder-14B 개발에는 특히 강화 학습을 사용한 코딩 모델 교육에서 몇 가지 과제를 극복했습니다. 중 하나의 주요 장애물은 훈련 데이터의 큐 레이션이었습니다. 고품질의 검증 가능한 데이터가 풍부한 수학적 작업과 달리 코딩 데이터는 거의 없을 수 있습니다. DeepCoder 팀은 다양한 데이터 세트에서 예제를 수집하고 필터링하여 유효성, 복잡성을 보장하며 복제를 피함으로써 엄격한 파이프 라인을 구현하여이를 해결했습니다. 이 과정은 24,000 개의 고품질 문제를 일으켜 RL 교육을위한 강력한 기반을 형성했습니다.

팀은 또한 생성 된 코드가 설정된 시간 제한 내에 모든 샘플링 된 단위 테스트를 성공적으로 전달하는 경우 모델에만 보상하는 간단한 보상 기능을 고안했습니다. 이 접근법은 고품질 교육 예제와 함께이 모델이 바로 가기를 이용하는 대신 핵심 문제를 해결하는 데 중점을 두었습니다.

DeepCoder-14B의 교육 알고리즘은 DeepSeek-R1에서 성공한 그룹 상대 정책 최적화 (GRPO)를 기반으로합니다. 그러나 팀은 안정성을 향상시키고 더 긴 훈련 기간을 가능하게하기 위해 상당한 수정을했습니다.

grpo+

*GRPO+ DeepCoder-14가 신용을 무너 뜨리지 않고 더 긴 기간 동안 계속할 수 있도록합니다.

또한 팀은 단축 시퀀스부터 시작하여 점차적으로 증가하는 모델의 컨텍스트 창을 반복적으로 확장했습니다. 또한 복잡한 프롬프트를 해결할 때 컨텍스트 한계를 초과하기 위해 모델을 처벌하지 않도록 필터링 방법을 도입했습니다.

반복적 인 컨텍스트 확장

*DeepCoder는 32K 컨텍스트 문제에 대해 교육을 받았지만 64K 작업 크레딧을 해결할 수있었습니다.

연구원들은 자신의 접근 방식을 설명했다. "효율적인 훈련을 가능하게하는 동안 장기 텍스트 추론을 보존하기 위해 오버 런던 필터링을 통합했다. 훈련은 16K에서 32K 컨텍스트 창으로 확장되어 모델이 최대 64K 토큰의 문제를 해결할 수 있습니다.

장기 텍스트 RL 교육 최적화

특히 코딩과 같은 긴 시퀀스를 생성하는 작업에서 RL로 대규모 모델을 훈련시키는 것은 악명 높고 자원 집약적입니다. 모델이 예마다 수천 개의 토큰을 생성하는 샘플링 단계는 다양한 응답 길이로 인해 상당한 지연이 발생합니다.

이를 해결하기 위해 팀은 인간 피드백 (RLHF)의 강화 학습을 위해 오픈 소스 Verl 라이브러리의 최적화 된 확장 인 Verl-Pipeline을 개발했습니다. 그들의 "일회성 파이프 라인"혁신은 샘플링 및 모델 업데이트를 재구성하여 병목 현상을 최소화하고 가속기의 유휴 시간을 줄였습니다.

일회성 파이프 라인

*일회성 파이프 라인*

그들의 실험에 따르면 일회성 파이프 라인은 표준 방법에 비해 RL 작업을 최대 2 배까지 속도를 높일 수 있음을 보여주었습니다. 이 최적화는 합리적인 기간 내에 (32 H100에서 2.5 주) DeepCoder-14B를 훈련시키는 데 중요했으며 이제 커뮤니티가 활용할 수있는 Verl-Pipeline의 일부로 개방적입니다.

엔터프라이즈 영향 및 오픈 소스 협업

연구원들은 Github에서 DeepCoder-14B를위한 모든 교육 및 운영 인공물을 허용하는 라이센스로 포옹하는 얼굴을 만들었습니다. "우리는 데이터 세트, 코드 및 교육 레시피를 완전히 공유함으로써 커뮤니티가 우리의 작업을 재현하고 RL 교육을 모두에게 접근 할 수 있도록 권한을 부여합니다."

DeepCoder-14B는 AI 환경에서 효율적이고 공개적으로 접근 가능한 모델의 증가 추세를 보여줍니다. 기업의 경우 이는 고급 모델에 대한 더 많은 옵션과 더 큰 접근성을 의미합니다. 고성능 코드 생성 및 추론은 더 이상 대기업이나 무거운 API 수수료를 지불하려는 사람들에게 배타적이지 않습니다. 모든 크기의 조직은 이제 이러한 기능을 활용하고, 특정 요구에 대한 솔루션을 조정하고, 환경에 안전하게 배치 할 수 있습니다.

이러한 변화는 AI 채택에 대한 장벽을 낮추고 오픈 소스 협력에 의해 주도되는보다 경쟁적이고 혁신적인 생태계를 촉진 할 준비가되어 있습니다.

관련 기사
'저하 된'합성면은 얼굴 인식 기술을 향상시킬 수 있습니다 '저하 된'합성면은 얼굴 인식 기술을 향상시킬 수 있습니다 미시간 주립 대학의 연구원들은 이미지 인식 시스템의 정확성을 강화하는 고귀한 원인을 위해 합성 얼굴을 사용하는 혁신적인 방법을 제시했습니다. Deepfakes 현상에 기여하는 대신, 이러한 합성면은 실제에서 발견되는 결점을 모방하도록 설계되었습니다.
Deepseek의 AIS는 진정한 인간의 욕구를 밝혀냅니다 Deepseek의 AIS는 진정한 인간의 욕구를 밝혀냅니다 AI 보상 모델에서 DeepSeek의 획기적인 발전 : AI 추론 및 대응 강화 중국 AI 스타트 업 DeepSeek는 Tsinghua University와 협력하여 AI 연구에서 중요한 이정표를 달성했습니다. AI 보상 모델에 대한 혁신적인 접근 방식은 AI 시스템이 학습하는 방식에 혁명을 약속합니다.
휴대 전화 데이터 및 기계 학습으로 '숨겨진 방문'을 발견 휴대 전화 데이터 및 기계 학습으로 '숨겨진 방문'을 발견 연구원들이 전화 통화에만 의존하지 않고 국가 간 운동을 어떻게 추적하는지 궁금했다면, 중국과 미국의 연구원들의 흥미로운 연구는 통찰력을 제공합니다. 그들의 공동 작업은 기계 학습의 사용을 탐구하여 '숨겨진 방문'을 발견합니다.
의견 (0)
0/200
OR