Trang chủ Tin tức DeepCoder đạt được hiệu quả mã hóa cao với mô hình mở 14b

DeepCoder đạt được hiệu quả mã hóa cao với mô hình mở 14b

Ngày 23 tháng 4 năm 2025
SamuelRamirez
0

Giới thiệu DeepCoder-14b: Một biên giới mới trong các mô hình mã hóa nguồn mở

Các đội tại AI và Agentica cùng nhau đã tiết lộ DeepCoder-14B, một mô hình mã hóa đột phá, đứng trên vai với các mẫu xe độc ​​quyền hàng đầu như Openaii's O3-Mini. Sự phát triển thú vị này được xây dựng trên nền tảng của Deepseek-R1 và cung cấp tính linh hoạt nâng cao để tích hợp việc tạo mã hiệu suất cao và lý luận vào các ứng dụng thực tế. Hơn nữa, các nhà sáng tạo đã thực hiện một bước đáng khen ngợi bằng cách cung cấp hoàn toàn cho mô hình, bao gồm dữ liệu đào tạo, mã, nhật ký và tối ưu hóa hệ thống của nó. Động thái này được thiết lập để xúc tác cho nghiên cứu và tăng tốc tiến bộ trong lĩnh vực này.

Hiệu suất ấn tượng trong một gói nhỏ gọn

DeepCoder-14B đã cho thấy kết quả đáng chú ý trên các điểm chuẩn mã hóa khác nhau như LiveCodeBench (LCB), CodeForces và Humaneval+. Các thí nghiệm của nhóm nghiên cứu đã nhấn mạnh rằng hiệu suất của mô hình ngang bằng với các mô hình hàng đầu như O3-Mini (thấp) và O1. "Mô hình của chúng tôi thể hiện hiệu suất mạnh mẽ trên tất cả các điểm chuẩn mã hóa ... có thể so sánh với hiệu suất của O3-mini (thấp) và O1", các nhà nghiên cứu tự hào tuyên bố trong bài đăng trên blog của họ.

Điều đặc biệt hấp dẫn là, mặc dù được đào tạo chủ yếu về các nhiệm vụ mã hóa, DeepCoder-14B cũng đã cho thấy một sự cải thiện đáng chú ý trong lý luận toán học, đạt được điểm 73,8% trên điểm chuẩn AIME 2024. Điều này đánh dấu mức tăng 4,1% so với mô hình cơ sở của nó, DeepSeek-R1-Distill-Qwen-14b, cho thấy rằng các kỹ năng lý luận được mài giũa thông qua Học tập Củng cố (RL) trên mã có thể chuyển sang các miền khác một cách hiệu quả.

Hiệu suất DeepCoder-14B

*Tín dụng: cùng nhau AI*

Có lẽ tính năng thú vị nhất của DeepCoder-14B là hiệu quả của nó. Chỉ với 14 tỷ thông số, nó đạt được hiệu suất cao trong khi nhỏ hơn đáng kể và tiết kiệm tài nguyên hơn nhiều mô hình hàng đầu khác.

Những đổi mới đằng sau thành công của DeepCoder

Phát triển DeepCoder-14B liên quan đến việc khắc phục một số thách thức, đặc biệt là trong việc đào tạo các mô hình mã hóa bằng cách sử dụng học tập củng cố. Một rào cản lớn là việc quản lý dữ liệu đào tạo. Không giống như các nhiệm vụ toán học, trong đó dữ liệu chất lượng cao, có thể kiểm chứng rất phong phú, dữ liệu mã hóa có thể khan hiếm. Nhóm DeepCoder đã giải quyết vấn đề này bằng cách thực hiện một đường ống nghiêm ngặt để thu thập và lọc các ví dụ từ các bộ dữ liệu khác nhau, đảm bảo tính hợp lệ, độ phức tạp và tránh trùng lặp. Quá trình này dẫn đến 24.000 vấn đề chất lượng cao, tạo thành một nền tảng mạnh mẽ cho đào tạo RL.

Nhóm cũng đã nghĩ ra một hàm phần thưởng đơn giản chỉ thưởng cho mô hình nếu mã được tạo thành công tất cả các thử nghiệm đơn vị được lấy mẫu trong giới hạn thời gian đặt. Cách tiếp cận này, cùng với các ví dụ đào tạo chất lượng cao, đảm bảo rằng mô hình tập trung vào việc giải quyết các vấn đề cốt lõi thay vì khai thác các phím tắt.

Thuật toán đào tạo của DeepCoder-14B dựa trên tối ưu hóa chính sách tương đối nhóm (GRPO), đã thành công trong DeepSeek-R1. Tuy nhiên, nhóm đã thực hiện các sửa đổi đáng kể để tăng cường sự ổn định và cho phép thời gian đào tạo dài hơn.

GRPO+

*GRPO+ cho phép DeepCoder-14 tiếp tục trong thời gian dài hơn mà không bị sụp đổ tín dụng: cùng nhau AI*

Ngoài ra, nhóm lặp lại mở rộng cửa sổ bối cảnh của mô hình, bắt đầu với các chuỗi ngắn hơn và dần dần tăng chúng. Họ cũng đã giới thiệu một phương pháp lọc để tránh xử phạt mô hình để vượt quá giới hạn ngữ cảnh khi giải các lời nhắc phức tạp.

mở rộng bối cảnh lặp

*Deepcoder đã được đào tạo về các vấn đề bối cảnh 32k nhưng cũng có thể giải quyết tín dụng 64K Tín dụng: cùng nhau AI*

Các nhà nghiên cứu đã giải thích cách tiếp cận của họ: "Để duy trì lý luận trong bối cảnh dài trong khi cho phép đào tạo hiệu quả, chúng tôi đã kết hợp lọc quá mức ... kỹ thuật này mặt nạ ra các chuỗi bị cắt ngắn trong quá trình đào tạo để các mô hình không bị phạt để tạo ra các đầu ra chu đáo nhưng dài vượt quá giới hạn bối cảnh hiện tại." Việc đào tạo được mở rộng từ một cửa sổ bối cảnh 32K, cho phép mô hình giải quyết các vấn đề đòi hỏi phải có tới 64K.

Tối ưu hóa đào tạo RL trong bối cảnh dài

Đào tạo các mô hình lớn với RL, đặc biệt là các nhiệm vụ tạo ra các chuỗi dài như mã hóa, nổi tiếng là chậm và tốn nhiều tài nguyên. Bước lấy mẫu, trong đó mô hình tạo ra hàng ngàn mã thông báo, thường dẫn đến sự chậm trễ đáng kể do độ dài phản hồi khác nhau.

Để giải quyết vấn đề này, nhóm đã phát triển Verl-Pipeline, một phần mở rộng được tối ưu hóa của Thư viện Verl nguồn mở để học củng cố từ phản hồi của con người (RLHF). Sự đổi mới "đường ống một lần" của họ đã tái cấu trúc các bản cập nhật lấy mẫu và mô hình để giảm thiểu tắc nghẽn và giảm thời gian nhàn rỗi trên máy gia tốc.

Đường ống một lần

*Đường ống một lần*

Các thí nghiệm của họ đã chứng minh rằng đường ống một lần có thể tăng tốc các tác vụ RL mã hóa lên tới 2 lần so với các phương pháp tiêu chuẩn. Tối ưu hóa này là rất quan trọng trong việc đào tạo DeepCoder-14b trong khung thời gian hợp lý (2,5 tuần trên 32 H100s) và hiện đang có nguồn gốc mở như một phần của Verl-Pipeline để cộng đồng tận dụng.

Tác động doanh nghiệp và hợp tác nguồn mở

Các nhà nghiên cứu đã thực hiện tất cả các hiện vật đào tạo và vận hành cho DeepCoder-14B có sẵn trên GitHub và ôm mặt theo giấy phép cho phép. "Bằng cách chia sẻ đầy đủ bộ dữ liệu, mã và công thức đào tạo của chúng tôi, chúng tôi trao quyền cho cộng đồng tái tạo công việc của chúng tôi và làm cho đào tạo RL có thể truy cập được cho tất cả mọi người", họ nói.

DeepCoder-14B minh họa cho xu hướng ngày càng tăng của các mô hình hiệu quả, có thể truy cập công khai trong cảnh quan AI. Đối với các doanh nghiệp, điều này có nghĩa là nhiều tùy chọn hơn và khả năng tiếp cận cao hơn đối với các mô hình nâng cao. Tạo mã và lý luận hiệu suất cao không còn dành riêng cho các tập đoàn lớn hoặc những người sẵn sàng trả phí API khổng lồ. Các tổ chức thuộc mọi quy mô giờ đây có thể khai thác các khả năng này, điều chỉnh các giải pháp cho nhu cầu cụ thể của họ và triển khai chúng một cách an toàn trong môi trường của họ.

Sự thay đổi này đã sẵn sàng để hạ thấp các rào cản đối với việc áp dụng AI, thúc đẩy một hệ sinh thái cạnh tranh và sáng tạo hơn được thúc đẩy bởi sự hợp tác nguồn mở.

Bài viết liên quan
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros O AIS de Deepseek descobre desejos humanos verdadeiros O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA ​​Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA ​​promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
Nhận xét (0)
0/200
OR