вариант
Дом
Новости
DeepCoder достигает высокой эффективности кодирования с открытой моделью 14B

DeepCoder достигает высокой эффективности кодирования с открытой моделью 14B

23 апреля 2025 г.
81

Представляем DeepCoder-14b: новая граница в моделях кодирования с открытым исходным кодом

Команды в AI и Agentica представили DeepCoder-14B, новаторскую модель кодирования, которая стоит с плечом к плечу с проприетарными моделями высшего уровня, такими как O3-Mini от OpenAI. Эта захватывающая разработка основана на основе DeepSeek-R1 и предлагает повышенную гибкость для интеграции высокопроизводительных кода и рассуждения в практические приложения. Более того, создатели сделали похвальный шаг, полностью открытый источник модели, включая ее обучающие данные, код, журналы и оптимизации системы. Этот шаг настроен на катализацию исследований и ускорение достижений в этой области.

Впечатляющая производительность в компактном пакете

DeepCoder-14b показал замечательные результаты по различным контрольным показателям, таким как LiveCodebench (LCB), кодовыеформы и Humaneval+. Эксперименты исследовательской группы подчеркнули, что производительность модели находится на одном уровне с ведущими моделями, такими как O3-Mini (LOW) и O1. «Наша модель демонстрирует сильную производительность во всех критериях кодирования ... сравнимо с производительностью O3-Mini (LOW) и O1»,-заявили исследователи с гордостью в своем блоге.

Что особенно интригует, так это то, что, несмотря на то, что в первую очередь обучается задачам кодирования, DeepCoder-14B также показал заметное улучшение математических рассуждений, достигнув 73,8% баллов по эталону AIME 2024. Это знаменует собой увеличение на 4,1% по сравнению с базовой моделью, DeepSeek-R1-Distill-Qwen-14b, что позволяет предположить, что навыки рассуждений, отчитываемые посредством обучения подкреплению (RL) на коде, могут эффективно перенести в другие области.

DeepCoder-14b производительность

*Кредит: Вместе ай*

Возможно, самой захватывающей особенностью DeepCoder-14B является его эффективность. Имея всего 14 миллиардов параметров, он достигает высокой производительности, в то же время значительно меньше и более ресурсной, чем многие другие ведущие модели.

Инновации, стоящие за успехом DeepCoder

Разработка DeepCoder-14b включала преодоление нескольких проблем, особенно в обучении моделей кодирования с использованием обучения подкреплению. Одним из основных препятствий было курация учебных данных. В отличие от математических задач, где высококачественные, проверенные данные в изобилии, данные кодирования могут быть скудными. Команда DeepCoder рассмотрела это, внедрив строгий трубопровод для сбора и фильтрации примеров из различных наборов данных, обеспечения достоверности, сложности и избегания дублирования. Этот процесс привел к 24 000 высококачественных проблем, которые сформировали надежную основу для обучения RL.

Команда также разработала прямую функцию вознаграждения, которая вознаграждает модель только в том случае, если сгенерированный код успешно проходит все выбранные модульные тесты в пределах установленного времени. Этот подход в сочетании с высококачественными примерами обучения гарантировал, что модель сосредоточена на решении основных задач, а не на использовании ярлыков.

Алгоритм обучения DeepCoder-14B основан на групповой относительной оптимизации политики (GRPO), которая была успешной в DeepSeek-R1. Тем не менее, команда внесла значительные модификации для повышения стабильности и обеспечения более длительных тренировок.

Grpo+

*GRPO+ позволяет DeepCoder-14 продолжаться дольше длительно без рушины: вместе AI*

Кроме того, команда итеративно расширила окно контекста модели, начиная с более коротких последовательностей и постепенно увеличивая их. Они также ввели метод фильтрации, чтобы избежать наказания модели за превышение контекстных ограничений при решении сложных подсказок.

Итеративное расширение контекста

*DeepCoder был обучен по вопросам контекста 32K, но также смог решить 64 тыс. Задачи: вместе AI*

Исследователи объяснили свой подход: «Чтобы сохранить рассуждения о длинном контексте, обеспечивая эффективную подготовку, мы включили фильтрацию перекрытия ... этот метод маскирует усеченные последовательности во время обучения, чтобы модели не были наказаны за генерацию вдумчивых, но длительных выходов, которые превышают текущий предел контекста». Обучение масштабировалось от окна контекста 16K до 32K, что позволило модели решать проблемы, требующие до 64K токенов.

Оптимизация обучения RL с длинным контекстом

Обучение больших моделей с RL, особенно по задачам, которые генерируют длинные последовательности, такие как кодирование, общеизвестно медленное и ресурсоемкое. Этап выборки, где модель генерирует тысячи токенов на пример, часто приводит к значительным задержкам из -за различной длины отклика.

Чтобы справиться с этим, команда разработала Verl-Pipeline, оптимизированное расширение библиотеки VERL с открытым исходным кодом для подкрепления от обратной связи с человеком (RLHF). Их «одноразовые трубопроводы» инновации реструктурировали обновления отбора проб и моделей, чтобы минимизировать узкие места и сократить время холостого хода на ускорителях.

Одноразовая трубопровода

*Одноразовое трубопровод*

Их эксперименты продемонстрировали, что одноразовое трубопровод может ускорить кодирующие задачи RL до 2x по сравнению со стандартными методами. Эта оптимизация имела решающее значение при обучении DeepCoder-14b в течение разумного периода времени (2,5 недели на 32 H100) и в настоящее время является открытым исходным кодом в рамках Verl-Pipeline для сообщества.

Воздействие на предприятие и сотрудничество с открытым исходным кодом

Исследователи провели все учебные и эксплуатационные артефакты для DeepCoder-14B, доступных на GitHub и обнимающего лицо по разрешающей лицензии. «Полностью поделившись нашим набором данных, кодом и обучением, мы даем возможность сообществу воспроизводить нашу работу и сделать RL -обучение доступным для всех», - заявили они.

DeepCoder-14b иллюстрирует растущую тенденцию эффективных, открыто доступных моделей в ландшафте искусственного интеллекта. Для предприятий это означает больше вариантов и большую доступность к продвинутым моделям. Высокопроизводительное генерация кода и рассуждения больше не являются эксклюзивными для крупных корпораций или тех, кто хочет оплатить огромные сборы API. Организации всех размеров теперь могут использовать эти возможности, адаптировать решения для их конкретных потребностей и надежно развернуть их в среде.

Этот сдвиг готов снизить барьеры для принятия ИИ, способствуя более конкурентной и инновационной экосистеме, обусловленной сотрудничеством с открытым исходным кодом.

Связанная статья
Deep Cogito phát hành các mô hình AI nguồn mở và đã đứng đầu bảng xếp hạng Deep Cogito phát hành các mô hình AI nguồn mở và đã đứng đầu bảng xếp hạng Deep Cogito Ra Mắt Các Mô Hình Trí Tuệ Nhân Tạo Cách MạngTrong một bước đi đột phá, Deep Cogito, một công ty khởi nghiệp nghiên cứu AI hàng đầu có trụ sở tại San Francisco, đã chín
Hệ thống tập trung thật cho Thực tế tăng cường giá cả phải chăng Hệ thống tập trung thật cho Thực tế tăng cường giá cả phải chăng Thay đổi cuộc chơi trong Thực tế Tăng cường Dựa trên Chiếu hìnhCác nhà nghiên cứu từ Viện Điện tử và Viễn thông danh tiếng (IEEE) đã đạt được bước tiến vượt bậc trong lĩnh vực thực
Cựu CEO OpenAI Cảnh Báo Về Sự Nịnh Hót và Xu Nịnh của AI Cựu CEO OpenAI Cảnh Báo Về Sự Nịnh Hót và Xu Nịnh của AI Sự thật đáng lo ngại về AI quá đồng ýHãy tưởng tượng một trợ lý AI đồng ý với mọi điều bạn nói, bất kể ý tưởng của bạn có phi lý hay gây hại đến đâu. Nó nghe như cốt truyện từ một
NicholasGonzález
NicholasGonzález 24 апреля 2025 г., 0:00:00 GMT

DeepCoder-14B is a beast! It's amazing how it can code so efficiently, almost like having a top-notch programmer on speed dial. I've used it for some complex projects and it nailed it every time. The only thing is, it can be a bit slow on my old laptop. Still, a solid tool for any coder! 🤓💻

RaymondGreen
RaymondGreen 24 апреля 2025 г., 0:00:00 GMT

DeepCoder-14Bは本当に素晴らしいです!効率的にコードを書くことができ、まるで一流のプログラマーをいつでも呼べるようです。複雑なプロジェクトでも完璧にこなしてくれます。ただ、私の古いラップトップでは少し遅いですね。それでも、どんなコーダーにもおすすめのツールです!🤓💻

HaroldLopez
HaroldLopez 24 апреля 2025 г., 0:00:00 GMT

DeepCoder-14B 정말 대단해요! 효율적으로 코드를 작성할 수 있어서, 마치 최고의 프로그래머를 언제든지 불러낼 수 있는 것 같아요. 복잡한 프로젝트도 매번 완벽하게 해냈어요. 다만, 제 오래된 랩탑에서는 조금 느리네요. 그래도 어떤 코더에게나 추천할 만한 도구입니다! 🤓💻

JimmyJohnson
JimmyJohnson 24 апреля 2025 г., 0:00:00 GMT

DeepCoder-14B é uma fera! É incrível como ele consegue codificar tão eficientemente, quase como ter um programador de primeira linha à disposição. Usei em projetos complexos e ele acertou em cheio todas as vezes. A única coisa é que pode ser um pouco lento no meu velho laptop. Ainda assim, uma ferramenta sólida para qualquer programador! 🤓💻

SebastianAnderson
SebastianAnderson 24 апреля 2025 г., 0:00:00 GMT

¡DeepCoder-14B es una bestia! Es increíble cómo puede codificar tan eficientemente, casi como tener a un programador de primera a mano. Lo he usado en proyectos complejos y ha acertado cada vez. Lo único es que puede ser un poco lento en mi vieja laptop. Aún así, una herramienta sólida para cualquier programador! 🤓💻

Вернуться к вершине
OR