DeepCoder достигает высокой эффективности кодирования с открытой моделью 14B
23 апреля 2025 г.
SamuelRamirez
0
Представляем DeepCoder-14b: новая граница в моделях кодирования с открытым исходным кодом
Команды в AI и Agentica представили DeepCoder-14B, новаторскую модель кодирования, которая стоит с плечом к плечу с проприетарными моделями высшего уровня, такими как O3-Mini от OpenAI. Эта захватывающая разработка основана на основе DeepSeek-R1 и предлагает повышенную гибкость для интеграции высокопроизводительных кода и рассуждения в практические приложения. Более того, создатели сделали похвальный шаг, полностью открытый источник модели, включая ее обучающие данные, код, журналы и оптимизации системы. Этот шаг настроен на катализацию исследований и ускорение достижений в этой области.
Впечатляющая производительность в компактном пакете
DeepCoder-14b показал замечательные результаты по различным контрольным показателям, таким как LiveCodebench (LCB), кодовыеформы и Humaneval+. Эксперименты исследовательской группы подчеркнули, что производительность модели находится на одном уровне с ведущими моделями, такими как O3-Mini (LOW) и O1. «Наша модель демонстрирует сильную производительность во всех критериях кодирования ... сравнимо с производительностью O3-Mini (LOW) и O1»,-заявили исследователи с гордостью в своем блоге.
Что особенно интригует, так это то, что, несмотря на то, что в первую очередь обучается задачам кодирования, DeepCoder-14B также показал заметное улучшение математических рассуждений, достигнув 73,8% баллов по эталону AIME 2024. Это знаменует собой увеличение на 4,1% по сравнению с базовой моделью, DeepSeek-R1-Distill-Qwen-14b, что позволяет предположить, что навыки рассуждений, отчитываемые посредством обучения подкреплению (RL) на коде, могут эффективно перенести в другие области.

*Кредит: Вместе ай*
Возможно, самой захватывающей особенностью DeepCoder-14B является его эффективность. Имея всего 14 миллиардов параметров, он достигает высокой производительности, в то же время значительно меньше и более ресурсной, чем многие другие ведущие модели.
Инновации, стоящие за успехом DeepCoder
Разработка DeepCoder-14b включала преодоление нескольких проблем, особенно в обучении моделей кодирования с использованием обучения подкреплению. Одним из основных препятствий было курация учебных данных. В отличие от математических задач, где высококачественные, проверенные данные в изобилии, данные кодирования могут быть скудными. Команда DeepCoder рассмотрела это, внедрив строгий трубопровод для сбора и фильтрации примеров из различных наборов данных, обеспечения достоверности, сложности и избегания дублирования. Этот процесс привел к 24 000 высококачественных проблем, которые сформировали надежную основу для обучения RL.
Команда также разработала прямую функцию вознаграждения, которая вознаграждает модель только в том случае, если сгенерированный код успешно проходит все выбранные модульные тесты в пределах установленного времени. Этот подход в сочетании с высококачественными примерами обучения гарантировал, что модель сосредоточена на решении основных задач, а не на использовании ярлыков.
Алгоритм обучения DeepCoder-14B основан на групповой относительной оптимизации политики (GRPO), которая была успешной в DeepSeek-R1. Тем не менее, команда внесла значительные модификации для повышения стабильности и обеспечения более длительных тренировок.

*GRPO+ позволяет DeepCoder-14 продолжаться дольше длительно без рушины: вместе AI*
Кроме того, команда итеративно расширила окно контекста модели, начиная с более коротких последовательностей и постепенно увеличивая их. Они также ввели метод фильтрации, чтобы избежать наказания модели за превышение контекстных ограничений при решении сложных подсказок.

*DeepCoder был обучен по вопросам контекста 32K, но также смог решить 64 тыс. Задачи: вместе AI*
Исследователи объяснили свой подход: «Чтобы сохранить рассуждения о длинном контексте, обеспечивая эффективную подготовку, мы включили фильтрацию перекрытия ... этот метод маскирует усеченные последовательности во время обучения, чтобы модели не были наказаны за генерацию вдумчивых, но длительных выходов, которые превышают текущий предел контекста». Обучение масштабировалось от окна контекста 16K до 32K, что позволило модели решать проблемы, требующие до 64K токенов.
Оптимизация обучения RL с длинным контекстом
Обучение больших моделей с RL, особенно по задачам, которые генерируют длинные последовательности, такие как кодирование, общеизвестно медленное и ресурсоемкое. Этап выборки, где модель генерирует тысячи токенов на пример, часто приводит к значительным задержкам из -за различной длины отклика.
Чтобы справиться с этим, команда разработала Verl-Pipeline, оптимизированное расширение библиотеки VERL с открытым исходным кодом для подкрепления от обратной связи с человеком (RLHF). Их «одноразовые трубопроводы» инновации реструктурировали обновления отбора проб и моделей, чтобы минимизировать узкие места и сократить время холостого хода на ускорителях.

*Одноразовое трубопровод*
Их эксперименты продемонстрировали, что одноразовое трубопровод может ускорить кодирующие задачи RL до 2x по сравнению со стандартными методами. Эта оптимизация имела решающее значение при обучении DeepCoder-14b в течение разумного периода времени (2,5 недели на 32 H100) и в настоящее время является открытым исходным кодом в рамках Verl-Pipeline для сообщества.
Воздействие на предприятие и сотрудничество с открытым исходным кодом
Исследователи провели все учебные и эксплуатационные артефакты для DeepCoder-14B, доступных на GitHub и обнимающего лицо по разрешающей лицензии. «Полностью поделившись нашим набором данных, кодом и обучением, мы даем возможность сообществу воспроизводить нашу работу и сделать RL -обучение доступным для всех», - заявили они.
DeepCoder-14b иллюстрирует растущую тенденцию эффективных, открыто доступных моделей в ландшафте искусственного интеллекта. Для предприятий это означает больше вариантов и большую доступность к продвинутым моделям. Высокопроизводительное генерация кода и рассуждения больше не являются эксклюзивными для крупных корпораций или тех, кто хочет оплатить огромные сборы API. Организации всех размеров теперь могут использовать эти возможности, адаптировать решения для их конкретных потребностей и надежно развернуть их в среде.
Этот сдвиг готов снизить барьеры для принятия ИИ, способствуя более конкурентной и инновационной экосистеме, обусловленной сотрудничеством с открытым исходным кодом.
Связанная статья
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial
Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros
O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA promete revolucionar como os sistemas de IA aprendem
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina
Se você já se perguntou como os pesquisadores rastreiam nossos movimentos em um país sem depender apenas de telefonemas, um estudo fascinante de pesquisadores da China e dos Estados Unidos oferece alguma visão. Seu trabalho colaborativo investiga o uso de aprendizado de máquina para descobrir as 'visitas ocultas'
Комментарии (0)






Представляем DeepCoder-14b: новая граница в моделях кодирования с открытым исходным кодом
Команды в AI и Agentica представили DeepCoder-14B, новаторскую модель кодирования, которая стоит с плечом к плечу с проприетарными моделями высшего уровня, такими как O3-Mini от OpenAI. Эта захватывающая разработка основана на основе DeepSeek-R1 и предлагает повышенную гибкость для интеграции высокопроизводительных кода и рассуждения в практические приложения. Более того, создатели сделали похвальный шаг, полностью открытый источник модели, включая ее обучающие данные, код, журналы и оптимизации системы. Этот шаг настроен на катализацию исследований и ускорение достижений в этой области.
Впечатляющая производительность в компактном пакете
DeepCoder-14b показал замечательные результаты по различным контрольным показателям, таким как LiveCodebench (LCB), кодовыеформы и Humaneval+. Эксперименты исследовательской группы подчеркнули, что производительность модели находится на одном уровне с ведущими моделями, такими как O3-Mini (LOW) и O1. «Наша модель демонстрирует сильную производительность во всех критериях кодирования ... сравнимо с производительностью O3-Mini (LOW) и O1»,-заявили исследователи с гордостью в своем блоге.
Что особенно интригует, так это то, что, несмотря на то, что в первую очередь обучается задачам кодирования, DeepCoder-14B также показал заметное улучшение математических рассуждений, достигнув 73,8% баллов по эталону AIME 2024. Это знаменует собой увеличение на 4,1% по сравнению с базовой моделью, DeepSeek-R1-Distill-Qwen-14b, что позволяет предположить, что навыки рассуждений, отчитываемые посредством обучения подкреплению (RL) на коде, могут эффективно перенести в другие области.
Возможно, самой захватывающей особенностью DeepCoder-14B является его эффективность. Имея всего 14 миллиардов параметров, он достигает высокой производительности, в то же время значительно меньше и более ресурсной, чем многие другие ведущие модели.
Инновации, стоящие за успехом DeepCoder
Разработка DeepCoder-14b включала преодоление нескольких проблем, особенно в обучении моделей кодирования с использованием обучения подкреплению. Одним из основных препятствий было курация учебных данных. В отличие от математических задач, где высококачественные, проверенные данные в изобилии, данные кодирования могут быть скудными. Команда DeepCoder рассмотрела это, внедрив строгий трубопровод для сбора и фильтрации примеров из различных наборов данных, обеспечения достоверности, сложности и избегания дублирования. Этот процесс привел к 24 000 высококачественных проблем, которые сформировали надежную основу для обучения RL.
Команда также разработала прямую функцию вознаграждения, которая вознаграждает модель только в том случае, если сгенерированный код успешно проходит все выбранные модульные тесты в пределах установленного времени. Этот подход в сочетании с высококачественными примерами обучения гарантировал, что модель сосредоточена на решении основных задач, а не на использовании ярлыков.
Алгоритм обучения DeepCoder-14B основан на групповой относительной оптимизации политики (GRPO), которая была успешной в DeepSeek-R1. Тем не менее, команда внесла значительные модификации для повышения стабильности и обеспечения более длительных тренировок.
Кроме того, команда итеративно расширила окно контекста модели, начиная с более коротких последовательностей и постепенно увеличивая их. Они также ввели метод фильтрации, чтобы избежать наказания модели за превышение контекстных ограничений при решении сложных подсказок.
Исследователи объяснили свой подход: «Чтобы сохранить рассуждения о длинном контексте, обеспечивая эффективную подготовку, мы включили фильтрацию перекрытия ... этот метод маскирует усеченные последовательности во время обучения, чтобы модели не были наказаны за генерацию вдумчивых, но длительных выходов, которые превышают текущий предел контекста». Обучение масштабировалось от окна контекста 16K до 32K, что позволило модели решать проблемы, требующие до 64K токенов.
Оптимизация обучения RL с длинным контекстом
Обучение больших моделей с RL, особенно по задачам, которые генерируют длинные последовательности, такие как кодирование, общеизвестно медленное и ресурсоемкое. Этап выборки, где модель генерирует тысячи токенов на пример, часто приводит к значительным задержкам из -за различной длины отклика.
Чтобы справиться с этим, команда разработала Verl-Pipeline, оптимизированное расширение библиотеки VERL с открытым исходным кодом для подкрепления от обратной связи с человеком (RLHF). Их «одноразовые трубопроводы» инновации реструктурировали обновления отбора проб и моделей, чтобы минимизировать узкие места и сократить время холостого хода на ускорителях.
Их эксперименты продемонстрировали, что одноразовое трубопровод может ускорить кодирующие задачи RL до 2x по сравнению со стандартными методами. Эта оптимизация имела решающее значение при обучении DeepCoder-14b в течение разумного периода времени (2,5 недели на 32 H100) и в настоящее время является открытым исходным кодом в рамках Verl-Pipeline для сообщества.
Воздействие на предприятие и сотрудничество с открытым исходным кодом
Исследователи провели все учебные и эксплуатационные артефакты для DeepCoder-14B, доступных на GitHub и обнимающего лицо по разрешающей лицензии. «Полностью поделившись нашим набором данных, кодом и обучением, мы даем возможность сообществу воспроизводить нашу работу и сделать RL -обучение доступным для всех», - заявили они.
DeepCoder-14b иллюстрирует растущую тенденцию эффективных, открыто доступных моделей в ландшафте искусственного интеллекта. Для предприятий это означает больше вариантов и большую доступность к продвинутым моделям. Высокопроизводительное генерация кода и рассуждения больше не являются эксклюзивными для крупных корпораций или тех, кто хочет оплатить огромные сборы API. Организации всех размеров теперь могут использовать эти возможности, адаптировать решения для их конкретных потребностей и надежно развернуть их в среде.
Этот сдвиг готов снизить барьеры для принятия ИИ, способствуя более конкурентной и инновационной экосистеме, обусловленной сотрудничеством с открытым исходным кодом.


5 простых шагов для восстановления конфиденциальности данных в Интернете - начните сегодня









