вариант
Дом
Новости
NVIDIA открыла исходный код платформы Polar для эволюции агентов искусственного интеллекта без барьеров посредством обучения с подкреплением

NVIDIA открыла исходный код платформы Polar для эволюции агентов искусственного интеллекта без барьеров посредством обучения с подкреплением

31 мая 2026 г.
68

28 мая исследовательская группа NVIDIA открыла исходный код Polar — платформы для обучения методом усиления. Её основная инновация заключается в беспроблемной интеграции существующих популярных программных агентов — таких как Codex, Claude Code и Qwen Code — в процесс обучения методом усиления GRPO (Generalized Relative Policy Optimization) без необходимости внесения каких-либо изменений в исходный код.

image.png

I. Проблемы отрасли: препятствия на пути к обучению агентов с помощью методов усиления

По мере того как кодовые агенты эволюционируют от простых одношаговых задач к сложным, длительным процессам — таким как модификации кода на уровне хранилища или взаимодействие с ОС — разработчики все чаще полагаются на зрелые фреймворки выполнения (Harness). Однако интеграция этих сложных фреймворков в традиционную инфраструктуру обучения с подкреплением сопряжена со значительными трудностями:

Высокая стоимость интеграции: традиционные методы требуют переписывания логики кода в стандартные интерфейсы среды, такие как env.init() и env.step(), что является чрезвычайно утомительным процессом.

Потеря информации: во время рефакторинга часто теряются важные детали — такие как вызовы инструментов, контекст многоходового диалога или логика взаимодействия субагентов — что не позволяет модели получать высококачественные сигналы обучения.

image.png

II. Основное решение: использование «границы» в качестве точки входа для обучения

Polar устраняет необходимость переписывания фреймворка выполнения. Вместо этого он рассматривает границу API модели как точку входа для обучения.

Обработка «черного ящика»: Polar размещает прозрачный прокси (шлюз) между средой выполнения кода и сервером инференса модели. Независимо от того, использует ли агент API от Anthropic, OpenAI или Google, Polar беспрепятственно перехватывает и перенаправляет запросы.

Реконструкция трассировки: при пересылке Polar записывает ключевые данные в реальном времени — такие как подсказки, выборочные токены и вероятности журнала — и реконструирует их в данные «трассировки», необходимые тренеру реинфорсментного обучения.

Эффективная асинхронная архитектура: система использует сервер Rollout для планирования и сохранения данных, а узлы шлюза управляют жизненным циклом и повторным использованием ресурсов. Благодаря использованию предварительно нагретого буфера (буфера READY) и параллельной обработке задач она эффективно устраняет задачи с длинным хвостом, которые могут блокировать обучение на GPU.

III. Скачок производительности: трансформация кодовых агентов

Экспериментальные данные показывают, что Polar в сочетании с обучением GRPO дает значительный прирост производительности:

Проверенный тест SWE-Bench: при использовании одной и той же базовой модели Qwen3.5-4B производительность варьируется в зависимости от фреймворка кода:

Фреймворк Codex: показатель pass@1 поднимается с 3,8% до 26,4% — рост на 594,74%.

Фреймворк Claude Code: с 29,8% до 34,6%.

Фреймворк Pi: с 34,2% до 40,4%.

Экстремальная эффективность: после внедрения стратегии prefix_merging время обучения сокращается примерно в 5,39 раза по сравнению с традиционным режимом «за запрос», а загрузка GPU повышается с 20,4% до 87,7%.

Комментарии отрасли

Открытие исходного кода NVIDIA Polar по сути создает «магистраль» для входа агентов ИИ в обучение с помощью метода усиления. Это не только позволяет исследователям эффективно проводить обучение с использованием масштабных фреймворков с открытым исходным кодом, но и снижает барьер для вычислений на GPU за счет оптимизации на системном уровне.

С ростом популярности Polar разработчикам больше не нужно беспокоиться о том, «как адаптировать модели к фреймворкам обучения». В будущем эволюция кодирующих агентов ИИ станет более стандартизированной и эффективной. Это знаменует переход в обучении агентов ИИ от ручной настройки в лаборатории к крупномасштабному, систематическому инженерному производству.

URL статьи: https://arxiv.org/pdf/2605.24220

Связанная статья
DeepSeek Code готовится к запуску DeepSeek Code готовится к запуску На фоне стремительного развития технологий искусственного интеллекта компания DeepSeek находится на захватывающем этапе своего развития. Недавно эта компания, специализирующаяся на ИИ, объявила о прив
Grok от Маска: 1,5 триллиона параметров и поглощение кода курсора — прорыв или блеф? Grok от Маска: 1,5 триллиона параметров и поглощение кода курсора — прорыв или блеф? Илон Маск наконец-то делает ход.В гонке по программированию ИИ компании OpenAI и Anthropic набирают обороты, в то время как xAI, похоже, отстает. Маск не раз заявлял о своем намерении составить конкур
OpenAI втайне изменила устав, чтобы затруднить увольнение Альтмана OpenAI втайне изменила устав, чтобы затруднить увольнение Альтмана После инцидента 2023 года, напоминавшего государственный переворот, компания OpenAI еще больше укрепила меры защиты генерального директора Сэма Альтмана, обновив свой устав. Недавно обнародованные суд
Рекомендации по связанным специальным темам
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
код Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом
Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов
xix.ai
Комментарии (0)
0/500
OR