вариант
Дом
Новости
Бывшие Deepseeker и Collaborators выпускают новый метод обучения надежных агентов искусственного интеллекта: Ragen

Бывшие Deepseeker и Collaborators выпускают новый метод обучения надежных агентов искусственного интеллекта: Ragen

4 мая 2025 г.
109

Бывшие Deepseeker и Collaborators выпускают новый метод обучения надежных агентов искусственного интеллекта: Ragen

Год агентов ИИ: Ближайший взгляд на ожидания и реальность 2025 года

2025 год многие эксперты объявили годом, когда агенты ИИ — специализированные системы ИИ, основанные на продвинутых больших языковых и мультимодальных моделях от компаний, таких как OpenAI, Anthropic, Google и DeepSeek, — наконец займут центральное место. Однако, согласно недавнему опросу VentureBeat на социальной сети X, большинство агентов ИИ всё ещё находятся на экспериментальных стадиях, застряв в своего рода корпоративном лимбе.

Но на горизонте появляется проблеск надежды. Совместные усилия исследователей из Северо-Западного университета, Microsoft, Стэнфорда и Вашингтонского университета, включая Зихана Вана, бывшего исследователя DeepSeek, ныне получающего докторскую степень в области компьютерных наук в Северо-Западном университете, представили RAGEN. Эта новая система направлена на обучение и оценку агентов ИИ, чтобы сделать их более надёжными и адаптируемыми для реального корпоративного использования.

RAGEN: Новый подход к обучению агентов ИИ

В отличие от статичных задач, таких как решение математических задач или генерация кода, RAGEN сосредотачивается на динамичных, многоходовых взаимодействиях, где агентам нужно адаптироваться, запоминать и рассуждать в условиях неопределённости. Система основана на специально разработанной структуре обучения с подкреплением (RL), названной StarPO (State-Thinking-Actions-Reward Policy Optimization), которая делает акцент на обучении через опыт, а не на механическом запоминании. StarPO рассматривает целые последовательности принятия решений, а не только одношаговые ответы.

StarPO работает в два этапа: этап развертывания, где LLM генерирует полные последовательности взаимодействий, руководствуясь рассуждениями, и этап обновления, где модель оптимизируется с использованием нормализованных кумулятивных наград. Этот подход обеспечивает более стабильный и интерпретируемый цикл обучения по сравнению с традиционными методами оптимизации политики.

Исследователи протестировали эту структуру, используя доработанные версии моделей Qwen от Alibaba, в частности Qwen 1.5 и Qwen 2.5, выбранные за их открытые веса и высокую способность следовать инструкциям. Этот выбор обеспечил воспроизводимость и согласованные базовые сравнения для символических задач.

Ловушка эха: Проблема в обучении с подкреплением

Зихан Ван в широко обсуждаемой ветке на X выделил критическую проблему в обучении RL: *Почему ваше обучение RL всегда рушится?* Команда обнаружила, что, хотя агенты LLM изначально дают хорошо продуманные ответы, системы RL часто вознаграждают упрощённые решения, что приводит к повторяющимся поведенческим шаблонам, ухудшающим производительность — явление, которое они назвали "ловушкой эха".

Эта регрессия подпитывается циклами обратной связи, где определённые фразы или стратегии получают высокие награды на ранних этапах, что побуждает к их чрезмерному использованию и подавляет исследование. Симптомы очевидны: резкое падение дисперсии наград, всплески градиентов и исчезновение следов рассуждений.

Тестовые среды RAGEN

Для изучения этих поведений в контролируемых условиях RAGEN оценивает агентов в трёх символических средах:

  • Bandit: Одноходовая стохастическая задача, тестирующая символическое рассуждение о риске и награде.
  • Sokoban: Многоходовая детерминированная головоломка, включающая необратимые решения.
  • Frozen Lake: Стохастическая многоходовая задача, требующая адаптивного планирования.

Каждая среда разработана так, чтобы минимизировать влияние реальных предпосылок и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения. Например, в среде Bandit агенты должны символически рассуждать о рычагах Дракона и Феникса, представляющих разные распределения наград, интерпретируя их как "силу" и "надежду" для прогнозирования исходов.

Стабилизация обучения с подкреплением с помощью StarPO-S

Для борьбы с коллапсом обучения исследователи представили StarPO-S, стабилизированную версию исходной структуры. StarPO-S включает три ключевых вмешательства:

  1. Фильтрация развертываний на основе неопределённости: Приоритет отдаётся развертываниям, где агент демонстрирует неопределённость исхода.
  2. Удаление штрафа KL: Позволяет модели свободнее отклоняться от исходной политики и исследовать новые поведения.
  3. Асимметричное обрезание PPO: Усиление высоконаградных траекторий больше, чем низконаградных, для ускорения обучения.

Эти изменения помогают задержать или устранить коллапс обучения и улучшить производительность во всех трёх задачах. Как сказал Ван, "StarPO-S… работает во всех 3 задачах. Устраняет коллапс. Лучшая награда".

Что делает хорошую агентную модель ИИ?

Успех обучения RL зависит не только от архитектуры, но и от качества данных, генерируемых агентами. Команда выделила три ключевых аспекта, существенно влияющих на обучение:

  • Разнообразие задач: Воздействие на модель широкого спектра начальных сценариев улучшает обобщение.
  • Гранулярность взаимодействия: Разрешение нескольких действий за ход позволяет проводить более осмысленное планирование.
  • Свежесть развертываний: Поддержание актуальности обучающих данных с текущей политикой модели предотвращает устаревание сигналов обучения.

Эти факторы способствуют более стабильному и эффективному процессу обучения. Интерактивный демонстрационный сайт на GitHub визуализирует развертывания агентов как полные диалоговые ходы, включая не только действия, но и пошаговый мыслительный процесс, предшествующий им. Например, при решении математической задачи агент может сначала "подумать" о выделении переменной, прежде чем дать ответ, такой как "x = 5". Эти промежуточные мысли видны и отслеживаемы, что добавляет прозрачности в процесс принятия решений агентами.

Когда рассуждения иссякают

Хотя явные рассуждения улучшают производительность в простых одноходовых задачах, таких как Bandit, они имеют тенденцию к ухудшению во время многоходового обучения. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если их не вознаграждать напрямую. Это подчёркивает ограничение в типичном дизайне наград: фокус на завершении задачи может игнорировать качество процесса, лежащего в основе. Команда экспериментировала с штрафами на основе формата для поощрения лучше структурированных рассуждений, но признаёт, что, вероятно, требуется более тонкое формирование наград.

Открытые инструменты и будущие направления

RAGEN, вместе со своими структурами StarPO и StarPO-S, теперь доступен как проект с открытым исходным кодом по адресу https://github.com/RAGEN-AI/RAGEN. Однако на момент написания в репозитории GitHub не указана явная лицензия, что может ограничить его использование или распространение другими.

Система предоставляет ценную основу для тех, кто заинтересован в разработке агентов ИИ, которые не только выполняют задачи, но и думают, планируют и развиваются. По мере того как ИИ движется к большей автономности, проекты, такие как RAGEN, помогают осветить, что требуется для обучения моделей, которые учатся на последствиях своих действий.

Нерешённые вопросы для внедрения в корпоративные среды

Хотя статья о RAGEN предлагает подробную техническую дорожную карту, остаётся несколько практических вопросов для тех, кто хочет применить эти методы в корпоративных условиях. Например, насколько переносим подход RAGEN за пределы стилизованных символических задач? Потребуется ли бизнесам разрабатывать совершенно новые среды и функции наград для использования этой системы в рабочих процессах, таких как обработка счетов или поддержка клиентов?

Ван в прямом сообщении VentureBeat на X предположил, что улучшение разнообразия задач может помочь, поскольку текущие игровые задачи имеют только схожие сеточные представления, но лишены семантической информации. Он также выразил оптимизм относительно того, что бизнесы смогут разрабатывать собственные обучающие упражнения для агентов ИИ с использованием RAGEN, отметив, что ссылка на GitHub предоставляет простое введение в добавление новых сред.

Ещё одна важная область — масштабируемость. Даже с улучшениями, предоставляемыми StarPO-S, в статье признаётся, что обучение всё же со временем рушится на длинных горизонтах. Это вызывает вопрос: существует ли теоретический или практический путь к поддержанию рассуждений в открытых или непрерывно развивающихся последовательностях задач?

На момент написания в репозитории или документации RAGEN не указана явная лицензия, что оставляет открытыми вопросы о правах использования. Тем не менее, RAGEN выделяется не только как технический вклад, но и как концептуальный шаг к более автономным агентам ИИ, способным к рассуждениям. Станет ли он частью корпоративного стека ИИ, ещё предстоит увидеть, но его понимание динамики обучения агентов уже помогает переопределить границы обучения LLM.

Связанная статья
Ведущие лаборатории искусственного интеллекта предупреждают, что человечество теряет понимание систем ИИ Ведущие лаборатории искусственного интеллекта предупреждают, что человечество теряет понимание систем ИИ В беспрецедентной демонстрации единства исследователи из OpenAI, Google DeepMind, Anthropic и Meta отложили в сторону конкурентные разногласия, чтобы выступить с коллективным предупреждением об ответс
Модернизация искусственного интеллекта Anthropic: Клод теперь мгновенно ищет все рабочее пространство Google Модернизация искусственного интеллекта Anthropic: Клод теперь мгновенно ищет все рабочее пространство Google Сегодняшнее обновление от Anthropic превращает Claude из ИИ-ассистента в то, что компания называет "настоящим виртуальным сотрудником", предоставляя революционные возможности автономного исследования
ИИ Alibaba ИИ Alibaba "ZeroSearch" сокращает расходы на обучение на 88% благодаря автономному обучению ZeroSearch от Alibaba: Изменение эффективности обучения ИИИсследователи Alibaba Group разработали революционный метод обучения систем искусственного интеллекта поиску информации в обход дорогостоящих
ScottEvans
ScottEvans 13 августа 2025 г., 14:00:59 GMT+03:00

RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!

JimmyRamirez
JimmyRamirez 23 июля 2025 г., 7:59:29 GMT+03:00

This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

RalphWalker
RalphWalker 6 мая 2025 г., 10:48:04 GMT+03:00

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

NicholasAdams
NicholasAdams 6 мая 2025 г., 1:45:54 GMT+03:00

RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀

EricLewis
EricLewis 5 мая 2025 г., 6:45:04 GMT+03:00

RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀

GeorgeTaylor
GeorgeTaylor 4 мая 2025 г., 23:00:48 GMT+03:00

RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀

Вернуться к вершине
OR