Дом
Бывшие Deepseeker и Collaborators выпускают новый метод обучения надежных агентов искусственного интеллекта: Ragen

Год агентов ИИ: Ближайший взгляд на ожидания и реальность 2025 года
2025 год многие эксперты объявили годом, когда агенты ИИ — специализированные системы ИИ, основанные на продвинутых больших языковых и мультимодальных моделях от компаний, таких как OpenAI, Anthropic, Google и DeepSeek, — наконец займут центральное место. Однако, согласно недавнему опросу VentureBeat на социальной сети X, большинство агентов ИИ всё ещё находятся на экспериментальных стадиях, застряв в своего рода корпоративном лимбе.
Но на горизонте появляется проблеск надежды. Совместные усилия исследователей из Северо-Западного университета, Microsoft, Стэнфорда и Вашингтонского университета, включая Зихана Вана, бывшего исследователя DeepSeek, ныне получающего докторскую степень в области компьютерных наук в Северо-Западном университете, представили RAGEN. Эта новая система направлена на обучение и оценку агентов ИИ, чтобы сделать их более надёжными и адаптируемыми для реального корпоративного использования.
RAGEN: Новый подход к обучению агентов ИИ
В отличие от статичных задач, таких как решение математических задач или генерация кода, RAGEN сосредотачивается на динамичных, многоходовых взаимодействиях, где агентам нужно адаптироваться, запоминать и рассуждать в условиях неопределённости. Система основана на специально разработанной структуре обучения с подкреплением (RL), названной StarPO (State-Thinking-Actions-Reward Policy Optimization), которая делает акцент на обучении через опыт, а не на механическом запоминании. StarPO рассматривает целые последовательности принятия решений, а не только одношаговые ответы.
StarPO работает в два этапа: этап развертывания, где LLM генерирует полные последовательности взаимодействий, руководствуясь рассуждениями, и этап обновления, где модель оптимизируется с использованием нормализованных кумулятивных наград. Этот подход обеспечивает более стабильный и интерпретируемый цикл обучения по сравнению с традиционными методами оптимизации политики.
Исследователи протестировали эту структуру, используя доработанные версии моделей Qwen от Alibaba, в частности Qwen 1.5 и Qwen 2.5, выбранные за их открытые веса и высокую способность следовать инструкциям. Этот выбор обеспечил воспроизводимость и согласованные базовые сравнения для символических задач.
Ловушка эха: Проблема в обучении с подкреплением
Зихан Ван в широко обсуждаемой ветке на X выделил критическую проблему в обучении RL: *Почему ваше обучение RL всегда рушится?* Команда обнаружила, что, хотя агенты LLM изначально дают хорошо продуманные ответы, системы RL часто вознаграждают упрощённые решения, что приводит к повторяющимся поведенческим шаблонам, ухудшающим производительность — явление, которое они назвали "ловушкой эха".
Эта регрессия подпитывается циклами обратной связи, где определённые фразы или стратегии получают высокие награды на ранних этапах, что побуждает к их чрезмерному использованию и подавляет исследование. Симптомы очевидны: резкое падение дисперсии наград, всплески градиентов и исчезновение следов рассуждений.
Тестовые среды RAGEN
Для изучения этих поведений в контролируемых условиях RAGEN оценивает агентов в трёх символических средах:
- Bandit: Одноходовая стохастическая задача, тестирующая символическое рассуждение о риске и награде.
- Sokoban: Многоходовая детерминированная головоломка, включающая необратимые решения.
- Frozen Lake: Стохастическая многоходовая задача, требующая адаптивного планирования.
Каждая среда разработана так, чтобы минимизировать влияние реальных предпосылок и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения. Например, в среде Bandit агенты должны символически рассуждать о рычагах Дракона и Феникса, представляющих разные распределения наград, интерпретируя их как "силу" и "надежду" для прогнозирования исходов.
Стабилизация обучения с подкреплением с помощью StarPO-S
Для борьбы с коллапсом обучения исследователи представили StarPO-S, стабилизированную версию исходной структуры. StarPO-S включает три ключевых вмешательства:
- Фильтрация развертываний на основе неопределённости: Приоритет отдаётся развертываниям, где агент демонстрирует неопределённость исхода.
- Удаление штрафа KL: Позволяет модели свободнее отклоняться от исходной политики и исследовать новые поведения.
- Асимметричное обрезание PPO: Усиление высоконаградных траекторий больше, чем низконаградных, для ускорения обучения.
Эти изменения помогают задержать или устранить коллапс обучения и улучшить производительность во всех трёх задачах. Как сказал Ван, "StarPO-S… работает во всех 3 задачах. Устраняет коллапс. Лучшая награда".
Что делает хорошую агентную модель ИИ?
Успех обучения RL зависит не только от архитектуры, но и от качества данных, генерируемых агентами. Команда выделила три ключевых аспекта, существенно влияющих на обучение:
- Разнообразие задач: Воздействие на модель широкого спектра начальных сценариев улучшает обобщение.
- Гранулярность взаимодействия: Разрешение нескольких действий за ход позволяет проводить более осмысленное планирование.
- Свежесть развертываний: Поддержание актуальности обучающих данных с текущей политикой модели предотвращает устаревание сигналов обучения.
Эти факторы способствуют более стабильному и эффективному процессу обучения. Интерактивный демонстрационный сайт на GitHub визуализирует развертывания агентов как полные диалоговые ходы, включая не только действия, но и пошаговый мыслительный процесс, предшествующий им. Например, при решении математической задачи агент может сначала "подумать" о выделении переменной, прежде чем дать ответ, такой как "x = 5". Эти промежуточные мысли видны и отслеживаемы, что добавляет прозрачности в процесс принятия решений агентами.
Когда рассуждения иссякают
Хотя явные рассуждения улучшают производительность в простых одноходовых задачах, таких как Bandit, они имеют тенденцию к ухудшению во время многоходового обучения. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если их не вознаграждать напрямую. Это подчёркивает ограничение в типичном дизайне наград: фокус на завершении задачи может игнорировать качество процесса, лежащего в основе. Команда экспериментировала с штрафами на основе формата для поощрения лучше структурированных рассуждений, но признаёт, что, вероятно, требуется более тонкое формирование наград.
Открытые инструменты и будущие направления
RAGEN, вместе со своими структурами StarPO и StarPO-S, теперь доступен как проект с открытым исходным кодом по адресу https://github.com/RAGEN-AI/RAGEN. Однако на момент написания в репозитории GitHub не указана явная лицензия, что может ограничить его использование или распространение другими.
Система предоставляет ценную основу для тех, кто заинтересован в разработке агентов ИИ, которые не только выполняют задачи, но и думают, планируют и развиваются. По мере того как ИИ движется к большей автономности, проекты, такие как RAGEN, помогают осветить, что требуется для обучения моделей, которые учатся на последствиях своих действий.
Нерешённые вопросы для внедрения в корпоративные среды
Хотя статья о RAGEN предлагает подробную техническую дорожную карту, остаётся несколько практических вопросов для тех, кто хочет применить эти методы в корпоративных условиях. Например, насколько переносим подход RAGEN за пределы стилизованных символических задач? Потребуется ли бизнесам разрабатывать совершенно новые среды и функции наград для использования этой системы в рабочих процессах, таких как обработка счетов или поддержка клиентов?
Ван в прямом сообщении VentureBeat на X предположил, что улучшение разнообразия задач может помочь, поскольку текущие игровые задачи имеют только схожие сеточные представления, но лишены семантической информации. Он также выразил оптимизм относительно того, что бизнесы смогут разрабатывать собственные обучающие упражнения для агентов ИИ с использованием RAGEN, отметив, что ссылка на GitHub предоставляет простое введение в добавление новых сред.
Ещё одна важная область — масштабируемость. Даже с улучшениями, предоставляемыми StarPO-S, в статье признаётся, что обучение всё же со временем рушится на длинных горизонтах. Это вызывает вопрос: существует ли теоретический или практический путь к поддержанию рассуждений в открытых или непрерывно развивающихся последовательностях задач?
На момент написания в репозитории или документации RAGEN не указана явная лицензия, что оставляет открытыми вопросы о правах использования. Тем не менее, RAGEN выделяется не только как технический вклад, но и как концептуальный шаг к более автономным агентам ИИ, способным к рассуждениям. Станет ли он частью корпоративного стека ИИ, ещё предстоит увидеть, но его понимание динамики обучения агентов уже помогает переопределить границы обучения LLM.
Связанная статья
DeepSeek представляет модель искусственного интеллекта, способную составить конкуренцию передовым системам
Китайская лаборатория искусственного интеллекта DeepSeek выпустила две предварительные версии своей новейшей крупномасштабной языковой модели DeepSeek V4 — долгожданное обновление прошлогодней модели
Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта
Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в
ИИ раскрывает скрытые мотивы в новостном контенте
Модели в стиле ChatGPT сейчас обучаются выявлять основную точку зрения новостной статьи — даже если эта точка зрения скрыта за цитатами, формулировками или фасадом (иногда неискренней) нейтральности.
Рекомендации по связанным специальным темам
Комментарии (10)
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

Год агентов ИИ: Ближайший взгляд на ожидания и реальность 2025 года
2025 год многие эксперты объявили годом, когда агенты ИИ — специализированные системы ИИ, основанные на продвинутых больших языковых и мультимодальных моделях от компаний, таких как OpenAI, Anthropic, Google и DeepSeek, — наконец займут центральное место. Однако, согласно недавнему опросу VentureBeat на социальной сети X, большинство агентов ИИ всё ещё находятся на экспериментальных стадиях, застряв в своего рода корпоративном лимбе.
Но на горизонте появляется проблеск надежды. Совместные усилия исследователей из Северо-Западного университета, Microsoft, Стэнфорда и Вашингтонского университета, включая Зихана Вана, бывшего исследователя DeepSeek, ныне получающего докторскую степень в области компьютерных наук в Северо-Западном университете, представили RAGEN. Эта новая система направлена на обучение и оценку агентов ИИ, чтобы сделать их более надёжными и адаптируемыми для реального корпоративного использования.
RAGEN: Новый подход к обучению агентов ИИ
В отличие от статичных задач, таких как решение математических задач или генерация кода, RAGEN сосредотачивается на динамичных, многоходовых взаимодействиях, где агентам нужно адаптироваться, запоминать и рассуждать в условиях неопределённости. Система основана на специально разработанной структуре обучения с подкреплением (RL), названной StarPO (State-Thinking-Actions-Reward Policy Optimization), которая делает акцент на обучении через опыт, а не на механическом запоминании. StarPO рассматривает целые последовательности принятия решений, а не только одношаговые ответы.
StarPO работает в два этапа: этап развертывания, где LLM генерирует полные последовательности взаимодействий, руководствуясь рассуждениями, и этап обновления, где модель оптимизируется с использованием нормализованных кумулятивных наград. Этот подход обеспечивает более стабильный и интерпретируемый цикл обучения по сравнению с традиционными методами оптимизации политики.
Исследователи протестировали эту структуру, используя доработанные версии моделей Qwen от Alibaba, в частности Qwen 1.5 и Qwen 2.5, выбранные за их открытые веса и высокую способность следовать инструкциям. Этот выбор обеспечил воспроизводимость и согласованные базовые сравнения для символических задач.
Ловушка эха: Проблема в обучении с подкреплением
Зихан Ван в широко обсуждаемой ветке на X выделил критическую проблему в обучении RL: *Почему ваше обучение RL всегда рушится?* Команда обнаружила, что, хотя агенты LLM изначально дают хорошо продуманные ответы, системы RL часто вознаграждают упрощённые решения, что приводит к повторяющимся поведенческим шаблонам, ухудшающим производительность — явление, которое они назвали "ловушкой эха".
Эта регрессия подпитывается циклами обратной связи, где определённые фразы или стратегии получают высокие награды на ранних этапах, что побуждает к их чрезмерному использованию и подавляет исследование. Симптомы очевидны: резкое падение дисперсии наград, всплески градиентов и исчезновение следов рассуждений.
Тестовые среды RAGEN
Для изучения этих поведений в контролируемых условиях RAGEN оценивает агентов в трёх символических средах:
- Bandit: Одноходовая стохастическая задача, тестирующая символическое рассуждение о риске и награде.
- Sokoban: Многоходовая детерминированная головоломка, включающая необратимые решения.
- Frozen Lake: Стохастическая многоходовая задача, требующая адаптивного планирования.
Каждая среда разработана так, чтобы минимизировать влияние реальных предпосылок и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения. Например, в среде Bandit агенты должны символически рассуждать о рычагах Дракона и Феникса, представляющих разные распределения наград, интерпретируя их как "силу" и "надежду" для прогнозирования исходов.
Стабилизация обучения с подкреплением с помощью StarPO-S
Для борьбы с коллапсом обучения исследователи представили StarPO-S, стабилизированную версию исходной структуры. StarPO-S включает три ключевых вмешательства:
- Фильтрация развертываний на основе неопределённости: Приоритет отдаётся развертываниям, где агент демонстрирует неопределённость исхода.
- Удаление штрафа KL: Позволяет модели свободнее отклоняться от исходной политики и исследовать новые поведения.
- Асимметричное обрезание PPO: Усиление высоконаградных траекторий больше, чем низконаградных, для ускорения обучения.
Эти изменения помогают задержать или устранить коллапс обучения и улучшить производительность во всех трёх задачах. Как сказал Ван, "StarPO-S… работает во всех 3 задачах. Устраняет коллапс. Лучшая награда".
Что делает хорошую агентную модель ИИ?
Успех обучения RL зависит не только от архитектуры, но и от качества данных, генерируемых агентами. Команда выделила три ключевых аспекта, существенно влияющих на обучение:
- Разнообразие задач: Воздействие на модель широкого спектра начальных сценариев улучшает обобщение.
- Гранулярность взаимодействия: Разрешение нескольких действий за ход позволяет проводить более осмысленное планирование.
- Свежесть развертываний: Поддержание актуальности обучающих данных с текущей политикой модели предотвращает устаревание сигналов обучения.
Эти факторы способствуют более стабильному и эффективному процессу обучения. Интерактивный демонстрационный сайт на GitHub визуализирует развертывания агентов как полные диалоговые ходы, включая не только действия, но и пошаговый мыслительный процесс, предшествующий им. Например, при решении математической задачи агент может сначала "подумать" о выделении переменной, прежде чем дать ответ, такой как "x = 5". Эти промежуточные мысли видны и отслеживаемы, что добавляет прозрачности в процесс принятия решений агентами.
Когда рассуждения иссякают
Хотя явные рассуждения улучшают производительность в простых одноходовых задачах, таких как Bandit, они имеют тенденцию к ухудшению во время многоходового обучения. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если их не вознаграждать напрямую. Это подчёркивает ограничение в типичном дизайне наград: фокус на завершении задачи может игнорировать качество процесса, лежащего в основе. Команда экспериментировала с штрафами на основе формата для поощрения лучше структурированных рассуждений, но признаёт, что, вероятно, требуется более тонкое формирование наград.
Открытые инструменты и будущие направления
RAGEN, вместе со своими структурами StarPO и StarPO-S, теперь доступен как проект с открытым исходным кодом по адресу https://github.com/RAGEN-AI/RAGEN. Однако на момент написания в репозитории GitHub не указана явная лицензия, что может ограничить его использование или распространение другими.
Система предоставляет ценную основу для тех, кто заинтересован в разработке агентов ИИ, которые не только выполняют задачи, но и думают, планируют и развиваются. По мере того как ИИ движется к большей автономности, проекты, такие как RAGEN, помогают осветить, что требуется для обучения моделей, которые учатся на последствиях своих действий.
Нерешённые вопросы для внедрения в корпоративные среды
Хотя статья о RAGEN предлагает подробную техническую дорожную карту, остаётся несколько практических вопросов для тех, кто хочет применить эти методы в корпоративных условиях. Например, насколько переносим подход RAGEN за пределы стилизованных символических задач? Потребуется ли бизнесам разрабатывать совершенно новые среды и функции наград для использования этой системы в рабочих процессах, таких как обработка счетов или поддержка клиентов?
Ван в прямом сообщении VentureBeat на X предположил, что улучшение разнообразия задач может помочь, поскольку текущие игровые задачи имеют только схожие сеточные представления, но лишены семантической информации. Он также выразил оптимизм относительно того, что бизнесы смогут разрабатывать собственные обучающие упражнения для агентов ИИ с использованием RAGEN, отметив, что ссылка на GitHub предоставляет простое введение в добавление новых сред.
Ещё одна важная область — масштабируемость. Даже с улучшениями, предоставляемыми StarPO-S, в статье признаётся, что обучение всё же со временем рушится на длинных горизонтах. Это вызывает вопрос: существует ли теоретический или практический путь к поддержанию рассуждений в открытых или непрерывно развивающихся последовательностях задач?
На момент написания в репозитории или документации RAGEN не указана явная лицензия, что оставляет открытыми вопросы о правах использования. Тем не менее, RAGEN выделяется не только как технический вклад, но и как концептуальный шаг к более автономным агентам ИИ, способным к рассуждениям. Станет ли он частью корпоративного стека ИИ, ещё предстоит увидеть, но его понимание динамики обучения агентов уже помогает переопределить границы обучения LLM.
DeepSeek представляет модель искусственного интеллекта, способную составить конкуренцию передовым системам
Китайская лаборатория искусственного интеллекта DeepSeek выпустила две предварительные версии своей новейшей крупномасштабной языковой модели DeepSeek V4 — долгожданное обновление прошлогодней модели
Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта
Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в
ИИ раскрывает скрытые мотивы в новостном контенте
Модели в стиле ChatGPT сейчас обучаются выявлять основную точку зрения новостной статьи — даже если эта точка зрения скрыта за цитатами, формулировками или фасадом (иногда неискренней) нейтральности.
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔











