вариант
Дом
Новости
Бывшие Deepseeker и Collaborators выпускают новый метод обучения надежных агентов искусственного интеллекта: Ragen

Бывшие Deepseeker и Collaborators выпускают новый метод обучения надежных агентов искусственного интеллекта: Ragen

4 мая 2025 г.
203

Бывшие Deepseeker и Collaborators выпускают новый метод обучения надежных агентов искусственного интеллекта: Ragen

Год агентов ИИ: Ближайший взгляд на ожидания и реальность 2025 года

2025 год многие эксперты объявили годом, когда агенты ИИ — специализированные системы ИИ, основанные на продвинутых больших языковых и мультимодальных моделях от компаний, таких как OpenAI, Anthropic, Google и DeepSeek, — наконец займут центральное место. Однако, согласно недавнему опросу VentureBeat на социальной сети X, большинство агентов ИИ всё ещё находятся на экспериментальных стадиях, застряв в своего рода корпоративном лимбе.

Но на горизонте появляется проблеск надежды. Совместные усилия исследователей из Северо-Западного университета, Microsoft, Стэнфорда и Вашингтонского университета, включая Зихана Вана, бывшего исследователя DeepSeek, ныне получающего докторскую степень в области компьютерных наук в Северо-Западном университете, представили RAGEN. Эта новая система направлена на обучение и оценку агентов ИИ, чтобы сделать их более надёжными и адаптируемыми для реального корпоративного использования.

RAGEN: Новый подход к обучению агентов ИИ

В отличие от статичных задач, таких как решение математических задач или генерация кода, RAGEN сосредотачивается на динамичных, многоходовых взаимодействиях, где агентам нужно адаптироваться, запоминать и рассуждать в условиях неопределённости. Система основана на специально разработанной структуре обучения с подкреплением (RL), названной StarPO (State-Thinking-Actions-Reward Policy Optimization), которая делает акцент на обучении через опыт, а не на механическом запоминании. StarPO рассматривает целые последовательности принятия решений, а не только одношаговые ответы.

StarPO работает в два этапа: этап развертывания, где LLM генерирует полные последовательности взаимодействий, руководствуясь рассуждениями, и этап обновления, где модель оптимизируется с использованием нормализованных кумулятивных наград. Этот подход обеспечивает более стабильный и интерпретируемый цикл обучения по сравнению с традиционными методами оптимизации политики.

Исследователи протестировали эту структуру, используя доработанные версии моделей Qwen от Alibaba, в частности Qwen 1.5 и Qwen 2.5, выбранные за их открытые веса и высокую способность следовать инструкциям. Этот выбор обеспечил воспроизводимость и согласованные базовые сравнения для символических задач.

Ловушка эха: Проблема в обучении с подкреплением

Зихан Ван в широко обсуждаемой ветке на X выделил критическую проблему в обучении RL: *Почему ваше обучение RL всегда рушится?* Команда обнаружила, что, хотя агенты LLM изначально дают хорошо продуманные ответы, системы RL часто вознаграждают упрощённые решения, что приводит к повторяющимся поведенческим шаблонам, ухудшающим производительность — явление, которое они назвали "ловушкой эха".

Эта регрессия подпитывается циклами обратной связи, где определённые фразы или стратегии получают высокие награды на ранних этапах, что побуждает к их чрезмерному использованию и подавляет исследование. Симптомы очевидны: резкое падение дисперсии наград, всплески градиентов и исчезновение следов рассуждений.

Тестовые среды RAGEN

Для изучения этих поведений в контролируемых условиях RAGEN оценивает агентов в трёх символических средах:

  • Bandit: Одноходовая стохастическая задача, тестирующая символическое рассуждение о риске и награде.
  • Sokoban: Многоходовая детерминированная головоломка, включающая необратимые решения.
  • Frozen Lake: Стохастическая многоходовая задача, требующая адаптивного планирования.

Каждая среда разработана так, чтобы минимизировать влияние реальных предпосылок и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения. Например, в среде Bandit агенты должны символически рассуждать о рычагах Дракона и Феникса, представляющих разные распределения наград, интерпретируя их как "силу" и "надежду" для прогнозирования исходов.

Стабилизация обучения с подкреплением с помощью StarPO-S

Для борьбы с коллапсом обучения исследователи представили StarPO-S, стабилизированную версию исходной структуры. StarPO-S включает три ключевых вмешательства:

  1. Фильтрация развертываний на основе неопределённости: Приоритет отдаётся развертываниям, где агент демонстрирует неопределённость исхода.
  2. Удаление штрафа KL: Позволяет модели свободнее отклоняться от исходной политики и исследовать новые поведения.
  3. Асимметричное обрезание PPO: Усиление высоконаградных траекторий больше, чем низконаградных, для ускорения обучения.

Эти изменения помогают задержать или устранить коллапс обучения и улучшить производительность во всех трёх задачах. Как сказал Ван, "StarPO-S… работает во всех 3 задачах. Устраняет коллапс. Лучшая награда".

Что делает хорошую агентную модель ИИ?

Успех обучения RL зависит не только от архитектуры, но и от качества данных, генерируемых агентами. Команда выделила три ключевых аспекта, существенно влияющих на обучение:

  • Разнообразие задач: Воздействие на модель широкого спектра начальных сценариев улучшает обобщение.
  • Гранулярность взаимодействия: Разрешение нескольких действий за ход позволяет проводить более осмысленное планирование.
  • Свежесть развертываний: Поддержание актуальности обучающих данных с текущей политикой модели предотвращает устаревание сигналов обучения.

Эти факторы способствуют более стабильному и эффективному процессу обучения. Интерактивный демонстрационный сайт на GitHub визуализирует развертывания агентов как полные диалоговые ходы, включая не только действия, но и пошаговый мыслительный процесс, предшествующий им. Например, при решении математической задачи агент может сначала "подумать" о выделении переменной, прежде чем дать ответ, такой как "x = 5". Эти промежуточные мысли видны и отслеживаемы, что добавляет прозрачности в процесс принятия решений агентами.

Когда рассуждения иссякают

Хотя явные рассуждения улучшают производительность в простых одноходовых задачах, таких как Bandit, они имеют тенденцию к ухудшению во время многоходового обучения. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если их не вознаграждать напрямую. Это подчёркивает ограничение в типичном дизайне наград: фокус на завершении задачи может игнорировать качество процесса, лежащего в основе. Команда экспериментировала с штрафами на основе формата для поощрения лучше структурированных рассуждений, но признаёт, что, вероятно, требуется более тонкое формирование наград.

Открытые инструменты и будущие направления

RAGEN, вместе со своими структурами StarPO и StarPO-S, теперь доступен как проект с открытым исходным кодом по адресу https://github.com/RAGEN-AI/RAGEN. Однако на момент написания в репозитории GitHub не указана явная лицензия, что может ограничить его использование или распространение другими.

Система предоставляет ценную основу для тех, кто заинтересован в разработке агентов ИИ, которые не только выполняют задачи, но и думают, планируют и развиваются. По мере того как ИИ движется к большей автономности, проекты, такие как RAGEN, помогают осветить, что требуется для обучения моделей, которые учатся на последствиях своих действий.

Нерешённые вопросы для внедрения в корпоративные среды

Хотя статья о RAGEN предлагает подробную техническую дорожную карту, остаётся несколько практических вопросов для тех, кто хочет применить эти методы в корпоративных условиях. Например, насколько переносим подход RAGEN за пределы стилизованных символических задач? Потребуется ли бизнесам разрабатывать совершенно новые среды и функции наград для использования этой системы в рабочих процессах, таких как обработка счетов или поддержка клиентов?

Ван в прямом сообщении VentureBeat на X предположил, что улучшение разнообразия задач может помочь, поскольку текущие игровые задачи имеют только схожие сеточные представления, но лишены семантической информации. Он также выразил оптимизм относительно того, что бизнесы смогут разрабатывать собственные обучающие упражнения для агентов ИИ с использованием RAGEN, отметив, что ссылка на GitHub предоставляет простое введение в добавление новых сред.

Ещё одна важная область — масштабируемость. Даже с улучшениями, предоставляемыми StarPO-S, в статье признаётся, что обучение всё же со временем рушится на длинных горизонтах. Это вызывает вопрос: существует ли теоретический или практический путь к поддержанию рассуждений в открытых или непрерывно развивающихся последовательностях задач?

На момент написания в репозитории или документации RAGEN не указана явная лицензия, что оставляет открытыми вопросы о правах использования. Тем не менее, RAGEN выделяется не только как технический вклад, но и как концептуальный шаг к более автономным агентам ИИ, способным к рассуждениям. Станет ли он частью корпоративного стека ИИ, ещё предстоит увидеть, но его понимание динамики обучения агентов уже помогает переопределить границы обучения LLM.

Связанная статья
DeepSeek представляет модель искусственного интеллекта, способную составить конкуренцию передовым системам DeepSeek представляет модель искусственного интеллекта, способную составить конкуренцию передовым системам Китайская лаборатория искусственного интеллекта DeepSeek выпустила две предварительные версии своей новейшей крупномасштабной языковой модели DeepSeek V4 — долгожданное обновление прошлогодней модели
Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в
ИИ раскрывает скрытые мотивы в новостном контенте ИИ раскрывает скрытые мотивы в новостном контенте Модели в стиле ChatGPT сейчас обучаются выявлять основную точку зрения новостной статьи — даже если эта точка зрения скрыта за цитатами, формулировками или фасадом (иногда неискренней) нейтральности.
Рекомендации по связанным специальным темам
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
код Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом
Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов
xix.ai
Комментарии (10)
0/500
CharlesYoung
CharlesYoung 8 апреля 2026 г., 21:00:57 GMT+03:00

Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.

JosephMartínez
JosephMartínez 4 апреля 2026 г., 19:00:41 GMT+03:00

這方法聽起來滿有趣的,但訓練出真正可靠的AI代理還是有段距離吧?RAGEN這個方向不錯,但實務上遇到意外狀況時,它們真的能妥善應對嗎?先觀望一下實際應用案例再說...🤔

GregoryRodriguez
GregoryRodriguez 12 октября 2025 г., 5:30:38 GMT+03:00

RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?

ScottEvans
ScottEvans 13 августа 2025 г., 14:00:59 GMT+03:00

RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!

JimmyRamirez
JimmyRamirez 23 июля 2025 г., 7:59:29 GMT+03:00

This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

RalphWalker
RalphWalker 6 мая 2025 г., 10:48:04 GMT+03:00

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

OR