Бывшие Deepseeker и Collaborators выпускают новый метод обучения надежных агентов искусственного интеллекта: Ragen

Год агентов ИИ: более внимательный взгляд на ожидания и реалии 2025 года.
2025 год был объявлен многими экспертами как год, когда агенты искусственного интеллекта - специальные системы искусственного интеллекта, управляемые передовыми крупными языками и мультимодальными моделями, таких компаний, как Openai, Anpropic, Google и Deepseek, наконец -то зайдут в центр. Однако, согласно недавнему опросу VentureBeat о социальной сети X, большинство агентов искусственного интеллекта по -прежнему томится на экспериментальных этапах, оказавшись в каком -то корпоративном подвешенном состоянии.
Но на горизонте есть проблеск надежды. Совместные усилия исследователей в Северо -Западном университете, Microsoft, Stanford и Вашингтоне, в том числе Зихан Ван, бывший исследователь Deepseek, который сейчас занимается доктором наук в области компьютерных наук на северо -западе, представила Ragen. Эта новая система направлена на обучение и оценку агентов ИИ, чтобы сделать их более надежными и адаптируемыми для реального мира, предприятия.
Раген: новый подход к обучению агентов ИИ
В отличие от статических задач, таких как решение по математике или генерация кода, Раген фокусируется на динамических взаимодействиях с несколькими поворотами, в которых агенты должны адаптироваться, запоминать и разум, среди неопределенности. Система построена на индивидуальной структуре обучения подкреплению (RL), называемой Starpo (штат-то, что дает в порядок, оптимизация политики), которая подчеркивает обучение через опыт, а не на запоминание. Starpo рассматривает целые последовательности принятия решений, а не только одноэтапные ответы.
Starpo работает в двух этапах: этап развертывания, где LLM генерирует полные последовательности взаимодействия, руководствуясь рассуждением, и этап обновления, на которой модель оптимизируется с использованием нормализованных кумулятивных вознаграждений. Этот подход предлагает более стабильный и интерпретируемый петлю обучения по сравнению с традиционными методами оптимизации политики.
Исследователи протестировали эту структуру, используя тонкие версии моделей QWEN Alibaba, в частности QWEN 1.5 и QWEN 2.5, выбранные для их открытых весов и сильных возможностей для обучения. Этот выбор облегчил воспроизводимость и последовательные базовые сравнения между символическими задачами.
Echo Trap: задача в обучении подкрепления
Зихан Ван подчеркнул критическую проблему в обучении RL в широко распространенной x потоке: * Почему ваше обучение RL всегда разрушается? * Команда определила, что, хотя агенты LLM изначально производят хорошо разобразные ответы, системы RL часто вознаграждают ярлыки, что приводит к повторяющимся поведению, которые обезтите производительность-феноменон, который они называют «echo trap».
Эта регрессия подпитывается петлями обратной связи, где определенные фразы или стратегии зарабатывают высокие вознаграждения на ранних этапах, поощряя чрезмерное использование и удушающее исследование. Симптомы ясны: наградные скалы, градиентные шипы и исчезающие следы рассуждения.
Тестовые среды Рагена
Чтобы изучить это поведение в контролируемой обстановке, Раген оценивает агентов в трех символических средах:
- Бандит: стохастическая задача, которая проверяет символические рассуждения о рисках.
- Сокобан: многообразие, детерминированная головоломка, включающая необратимые решения.
- Замороженное озеро: стохастическое, многословное задание, требующее адаптивного планирования.
Каждая среда предназначена для минимизации настоящих априоров и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения. Например, в среде Бандита агенты должны символически рассуждать о драконе и руках Феникса, представляющих различные распределения вознаграждений, интерпретируя их как «силу» и «надежду» для прогнозирования результатов.
Стабилизирующее обучение подкреплению с помощью Starpo-S
Для борьбы с учетом коллапса исследователи представили Starpo-S, стабилизированную версию оригинальной структуры. Starpo-S включает в себя три ключевых вмешательства:
- На основе неопределенности фильтрация развертывания: приоритет развертывания, когда агент демонстрирует неопределенность результата.
- Удаление штрафа KL: позволяет модели более свободно отклоняться от своей первоначальной политики и изучать новое поведение.
- Асимметричная обрезка ППО: усиление высоких вознаграждений больше, чем низкодобывающие, для повышения обучения.
Эти изменения помогают задержать или устранить учебные разумы и улучшить производительность во всех трех задачах. Как сказал Ван, «Starpo-S… работает во всех 3 задачах. Облегчает обрушение. Лучше награда».
Что делает хорошую агентскую модель ИИ?
Успех обучения RL зависит не только от архитектуры, но и от качества данных, полученных агентами. Команда определила три важных аспекта, которые значительно влияют на обучение:
- Разнообразие задач: разоблачение модели на широкий диапазон начальных сценариев улучшает обобщение.
- Гранулярность взаимодействия: разрешение на несколько действий за ход позволяет более значимое планирование.
- Свежесть развертывания: поддержание учебных данных в соответствии с текущей модельной политикой избегает устаревших сигналов обучения.
Эти факторы способствуют более стабильному и эффективному учебному процессу. Интерактивный демонстрационный сайт на GitHub визуализирует развертывание агентов, когда поворачивается полный диалог, включая не только действия, но и пошаговый процесс мышления, который предшествует им. Например, при решении математической задачи агент может сначала «подумать» об изоляции переменной, прежде чем отправлять ответ, такой как «x = 5». Эти промежуточные мысли видны и прослеживаются, добавляя прозрачность к тому, как агенты принимают решения.
Когда рассуждает
В то время как явные рассуждения повышают производительность в простых задачах, таких как Bandit, он имеет тенденцию распадаться во время многообразования. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если не награждено. Это подчеркивает ограничение в том, как обычно разработаны награды: сосредоточение на выполнении задач может пренебречь качеством процесса, стоящего за ним. Команда экспериментировала с штрафами на основе формата, чтобы поощрять более строгие структурированные рассуждения, но признает, что, вероятно, необходимо более утонченное формирование вознаграждения.
Открытые инструменты и будущие направления
Ragen, наряду со своими Frameworks Starpo и Starpo-S, теперь доступен как проект с открытым исходным кодом на https://github.com/ragen-ai/ragen . Однако на момент написания статьи в репозитории GitHub не указана никакая явная лицензия, которая может ограничить его использование или перераспределение другими.
Система обеспечивает ценную основу для тех, кто заинтересован в разработке агентов ИИ, которые не только выполняют задачи, но и думают, планируют и развиваются. По мере того, как ИИ движется к большей автономии, такие проекты, как Раген, помогают осветить то, что нужно для обучения моделей, которые учатся на последствиях их собственных действий.
Выдающиеся вопросы для принятия предприятий в реальном мире
В то время как Gragen Paper предлагает подробную техническую дорожную карту, остается несколько практических вопросов для тех, кто хочет применить эти методы в настройках предприятия. Например, насколько передается подход Рагена за пределами стилизованных символических задач? Будет ли предприятиям разработать совершенно новые среды и функции поощрения для использования этой системы в рабочих процессах, таких как обработка счетов или поддержка клиентов?
Ван, в прямом сообщении, чтобы VentureBeat на X, предположил, что улучшение разнообразия задач может помочь, поскольку текущие игровые задачи имеют только сходные представления сетки, но не имеют семантической информации. Он также выразил оптимизм в отношении предприятий, разрабатывающих свои собственные учебные упражнения для агентов искусственного интеллекта, используя Ragen, отметив, что ссылка Github обеспечивает простое введение в добавление новых сред.
Другая критическая область - масштабируемость. Даже при усовершенствованиях, предоставленных Starpo-S, в газете признается, что обучение все еще в конечном итоге падает по более длинным горизонтам. Это поднимает вопрос: существует ли теоретический или практический путь к поддержанию рассуждений над открытыми или постоянно развивающимися последовательностями задач?
На момент написания статьи в репозитории или документации Ragen Github не указана никакой явной лицензии, оставляя открытые вопросы о правах на использование. Тем не менее, Раген выделяется не только как технический вклад, но и концептуальный шаг к более автономным, способным к рассуждениям агентов ИИ. Будет ли это частью стека AI Enterprise AI, еще предстоит увидеть, но его понимание динамики обучения агента уже помогает переопределить границу обучения LLM.
Связанная статья
Google представляет готовые к использованию модели ИИ Gemini 2.5 для конкуренции с OpenAI на корпоративном рынке
Google в понедельник усилила свою стратегию в области ИИ, запустив продвинутые модели Gemini 2.5 для корпоративного использования и представив экономичный вариант для конкуренции по цене и производите
Alibaba представляет Wan2.1-VACE: Открытое решение для видео с ИИ
Alibaba представила Wan2.1-VACE, модель ИИ с открытым исходным кодом, которая призвана трансформировать процессы создания и редактирования видео.VACE является ключевым компонентом семейства видео моде
AI驱动的零售实验在Anthropic惨败
想象将一家小店交给人工智能,托付从定价到客户互动的一切。会出什么问题?Anthropic最近的一项研究于周五发布,回答了这个问题:几乎一切都出了问题。他们的AI助手Claude在旧金山办公室经营了一家小店一个月,结果堪称商学院学生的警示故事,由一个毫无现实经验的人撰写——在本例中,确实如此。Anthropic办公室的“商店”是一个装满饮料和零食的迷你冰箱,配有自助结账的iPad。(来源:Anthr
Комментарии (6)
JimmyRamirez
23 июля 2025 г., 7:59:29 GMT+03:00
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
6 мая 2025 г., 10:48:04 GMT+03:00
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
6 мая 2025 г., 1:45:54 GMT+03:00
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
5 мая 2025 г., 6:45:04 GMT+03:00
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
4 мая 2025 г., 23:00:48 GMT+03:00
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
MateoAdams
4 мая 2025 г., 18:14:20 GMT+03:00
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
Год агентов ИИ: более внимательный взгляд на ожидания и реалии 2025 года.
2025 год был объявлен многими экспертами как год, когда агенты искусственного интеллекта - специальные системы искусственного интеллекта, управляемые передовыми крупными языками и мультимодальными моделями, таких компаний, как Openai, Anpropic, Google и Deepseek, наконец -то зайдут в центр. Однако, согласно недавнему опросу VentureBeat о социальной сети X, большинство агентов искусственного интеллекта по -прежнему томится на экспериментальных этапах, оказавшись в каком -то корпоративном подвешенном состоянии.
Но на горизонте есть проблеск надежды. Совместные усилия исследователей в Северо -Западном университете, Microsoft, Stanford и Вашингтоне, в том числе Зихан Ван, бывший исследователь Deepseek, который сейчас занимается доктором наук в области компьютерных наук на северо -западе, представила Ragen. Эта новая система направлена на обучение и оценку агентов ИИ, чтобы сделать их более надежными и адаптируемыми для реального мира, предприятия.
Раген: новый подход к обучению агентов ИИ
В отличие от статических задач, таких как решение по математике или генерация кода, Раген фокусируется на динамических взаимодействиях с несколькими поворотами, в которых агенты должны адаптироваться, запоминать и разум, среди неопределенности. Система построена на индивидуальной структуре обучения подкреплению (RL), называемой Starpo (штат-то, что дает в порядок, оптимизация политики), которая подчеркивает обучение через опыт, а не на запоминание. Starpo рассматривает целые последовательности принятия решений, а не только одноэтапные ответы.
Starpo работает в двух этапах: этап развертывания, где LLM генерирует полные последовательности взаимодействия, руководствуясь рассуждением, и этап обновления, на которой модель оптимизируется с использованием нормализованных кумулятивных вознаграждений. Этот подход предлагает более стабильный и интерпретируемый петлю обучения по сравнению с традиционными методами оптимизации политики.
Исследователи протестировали эту структуру, используя тонкие версии моделей QWEN Alibaba, в частности QWEN 1.5 и QWEN 2.5, выбранные для их открытых весов и сильных возможностей для обучения. Этот выбор облегчил воспроизводимость и последовательные базовые сравнения между символическими задачами.
Echo Trap: задача в обучении подкрепления
Зихан Ван подчеркнул критическую проблему в обучении RL в широко распространенной x потоке: * Почему ваше обучение RL всегда разрушается? * Команда определила, что, хотя агенты LLM изначально производят хорошо разобразные ответы, системы RL часто вознаграждают ярлыки, что приводит к повторяющимся поведению, которые обезтите производительность-феноменон, который они называют «echo trap».
Эта регрессия подпитывается петлями обратной связи, где определенные фразы или стратегии зарабатывают высокие вознаграждения на ранних этапах, поощряя чрезмерное использование и удушающее исследование. Симптомы ясны: наградные скалы, градиентные шипы и исчезающие следы рассуждения.
Тестовые среды Рагена
Чтобы изучить это поведение в контролируемой обстановке, Раген оценивает агентов в трех символических средах:
- Бандит: стохастическая задача, которая проверяет символические рассуждения о рисках.
- Сокобан: многообразие, детерминированная головоломка, включающая необратимые решения.
- Замороженное озеро: стохастическое, многословное задание, требующее адаптивного планирования.
Каждая среда предназначена для минимизации настоящих априоров и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения. Например, в среде Бандита агенты должны символически рассуждать о драконе и руках Феникса, представляющих различные распределения вознаграждений, интерпретируя их как «силу» и «надежду» для прогнозирования результатов.
Стабилизирующее обучение подкреплению с помощью Starpo-S
Для борьбы с учетом коллапса исследователи представили Starpo-S, стабилизированную версию оригинальной структуры. Starpo-S включает в себя три ключевых вмешательства:
- На основе неопределенности фильтрация развертывания: приоритет развертывания, когда агент демонстрирует неопределенность результата.
- Удаление штрафа KL: позволяет модели более свободно отклоняться от своей первоначальной политики и изучать новое поведение.
- Асимметричная обрезка ППО: усиление высоких вознаграждений больше, чем низкодобывающие, для повышения обучения.
Эти изменения помогают задержать или устранить учебные разумы и улучшить производительность во всех трех задачах. Как сказал Ван, «Starpo-S… работает во всех 3 задачах. Облегчает обрушение. Лучше награда».
Что делает хорошую агентскую модель ИИ?
Успех обучения RL зависит не только от архитектуры, но и от качества данных, полученных агентами. Команда определила три важных аспекта, которые значительно влияют на обучение:
- Разнообразие задач: разоблачение модели на широкий диапазон начальных сценариев улучшает обобщение.
- Гранулярность взаимодействия: разрешение на несколько действий за ход позволяет более значимое планирование.
- Свежесть развертывания: поддержание учебных данных в соответствии с текущей модельной политикой избегает устаревших сигналов обучения.
Эти факторы способствуют более стабильному и эффективному учебному процессу. Интерактивный демонстрационный сайт на GitHub визуализирует развертывание агентов, когда поворачивается полный диалог, включая не только действия, но и пошаговый процесс мышления, который предшествует им. Например, при решении математической задачи агент может сначала «подумать» об изоляции переменной, прежде чем отправлять ответ, такой как «x = 5». Эти промежуточные мысли видны и прослеживаются, добавляя прозрачность к тому, как агенты принимают решения.
Когда рассуждает
В то время как явные рассуждения повышают производительность в простых задачах, таких как Bandit, он имеет тенденцию распадаться во время многообразования. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если не награждено. Это подчеркивает ограничение в том, как обычно разработаны награды: сосредоточение на выполнении задач может пренебречь качеством процесса, стоящего за ним. Команда экспериментировала с штрафами на основе формата, чтобы поощрять более строгие структурированные рассуждения, но признает, что, вероятно, необходимо более утонченное формирование вознаграждения.
Открытые инструменты и будущие направления
Ragen, наряду со своими Frameworks Starpo и Starpo-S, теперь доступен как проект с открытым исходным кодом на https://github.com/ragen-ai/ragen . Однако на момент написания статьи в репозитории GitHub не указана никакая явная лицензия, которая может ограничить его использование или перераспределение другими.
Система обеспечивает ценную основу для тех, кто заинтересован в разработке агентов ИИ, которые не только выполняют задачи, но и думают, планируют и развиваются. По мере того, как ИИ движется к большей автономии, такие проекты, как Раген, помогают осветить то, что нужно для обучения моделей, которые учатся на последствиях их собственных действий.
Выдающиеся вопросы для принятия предприятий в реальном мире
В то время как Gragen Paper предлагает подробную техническую дорожную карту, остается несколько практических вопросов для тех, кто хочет применить эти методы в настройках предприятия. Например, насколько передается подход Рагена за пределами стилизованных символических задач? Будет ли предприятиям разработать совершенно новые среды и функции поощрения для использования этой системы в рабочих процессах, таких как обработка счетов или поддержка клиентов?
Ван, в прямом сообщении, чтобы VentureBeat на X, предположил, что улучшение разнообразия задач может помочь, поскольку текущие игровые задачи имеют только сходные представления сетки, но не имеют семантической информации. Он также выразил оптимизм в отношении предприятий, разрабатывающих свои собственные учебные упражнения для агентов искусственного интеллекта, используя Ragen, отметив, что ссылка Github обеспечивает простое введение в добавление новых сред.
Другая критическая область - масштабируемость. Даже при усовершенствованиях, предоставленных Starpo-S, в газете признается, что обучение все еще в конечном итоге падает по более длинным горизонтам. Это поднимает вопрос: существует ли теоретический или практический путь к поддержанию рассуждений над открытыми или постоянно развивающимися последовательностями задач?
На момент написания статьи в репозитории или документации Ragen Github не указана никакой явной лицензии, оставляя открытые вопросы о правах на использование. Тем не менее, Раген выделяется не только как технический вклад, но и концептуальный шаг к более автономным, способным к рассуждениям агентов ИИ. Будет ли это частью стека AI Enterprise AI, еще предстоит увидеть, но его понимание динамики обучения агента уже помогает переопределить границу обучения LLM.




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀












