Бывшие Deepseeker и Collaborators выпускают новый метод обучения надежных агентов искусственного интеллекта: Ragen

Год агентов ИИ: более внимательный взгляд на ожидания и реалии 2025 года.
2025 год был объявлен многими экспертами как год, когда агенты искусственного интеллекта - специальные системы искусственного интеллекта, управляемые передовыми крупными языками и мультимодальными моделями, таких компаний, как Openai, Anpropic, Google и Deepseek, наконец -то зайдут в центр. Однако, согласно недавнему опросу VentureBeat о социальной сети X, большинство агентов искусственного интеллекта по -прежнему томится на экспериментальных этапах, оказавшись в каком -то корпоративном подвешенном состоянии.
Но на горизонте есть проблеск надежды. Совместные усилия исследователей в Северо -Западном университете, Microsoft, Stanford и Вашингтоне, в том числе Зихан Ван, бывший исследователь Deepseek, который сейчас занимается доктором наук в области компьютерных наук на северо -западе, представила Ragen. Эта новая система направлена на обучение и оценку агентов ИИ, чтобы сделать их более надежными и адаптируемыми для реального мира, предприятия.
Раген: новый подход к обучению агентов ИИ
В отличие от статических задач, таких как решение по математике или генерация кода, Раген фокусируется на динамических взаимодействиях с несколькими поворотами, в которых агенты должны адаптироваться, запоминать и разум, среди неопределенности. Система построена на индивидуальной структуре обучения подкреплению (RL), называемой Starpo (штат-то, что дает в порядок, оптимизация политики), которая подчеркивает обучение через опыт, а не на запоминание. Starpo рассматривает целые последовательности принятия решений, а не только одноэтапные ответы.
Starpo работает в двух этапах: этап развертывания, где LLM генерирует полные последовательности взаимодействия, руководствуясь рассуждением, и этап обновления, на которой модель оптимизируется с использованием нормализованных кумулятивных вознаграждений. Этот подход предлагает более стабильный и интерпретируемый петлю обучения по сравнению с традиционными методами оптимизации политики.
Исследователи протестировали эту структуру, используя тонкие версии моделей QWEN Alibaba, в частности QWEN 1.5 и QWEN 2.5, выбранные для их открытых весов и сильных возможностей для обучения. Этот выбор облегчил воспроизводимость и последовательные базовые сравнения между символическими задачами.
Echo Trap: задача в обучении подкрепления
Зихан Ван подчеркнул критическую проблему в обучении RL в широко распространенной x потоке: * Почему ваше обучение RL всегда разрушается? * Команда определила, что, хотя агенты LLM изначально производят хорошо разобразные ответы, системы RL часто вознаграждают ярлыки, что приводит к повторяющимся поведению, которые обезтите производительность-феноменон, который они называют «echo trap».
Эта регрессия подпитывается петлями обратной связи, где определенные фразы или стратегии зарабатывают высокие вознаграждения на ранних этапах, поощряя чрезмерное использование и удушающее исследование. Симптомы ясны: наградные скалы, градиентные шипы и исчезающие следы рассуждения.
Тестовые среды Рагена
Чтобы изучить это поведение в контролируемой обстановке, Раген оценивает агентов в трех символических средах:
- Бандит: стохастическая задача, которая проверяет символические рассуждения о рисках.
- Сокобан: многообразие, детерминированная головоломка, включающая необратимые решения.
- Замороженное озеро: стохастическое, многословное задание, требующее адаптивного планирования.
Каждая среда предназначена для минимизации настоящих априоров и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения. Например, в среде Бандита агенты должны символически рассуждать о драконе и руках Феникса, представляющих различные распределения вознаграждений, интерпретируя их как «силу» и «надежду» для прогнозирования результатов.
Стабилизирующее обучение подкреплению с помощью Starpo-S
Для борьбы с учетом коллапса исследователи представили Starpo-S, стабилизированную версию оригинальной структуры. Starpo-S включает в себя три ключевых вмешательства:
- На основе неопределенности фильтрация развертывания: приоритет развертывания, когда агент демонстрирует неопределенность результата.
- Удаление штрафа KL: позволяет модели более свободно отклоняться от своей первоначальной политики и изучать новое поведение.
- Асимметричная обрезка ППО: усиление высоких вознаграждений больше, чем низкодобывающие, для повышения обучения.
Эти изменения помогают задержать или устранить учебные разумы и улучшить производительность во всех трех задачах. Как сказал Ван, «Starpo-S… работает во всех 3 задачах. Облегчает обрушение. Лучше награда».
Что делает хорошую агентскую модель ИИ?
Успех обучения RL зависит не только от архитектуры, но и от качества данных, полученных агентами. Команда определила три важных аспекта, которые значительно влияют на обучение:
- Разнообразие задач: разоблачение модели на широкий диапазон начальных сценариев улучшает обобщение.
- Гранулярность взаимодействия: разрешение на несколько действий за ход позволяет более значимое планирование.
- Свежесть развертывания: поддержание учебных данных в соответствии с текущей модельной политикой избегает устаревших сигналов обучения.
Эти факторы способствуют более стабильному и эффективному учебному процессу. Интерактивный демонстрационный сайт на GitHub визуализирует развертывание агентов, когда поворачивается полный диалог, включая не только действия, но и пошаговый процесс мышления, который предшествует им. Например, при решении математической задачи агент может сначала «подумать» об изоляции переменной, прежде чем отправлять ответ, такой как «x = 5». Эти промежуточные мысли видны и прослеживаются, добавляя прозрачность к тому, как агенты принимают решения.
Когда рассуждает
В то время как явные рассуждения повышают производительность в простых задачах, таких как Bandit, он имеет тенденцию распадаться во время многообразования. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если не награждено. Это подчеркивает ограничение в том, как обычно разработаны награды: сосредоточение на выполнении задач может пренебречь качеством процесса, стоящего за ним. Команда экспериментировала с штрафами на основе формата, чтобы поощрять более строгие структурированные рассуждения, но признает, что, вероятно, необходимо более утонченное формирование вознаграждения.
Открытые инструменты и будущие направления
Ragen, наряду со своими Frameworks Starpo и Starpo-S, теперь доступен как проект с открытым исходным кодом на https://github.com/ragen-ai/ragen . Однако на момент написания статьи в репозитории GitHub не указана никакая явная лицензия, которая может ограничить его использование или перераспределение другими.
Система обеспечивает ценную основу для тех, кто заинтересован в разработке агентов ИИ, которые не только выполняют задачи, но и думают, планируют и развиваются. По мере того, как ИИ движется к большей автономии, такие проекты, как Раген, помогают осветить то, что нужно для обучения моделей, которые учатся на последствиях их собственных действий.
Выдающиеся вопросы для принятия предприятий в реальном мире
В то время как Gragen Paper предлагает подробную техническую дорожную карту, остается несколько практических вопросов для тех, кто хочет применить эти методы в настройках предприятия. Например, насколько передается подход Рагена за пределами стилизованных символических задач? Будет ли предприятиям разработать совершенно новые среды и функции поощрения для использования этой системы в рабочих процессах, таких как обработка счетов или поддержка клиентов?
Ван, в прямом сообщении, чтобы VentureBeat на X, предположил, что улучшение разнообразия задач может помочь, поскольку текущие игровые задачи имеют только сходные представления сетки, но не имеют семантической информации. Он также выразил оптимизм в отношении предприятий, разрабатывающих свои собственные учебные упражнения для агентов искусственного интеллекта, используя Ragen, отметив, что ссылка Github обеспечивает простое введение в добавление новых сред.
Другая критическая область - масштабируемость. Даже при усовершенствованиях, предоставленных Starpo-S, в газете признается, что обучение все еще в конечном итоге падает по более длинным горизонтам. Это поднимает вопрос: существует ли теоретический или практический путь к поддержанию рассуждений над открытыми или постоянно развивающимися последовательностями задач?
На момент написания статьи в репозитории или документации Ragen Github не указана никакой явной лицензии, оставляя открытые вопросы о правах на использование. Тем не менее, Раген выделяется не только как технический вклад, но и концептуальный шаг к более автономным, способным к рассуждениям агентов ИИ. Будет ли это частью стека AI Enterprise AI, еще предстоит увидеть, но его понимание динамики обучения агента уже помогает переопределить границу обучения LLM.
Связанная статья
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
Комментарии (5)
RalphWalker
6 мая 2025 г., 0:00:00 GMT
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
6 мая 2025 г., 0:00:00 GMT
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
MateoAdams
4 мая 2025 г., 0:00:00 GMT
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
GeorgeTaylor
5 мая 2025 г., 0:00:00 GMT
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
EricLewis
5 мая 2025 г., 0:00:00 GMT
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
Год агентов ИИ: более внимательный взгляд на ожидания и реалии 2025 года.
2025 год был объявлен многими экспертами как год, когда агенты искусственного интеллекта - специальные системы искусственного интеллекта, управляемые передовыми крупными языками и мультимодальными моделями, таких компаний, как Openai, Anpropic, Google и Deepseek, наконец -то зайдут в центр. Однако, согласно недавнему опросу VentureBeat о социальной сети X, большинство агентов искусственного интеллекта по -прежнему томится на экспериментальных этапах, оказавшись в каком -то корпоративном подвешенном состоянии.
Но на горизонте есть проблеск надежды. Совместные усилия исследователей в Северо -Западном университете, Microsoft, Stanford и Вашингтоне, в том числе Зихан Ван, бывший исследователь Deepseek, который сейчас занимается доктором наук в области компьютерных наук на северо -западе, представила Ragen. Эта новая система направлена на обучение и оценку агентов ИИ, чтобы сделать их более надежными и адаптируемыми для реального мира, предприятия.
Раген: новый подход к обучению агентов ИИ
В отличие от статических задач, таких как решение по математике или генерация кода, Раген фокусируется на динамических взаимодействиях с несколькими поворотами, в которых агенты должны адаптироваться, запоминать и разум, среди неопределенности. Система построена на индивидуальной структуре обучения подкреплению (RL), называемой Starpo (штат-то, что дает в порядок, оптимизация политики), которая подчеркивает обучение через опыт, а не на запоминание. Starpo рассматривает целые последовательности принятия решений, а не только одноэтапные ответы.
Starpo работает в двух этапах: этап развертывания, где LLM генерирует полные последовательности взаимодействия, руководствуясь рассуждением, и этап обновления, на которой модель оптимизируется с использованием нормализованных кумулятивных вознаграждений. Этот подход предлагает более стабильный и интерпретируемый петлю обучения по сравнению с традиционными методами оптимизации политики.
Исследователи протестировали эту структуру, используя тонкие версии моделей QWEN Alibaba, в частности QWEN 1.5 и QWEN 2.5, выбранные для их открытых весов и сильных возможностей для обучения. Этот выбор облегчил воспроизводимость и последовательные базовые сравнения между символическими задачами.
Echo Trap: задача в обучении подкрепления
Зихан Ван подчеркнул критическую проблему в обучении RL в широко распространенной x потоке: * Почему ваше обучение RL всегда разрушается? * Команда определила, что, хотя агенты LLM изначально производят хорошо разобразные ответы, системы RL часто вознаграждают ярлыки, что приводит к повторяющимся поведению, которые обезтите производительность-феноменон, который они называют «echo trap».
Эта регрессия подпитывается петлями обратной связи, где определенные фразы или стратегии зарабатывают высокие вознаграждения на ранних этапах, поощряя чрезмерное использование и удушающее исследование. Симптомы ясны: наградные скалы, градиентные шипы и исчезающие следы рассуждения.
Тестовые среды Рагена
Чтобы изучить это поведение в контролируемой обстановке, Раген оценивает агентов в трех символических средах:
- Бандит: стохастическая задача, которая проверяет символические рассуждения о рисках.
- Сокобан: многообразие, детерминированная головоломка, включающая необратимые решения.
- Замороженное озеро: стохастическое, многословное задание, требующее адаптивного планирования.
Каждая среда предназначена для минимизации настоящих априоров и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения. Например, в среде Бандита агенты должны символически рассуждать о драконе и руках Феникса, представляющих различные распределения вознаграждений, интерпретируя их как «силу» и «надежду» для прогнозирования результатов.
Стабилизирующее обучение подкреплению с помощью Starpo-S
Для борьбы с учетом коллапса исследователи представили Starpo-S, стабилизированную версию оригинальной структуры. Starpo-S включает в себя три ключевых вмешательства:
- На основе неопределенности фильтрация развертывания: приоритет развертывания, когда агент демонстрирует неопределенность результата.
- Удаление штрафа KL: позволяет модели более свободно отклоняться от своей первоначальной политики и изучать новое поведение.
- Асимметричная обрезка ППО: усиление высоких вознаграждений больше, чем низкодобывающие, для повышения обучения.
Эти изменения помогают задержать или устранить учебные разумы и улучшить производительность во всех трех задачах. Как сказал Ван, «Starpo-S… работает во всех 3 задачах. Облегчает обрушение. Лучше награда».
Что делает хорошую агентскую модель ИИ?
Успех обучения RL зависит не только от архитектуры, но и от качества данных, полученных агентами. Команда определила три важных аспекта, которые значительно влияют на обучение:
- Разнообразие задач: разоблачение модели на широкий диапазон начальных сценариев улучшает обобщение.
- Гранулярность взаимодействия: разрешение на несколько действий за ход позволяет более значимое планирование.
- Свежесть развертывания: поддержание учебных данных в соответствии с текущей модельной политикой избегает устаревших сигналов обучения.
Эти факторы способствуют более стабильному и эффективному учебному процессу. Интерактивный демонстрационный сайт на GitHub визуализирует развертывание агентов, когда поворачивается полный диалог, включая не только действия, но и пошаговый процесс мышления, который предшествует им. Например, при решении математической задачи агент может сначала «подумать» об изоляции переменной, прежде чем отправлять ответ, такой как «x = 5». Эти промежуточные мысли видны и прослеживаются, добавляя прозрачность к тому, как агенты принимают решения.
Когда рассуждает
В то время как явные рассуждения повышают производительность в простых задачах, таких как Bandit, он имеет тенденцию распадаться во время многообразования. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если не награждено. Это подчеркивает ограничение в том, как обычно разработаны награды: сосредоточение на выполнении задач может пренебречь качеством процесса, стоящего за ним. Команда экспериментировала с штрафами на основе формата, чтобы поощрять более строгие структурированные рассуждения, но признает, что, вероятно, необходимо более утонченное формирование вознаграждения.
Открытые инструменты и будущие направления
Ragen, наряду со своими Frameworks Starpo и Starpo-S, теперь доступен как проект с открытым исходным кодом на https://github.com/ragen-ai/ragen . Однако на момент написания статьи в репозитории GitHub не указана никакая явная лицензия, которая может ограничить его использование или перераспределение другими.
Система обеспечивает ценную основу для тех, кто заинтересован в разработке агентов ИИ, которые не только выполняют задачи, но и думают, планируют и развиваются. По мере того, как ИИ движется к большей автономии, такие проекты, как Раген, помогают осветить то, что нужно для обучения моделей, которые учатся на последствиях их собственных действий.
Выдающиеся вопросы для принятия предприятий в реальном мире
В то время как Gragen Paper предлагает подробную техническую дорожную карту, остается несколько практических вопросов для тех, кто хочет применить эти методы в настройках предприятия. Например, насколько передается подход Рагена за пределами стилизованных символических задач? Будет ли предприятиям разработать совершенно новые среды и функции поощрения для использования этой системы в рабочих процессах, таких как обработка счетов или поддержка клиентов?
Ван, в прямом сообщении, чтобы VentureBeat на X, предположил, что улучшение разнообразия задач может помочь, поскольку текущие игровые задачи имеют только сходные представления сетки, но не имеют семантической информации. Он также выразил оптимизм в отношении предприятий, разрабатывающих свои собственные учебные упражнения для агентов искусственного интеллекта, используя Ragen, отметив, что ссылка Github обеспечивает простое введение в добавление новых сред.
Другая критическая область - масштабируемость. Даже при усовершенствованиях, предоставленных Starpo-S, в газете признается, что обучение все еще в конечном итоге падает по более длинным горизонтам. Это поднимает вопрос: существует ли теоретический или практический путь к поддержанию рассуждений над открытыми или постоянно развивающимися последовательностями задач?
На момент написания статьи в репозитории или документации Ragen Github не указана никакой явной лицензии, оставляя открытые вопросы о правах на использование. Тем не менее, Раген выделяется не только как технический вклад, но и концептуальный шаг к более автономным, способным к рассуждениям агентов ИИ. Будет ли это частью стека AI Enterprise AI, еще предстоит увидеть, но его понимание динамики обучения агента уже помогает переопределить границу обучения LLM.




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀












