

Бывшие Deepseeker и Collaborators выпускают новый метод обучения надежных агентов искусственного интеллекта: Ragen
4 мая 2025 г.
DavidMartínez
0

Год агентов ИИ: более внимательный взгляд на ожидания и реалии 2025 года.
2025 год был объявлен многими экспертами как год, когда агенты искусственного интеллекта - специальные системы искусственного интеллекта, управляемые передовыми крупными языками и мультимодальными моделями, таких компаний, как Openai, Anpropic, Google и Deepseek, наконец -то зайдут в центр. Однако, согласно недавнему опросу VentureBeat о социальной сети X, большинство агентов искусственного интеллекта по -прежнему томится на экспериментальных этапах, оказавшись в каком -то корпоративном подвешенном состоянии.
Но на горизонте есть проблеск надежды. Совместные усилия исследователей в Северо -Западном университете, Microsoft, Stanford и Вашингтоне, в том числе Зихан Ван, бывший исследователь Deepseek, который сейчас занимается доктором наук в области компьютерных наук на северо -западе, представила Ragen. Эта новая система направлена на обучение и оценку агентов ИИ, чтобы сделать их более надежными и адаптируемыми для реального мира, предприятия.
Раген: новый подход к обучению агентов ИИ
В отличие от статических задач, таких как решение по математике или генерация кода, Раген фокусируется на динамических взаимодействиях с несколькими поворотами, в которых агенты должны адаптироваться, запоминать и разум, среди неопределенности. Система построена на индивидуальной структуре обучения подкреплению (RL), называемой Starpo (штат-то, что дает в порядок, оптимизация политики), которая подчеркивает обучение через опыт, а не на запоминание. Starpo рассматривает целые последовательности принятия решений, а не только одноэтапные ответы.
Starpo работает в двух этапах: этап развертывания, где LLM генерирует полные последовательности взаимодействия, руководствуясь рассуждением, и этап обновления, на которой модель оптимизируется с использованием нормализованных кумулятивных вознаграждений. Этот подход предлагает более стабильный и интерпретируемый петлю обучения по сравнению с традиционными методами оптимизации политики.
Исследователи протестировали эту структуру, используя тонкие версии моделей QWEN Alibaba, в частности QWEN 1.5 и QWEN 2.5, выбранные для их открытых весов и сильных возможностей для обучения. Этот выбор облегчил воспроизводимость и последовательные базовые сравнения между символическими задачами.
Echo Trap: задача в обучении подкрепления
Зихан Ван подчеркнул критическую проблему в обучении RL в широко распространенной x потоке: * Почему ваше обучение RL всегда разрушается? * Команда определила, что, хотя агенты LLM изначально производят хорошо разобразные ответы, системы RL часто вознаграждают ярлыки, что приводит к повторяющимся поведению, которые обезтите производительность-феноменон, который они называют «echo trap».
Эта регрессия подпитывается петлями обратной связи, где определенные фразы или стратегии зарабатывают высокие вознаграждения на ранних этапах, поощряя чрезмерное использование и удушающее исследование. Симптомы ясны: наградные скалы, градиентные шипы и исчезающие следы рассуждения.
Тестовые среды Рагена
Чтобы изучить это поведение в контролируемой обстановке, Раген оценивает агентов в трех символических средах:
- Бандит: стохастическая задача, которая проверяет символические рассуждения о рисках.
- Сокобан: многообразие, детерминированная головоломка, включающая необратимые решения.
- Замороженное озеро: стохастическое, многословное задание, требующее адаптивного планирования.
Каждая среда предназначена для минимизации настоящих априоров и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения. Например, в среде Бандита агенты должны символически рассуждать о драконе и руках Феникса, представляющих различные распределения вознаграждений, интерпретируя их как «силу» и «надежду» для прогнозирования результатов.
Стабилизирующее обучение подкреплению с помощью Starpo-S
Для борьбы с учетом коллапса исследователи представили Starpo-S, стабилизированную версию оригинальной структуры. Starpo-S включает в себя три ключевых вмешательства:
- На основе неопределенности фильтрация развертывания: приоритет развертывания, когда агент демонстрирует неопределенность результата.
- Удаление штрафа KL: позволяет модели более свободно отклоняться от своей первоначальной политики и изучать новое поведение.
- Асимметричная обрезка ППО: усиление высоких вознаграждений больше, чем низкодобывающие, для повышения обучения.
Эти изменения помогают задержать или устранить учебные разумы и улучшить производительность во всех трех задачах. Как сказал Ван, «Starpo-S… работает во всех 3 задачах. Облегчает обрушение. Лучше награда».
Что делает хорошую агентскую модель ИИ?
Успех обучения RL зависит не только от архитектуры, но и от качества данных, полученных агентами. Команда определила три важных аспекта, которые значительно влияют на обучение:
- Разнообразие задач: разоблачение модели на широкий диапазон начальных сценариев улучшает обобщение.
- Гранулярность взаимодействия: разрешение на несколько действий за ход позволяет более значимое планирование.
- Свежесть развертывания: поддержание учебных данных в соответствии с текущей модельной политикой избегает устаревших сигналов обучения.
Эти факторы способствуют более стабильному и эффективному учебному процессу. Интерактивный демонстрационный сайт на GitHub визуализирует развертывание агентов, когда поворачивается полный диалог, включая не только действия, но и пошаговый процесс мышления, который предшествует им. Например, при решении математической задачи агент может сначала «подумать» об изоляции переменной, прежде чем отправлять ответ, такой как «x = 5». Эти промежуточные мысли видны и прослеживаются, добавляя прозрачность к тому, как агенты принимают решения.
Когда рассуждает
В то время как явные рассуждения повышают производительность в простых задачах, таких как Bandit, он имеет тенденцию распадаться во время многообразования. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если не награждено. Это подчеркивает ограничение в том, как обычно разработаны награды: сосредоточение на выполнении задач может пренебречь качеством процесса, стоящего за ним. Команда экспериментировала с штрафами на основе формата, чтобы поощрять более строгие структурированные рассуждения, но признает, что, вероятно, необходимо более утонченное формирование вознаграждения.
Открытые инструменты и будущие направления
Ragen, наряду со своими Frameworks Starpo и Starpo-S, теперь доступен как проект с открытым исходным кодом на https://github.com/ragen-ai/ragen . Однако на момент написания статьи в репозитории GitHub не указана никакая явная лицензия, которая может ограничить его использование или перераспределение другими.
Система обеспечивает ценную основу для тех, кто заинтересован в разработке агентов ИИ, которые не только выполняют задачи, но и думают, планируют и развиваются. По мере того, как ИИ движется к большей автономии, такие проекты, как Раген, помогают осветить то, что нужно для обучения моделей, которые учатся на последствиях их собственных действий.
Выдающиеся вопросы для принятия предприятий в реальном мире
В то время как Gragen Paper предлагает подробную техническую дорожную карту, остается несколько практических вопросов для тех, кто хочет применить эти методы в настройках предприятия. Например, насколько передается подход Рагена за пределами стилизованных символических задач? Будет ли предприятиям разработать совершенно новые среды и функции поощрения для использования этой системы в рабочих процессах, таких как обработка счетов или поддержка клиентов?
Ван, в прямом сообщении, чтобы VentureBeat на X, предположил, что улучшение разнообразия задач может помочь, поскольку текущие игровые задачи имеют только сходные представления сетки, но не имеют семантической информации. Он также выразил оптимизм в отношении предприятий, разрабатывающих свои собственные учебные упражнения для агентов искусственного интеллекта, используя Ragen, отметив, что ссылка Github обеспечивает простое введение в добавление новых сред.
Другая критическая область - масштабируемость. Даже при усовершенствованиях, предоставленных Starpo-S, в газете признается, что обучение все еще в конечном итоге падает по более длинным горизонтам. Это поднимает вопрос: существует ли теоретический или практический путь к поддержанию рассуждений над открытыми или постоянно развивающимися последовательностями задач?
На момент написания статьи в репозитории или документации Ragen Github не указана никакой явной лицензии, оставляя открытые вопросы о правах на использование. Тем не менее, Раген выделяется не только как технический вклад, но и концептуальный шаг к более автономным, способным к рассуждениям агентов ИИ. Будет ли это частью стека AI Enterprise AI, еще предстоит увидеть, но его понимание динамики обучения агента уже помогает переопределить границу обучения LLM.
Связанная статья
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI
Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
Open Deep Search arrives to challenge Perplexity and ChatGPT Search
If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges
If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Комментарии (0)






Год агентов ИИ: более внимательный взгляд на ожидания и реалии 2025 года.
2025 год был объявлен многими экспертами как год, когда агенты искусственного интеллекта - специальные системы искусственного интеллекта, управляемые передовыми крупными языками и мультимодальными моделями, таких компаний, как Openai, Anpropic, Google и Deepseek, наконец -то зайдут в центр. Однако, согласно недавнему опросу VentureBeat о социальной сети X, большинство агентов искусственного интеллекта по -прежнему томится на экспериментальных этапах, оказавшись в каком -то корпоративном подвешенном состоянии.
Но на горизонте есть проблеск надежды. Совместные усилия исследователей в Северо -Западном университете, Microsoft, Stanford и Вашингтоне, в том числе Зихан Ван, бывший исследователь Deepseek, который сейчас занимается доктором наук в области компьютерных наук на северо -западе, представила Ragen. Эта новая система направлена на обучение и оценку агентов ИИ, чтобы сделать их более надежными и адаптируемыми для реального мира, предприятия.
Раген: новый подход к обучению агентов ИИ
В отличие от статических задач, таких как решение по математике или генерация кода, Раген фокусируется на динамических взаимодействиях с несколькими поворотами, в которых агенты должны адаптироваться, запоминать и разум, среди неопределенности. Система построена на индивидуальной структуре обучения подкреплению (RL), называемой Starpo (штат-то, что дает в порядок, оптимизация политики), которая подчеркивает обучение через опыт, а не на запоминание. Starpo рассматривает целые последовательности принятия решений, а не только одноэтапные ответы.
Starpo работает в двух этапах: этап развертывания, где LLM генерирует полные последовательности взаимодействия, руководствуясь рассуждением, и этап обновления, на которой модель оптимизируется с использованием нормализованных кумулятивных вознаграждений. Этот подход предлагает более стабильный и интерпретируемый петлю обучения по сравнению с традиционными методами оптимизации политики.
Исследователи протестировали эту структуру, используя тонкие версии моделей QWEN Alibaba, в частности QWEN 1.5 и QWEN 2.5, выбранные для их открытых весов и сильных возможностей для обучения. Этот выбор облегчил воспроизводимость и последовательные базовые сравнения между символическими задачами.
Echo Trap: задача в обучении подкрепления
Зихан Ван подчеркнул критическую проблему в обучении RL в широко распространенной x потоке: * Почему ваше обучение RL всегда разрушается? * Команда определила, что, хотя агенты LLM изначально производят хорошо разобразные ответы, системы RL часто вознаграждают ярлыки, что приводит к повторяющимся поведению, которые обезтите производительность-феноменон, который они называют «echo trap».
Эта регрессия подпитывается петлями обратной связи, где определенные фразы или стратегии зарабатывают высокие вознаграждения на ранних этапах, поощряя чрезмерное использование и удушающее исследование. Симптомы ясны: наградные скалы, градиентные шипы и исчезающие следы рассуждения.
Тестовые среды Рагена
Чтобы изучить это поведение в контролируемой обстановке, Раген оценивает агентов в трех символических средах:
- Бандит: стохастическая задача, которая проверяет символические рассуждения о рисках.
- Сокобан: многообразие, детерминированная головоломка, включающая необратимые решения.
- Замороженное озеро: стохастическое, многословное задание, требующее адаптивного планирования.
Каждая среда предназначена для минимизации настоящих априоров и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения. Например, в среде Бандита агенты должны символически рассуждать о драконе и руках Феникса, представляющих различные распределения вознаграждений, интерпретируя их как «силу» и «надежду» для прогнозирования результатов.
Стабилизирующее обучение подкреплению с помощью Starpo-S
Для борьбы с учетом коллапса исследователи представили Starpo-S, стабилизированную версию оригинальной структуры. Starpo-S включает в себя три ключевых вмешательства:
- На основе неопределенности фильтрация развертывания: приоритет развертывания, когда агент демонстрирует неопределенность результата.
- Удаление штрафа KL: позволяет модели более свободно отклоняться от своей первоначальной политики и изучать новое поведение.
- Асимметричная обрезка ППО: усиление высоких вознаграждений больше, чем низкодобывающие, для повышения обучения.
Эти изменения помогают задержать или устранить учебные разумы и улучшить производительность во всех трех задачах. Как сказал Ван, «Starpo-S… работает во всех 3 задачах. Облегчает обрушение. Лучше награда».
Что делает хорошую агентскую модель ИИ?
Успех обучения RL зависит не только от архитектуры, но и от качества данных, полученных агентами. Команда определила три важных аспекта, которые значительно влияют на обучение:
- Разнообразие задач: разоблачение модели на широкий диапазон начальных сценариев улучшает обобщение.
- Гранулярность взаимодействия: разрешение на несколько действий за ход позволяет более значимое планирование.
- Свежесть развертывания: поддержание учебных данных в соответствии с текущей модельной политикой избегает устаревших сигналов обучения.
Эти факторы способствуют более стабильному и эффективному учебному процессу. Интерактивный демонстрационный сайт на GitHub визуализирует развертывание агентов, когда поворачивается полный диалог, включая не только действия, но и пошаговый процесс мышления, который предшествует им. Например, при решении математической задачи агент может сначала «подумать» об изоляции переменной, прежде чем отправлять ответ, такой как «x = 5». Эти промежуточные мысли видны и прослеживаются, добавляя прозрачность к тому, как агенты принимают решения.
Когда рассуждает
В то время как явные рассуждения повышают производительность в простых задачах, таких как Bandit, он имеет тенденцию распадаться во время многообразования. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если не награждено. Это подчеркивает ограничение в том, как обычно разработаны награды: сосредоточение на выполнении задач может пренебречь качеством процесса, стоящего за ним. Команда экспериментировала с штрафами на основе формата, чтобы поощрять более строгие структурированные рассуждения, но признает, что, вероятно, необходимо более утонченное формирование вознаграждения.
Открытые инструменты и будущие направления
Ragen, наряду со своими Frameworks Starpo и Starpo-S, теперь доступен как проект с открытым исходным кодом на https://github.com/ragen-ai/ragen . Однако на момент написания статьи в репозитории GitHub не указана никакая явная лицензия, которая может ограничить его использование или перераспределение другими.
Система обеспечивает ценную основу для тех, кто заинтересован в разработке агентов ИИ, которые не только выполняют задачи, но и думают, планируют и развиваются. По мере того, как ИИ движется к большей автономии, такие проекты, как Раген, помогают осветить то, что нужно для обучения моделей, которые учатся на последствиях их собственных действий.
Выдающиеся вопросы для принятия предприятий в реальном мире
В то время как Gragen Paper предлагает подробную техническую дорожную карту, остается несколько практических вопросов для тех, кто хочет применить эти методы в настройках предприятия. Например, насколько передается подход Рагена за пределами стилизованных символических задач? Будет ли предприятиям разработать совершенно новые среды и функции поощрения для использования этой системы в рабочих процессах, таких как обработка счетов или поддержка клиентов?
Ван, в прямом сообщении, чтобы VentureBeat на X, предположил, что улучшение разнообразия задач может помочь, поскольку текущие игровые задачи имеют только сходные представления сетки, но не имеют семантической информации. Он также выразил оптимизм в отношении предприятий, разрабатывающих свои собственные учебные упражнения для агентов искусственного интеллекта, используя Ragen, отметив, что ссылка Github обеспечивает простое введение в добавление новых сред.
Другая критическая область - масштабируемость. Даже при усовершенствованиях, предоставленных Starpo-S, в газете признается, что обучение все еще в конечном итоге падает по более длинным горизонтам. Это поднимает вопрос: существует ли теоретический или практический путь к поддержанию рассуждений над открытыми или постоянно развивающимися последовательностями задач?
На момент написания статьи в репозитории или документации Ragen Github не указана никакой явной лицензии, оставляя открытые вопросы о правах на использование. Тем не менее, Раген выделяется не только как технический вклад, но и концептуальный шаг к более автономным, способным к рассуждениям агентов ИИ. Будет ли это частью стека AI Enterprise AI, еще предстоит увидеть, но его понимание динамики обучения агента уже помогает переопределить границу обучения LLM.











