前Deepseeker和合作者发布了新的培训可靠AI代理的方法:Ragen

人工智能代理之年:深入剖析2025年的期望与现实
许多专家预言2025年将是人工智能代理——由OpenAI、Anthropic、Google和DeepSeek等公司开发的高级大型语言和多模态模型驱动的专用AI系统——最终占据核心舞台的一年。然而,根据VentureBeat在社交网络X上进行的最新民意调查,大多数人工智能代理仍处于实验阶段,陷入一种企业困境。
但地平线上仍有一线希望。来自西北大学、微软、斯坦福大学和华盛顿大学的研究人员,包括曾在DeepSeek工作的研究员、现于西北大学攻读计算机科学博士的王子涵,合作推出了一种名为RAGEN的新系统。该系统旨在训练和评估人工智能代理,使其在现实世界和企业应用中更加可靠和适应性强。
RAGEN:训练人工智能代理的新方法
与数学求解或代码生成等静态任务不同,RAGEN专注于动态、多轮交互,代理需要在不确定性中适应、记忆和推理。该系统基于一种名为StarPO(状态-思考-行动-奖励策略优化)的定制强化学习(RL)框架,强调通过经验学习而非死记硬背。StarPO关注整个决策序列,而不仅仅是单步响应。
StarPO分为两个阶段:生成阶段,由大型语言模型在推理指导下生成完整的交互序列;更新阶段,使用归一化的累积奖励优化模型。这种方法相比传统的策略优化方法提供了更稳定和可解释的学习循环。
研究人员使用阿里巴巴的Qwen模型(具体为Qwen 1.5和Qwen 2.5)的微调版本测试了这一框架,这些模型因其开放权重和强大的指令遵循能力而被选中。这一选择便于在符号任务中进行可重复性和一致的基线比较。
回声陷阱:强化学习中的挑战
王子涵在一篇广为流传的X帖子中强调了强化学习训练中的一个关键问题:*为什么你的强化学习训练总是崩溃?* 团队发现,虽然大型语言模型代理最初能生成合理的响应,但强化学习系统往往奖励捷径,导致重复行为并降低性能——他们将这种现象称为“回声陷阱”。
这种退化由反馈循环驱动,某些短语或策略在早期获得高奖励,鼓励过度使用并抑制探索。其症状显而易见:奖励方差骤降、梯度激增和推理痕迹消失。
RAGEN的测试环境
为了在可控环境中研究这些行为,RAGEN在三种符号环境中评估代理:
- Bandit: 单轮、随机任务,测试符号化的风险-回报推理。
- Sokoban: 多轮、确定性谜题,涉及不可逆决策。
- Frozen Lake: 随机、多轮任务,需要适应性规划。
每个环境都旨在最小化现实世界的先验知识,仅关注训练期间发展的决策策略。例如,在Bandit环境中,代理必须通过符号化推理龙和凤凰臂代表不同的奖励分布,将其解读为“力量”和“希望”来预测结果。
使用StarPO-S稳定强化学习
为应对训练崩溃,研究人员推出了StarPO的稳定版本StarPO-S。StarPO-S包括三项关键干预措施:
- 基于不确定性的生成筛选: 优先选择代理显示结果不确定性的生成序列。
- 移除KL惩罚: 允许模型更自由地偏离其原始策略,探索新行为。
- 非对称PPO裁剪: 放大高奖励轨迹的权重,超过低奖励轨迹,以提升学习效果。
这些变化有助于延迟或消除训练崩溃,并提升所有三项任务的性能。正如王子涵所说:“StarPO-S……在所有三个任务中都有效。缓解崩溃。更高奖励。”
什么是优秀的代理型AI模型?
强化学习训练的成功不仅取决于架构,还取决于代理生成的数据质量。团队确定了三个显著影响训练的关键维度:
- 任务多样性: 让模型接触广泛的初始场景可提高泛化能力。
- 交互粒度: 每轮允许多个动作可实现更有意义的规划。
- 生成新鲜度: 保持训练数据与当前模型策略对齐,避免过时的学习信号。
这些因素有助于更稳定和有效的训练过程。Github上的一个交互式演示网站将代理生成序列可视化为完整的对话轮次,不仅包括动作,还包括之前的逐步思考过程。例如,在解决数学问题时,代理可能首先“思考”隔离变量,然后提交答案如“x = 5”。这些中间思考过程可见且可追溯,增加了代理决策的透明度。
当推理耗尽时
虽然显式推理在Bandit等简单单轮任务中能提升性能,但在多轮训练中往往会衰退。尽管使用了结构化提示和标记,推理痕迹通常会缩小或消失,除非直接给予奖励。这凸显了奖励设计的一个局限性:专注于任务完成可能忽视背后过程的质量。团队尝试了基于格式的惩罚以鼓励更好的结构化推理,但承认可能需要更精细的奖励塑造。
开放工具与未来方向
RAGEN及其StarPO和StarPO-S框架现已作为开源项目在https://github.com/RAGEN-AI/RAGEN上提供。然而,在撰写本文时,GitHub仓库中未列明明确的许可证,这可能限制其使用或分发。
该系统为那些希望开发不仅能完成任务,还能思考、规划和进化的AI代理提供了宝贵的基础。随着AI向更高自主性发展,像RAGEN这样的项目有助于阐明如何训练能够从自身行动后果中学习的模型。
企业现实应用的未解问题
尽管RAGEN论文提供了详细的技术路线图,但对于希望在企业环境中应用这些方法的实践者来说,仍有几个实际问题。例如,RAGEN的方法在风格化、符号化任务之外的 transferable 程度如何?企业是否需要为发票处理或客户支持等流程设计全新的环境和奖励函数以使用该系统?
王子涵在X上对VentureBeat的直接消息中表示,增加任务多样性可能有所帮助,因为当前的游戏任务只有相似的网格表示,缺乏语义信息。他还对企业使用RAGEN设计自己的AI代理训练练习表示乐观,指出GitHub链接提供了添加新环境的简单介绍。
另一个关键领域是可扩展性。即使有了StarPO-S的增强,论文承认在更长的时间范围内训练仍会崩溃。这提出了一个问题:是否存在理论或实际路径来维持开放式或持续演变任务序列的推理?
在撰写本文时,RAGEN的GitHub仓库或文档中未列明明确的许可证,留下了使用权方面的未解问题。尽管如此,RAGEN不仅作为技术贡献脱颖而出,还作为迈向更自主、具备推理能力的AI代理的概念性一步。能否成为企业AI堆栈的一部分仍有待观察,但其对代理学习动态的洞察已在重新定义大型语言模型训练的前沿。
相关文章
顶级人工智能实验室警告人类正在失去理解人工智能系统的能力
来自 OpenAI、谷歌 DeepMind、Anthropic 和 Meta 的研究人员前所未有地团结起来,搁置竞争分歧,就负责任的人工智能发展发出集体警告。来自这些通常相互竞争的组织的 40 多名顶尖科学家共同撰写了一篇开创性的研究论文,强调确保人工智能决策过程透明度的窗口正在迅速关闭。这次合作的重点是现代人工智能系统的一个关键发展--它们在生成最终输出之前,能够以人类可读的语言阐明推理过程的新
人类学的人工智能升级:克劳德现在能即时搜索整个谷歌工作区
Anthropic 今天的重大升级将 Claude 从人工智能助手转变为该公司所称的 "真正的虚拟协作者",引入了开创性的自主研究功能和无缝谷歌工作空间集成。这些进步使 Claude 在日益拥挤的企业人工智能生产力领域成为 OpenAI 和微软的有力竞争者。新的研究力量自主多搜索功能Claude 的增强型研究功能代表了人工智能辅助调查领域的一次飞跃--在智能确定后续研究方向的同时,还能进行连续搜索
阿里巴巴的 "零搜索 "人工智能通过自主学习将培训成本降低 88
阿里巴巴的 ZeroSearch:改变人工智能训练效率的游戏规则阿里巴巴集团的研究人员开创了一种突破性的方法,有可能彻底改变人工智能系统学习信息检索的方式,完全绕过成本高昂的商业搜索引擎 API。他们的 "零搜索"(ZeroSearch)技术能让大型语言模型在训练阶段通过模拟环境培养复杂的搜索能力,而非传统的搜索引擎交互。"研究人员在他们最新发表的 arXiv 论文中解释说:"传统的强化学习需要大
评论 (7)
0/200
ScottEvans
2025-08-13 19:00:59
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
0
JimmyRamirez
2025-07-23 12:59:29
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
2025-05-06 15:48:04
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
2025-05-06 06:45:54
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
2025-05-05 11:45:04
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
2025-05-05 04:00:48
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
人工智能代理之年:深入剖析2025年的期望与现实
许多专家预言2025年将是人工智能代理——由OpenAI、Anthropic、Google和DeepSeek等公司开发的高级大型语言和多模态模型驱动的专用AI系统——最终占据核心舞台的一年。然而,根据VentureBeat在社交网络X上进行的最新民意调查,大多数人工智能代理仍处于实验阶段,陷入一种企业困境。
但地平线上仍有一线希望。来自西北大学、微软、斯坦福大学和华盛顿大学的研究人员,包括曾在DeepSeek工作的研究员、现于西北大学攻读计算机科学博士的王子涵,合作推出了一种名为RAGEN的新系统。该系统旨在训练和评估人工智能代理,使其在现实世界和企业应用中更加可靠和适应性强。
RAGEN:训练人工智能代理的新方法
与数学求解或代码生成等静态任务不同,RAGEN专注于动态、多轮交互,代理需要在不确定性中适应、记忆和推理。该系统基于一种名为StarPO(状态-思考-行动-奖励策略优化)的定制强化学习(RL)框架,强调通过经验学习而非死记硬背。StarPO关注整个决策序列,而不仅仅是单步响应。
StarPO分为两个阶段:生成阶段,由大型语言模型在推理指导下生成完整的交互序列;更新阶段,使用归一化的累积奖励优化模型。这种方法相比传统的策略优化方法提供了更稳定和可解释的学习循环。
研究人员使用阿里巴巴的Qwen模型(具体为Qwen 1.5和Qwen 2.5)的微调版本测试了这一框架,这些模型因其开放权重和强大的指令遵循能力而被选中。这一选择便于在符号任务中进行可重复性和一致的基线比较。
回声陷阱:强化学习中的挑战
王子涵在一篇广为流传的X帖子中强调了强化学习训练中的一个关键问题:*为什么你的强化学习训练总是崩溃?* 团队发现,虽然大型语言模型代理最初能生成合理的响应,但强化学习系统往往奖励捷径,导致重复行为并降低性能——他们将这种现象称为“回声陷阱”。
这种退化由反馈循环驱动,某些短语或策略在早期获得高奖励,鼓励过度使用并抑制探索。其症状显而易见:奖励方差骤降、梯度激增和推理痕迹消失。
RAGEN的测试环境
为了在可控环境中研究这些行为,RAGEN在三种符号环境中评估代理:
- Bandit: 单轮、随机任务,测试符号化的风险-回报推理。
- Sokoban: 多轮、确定性谜题,涉及不可逆决策。
- Frozen Lake: 随机、多轮任务,需要适应性规划。
每个环境都旨在最小化现实世界的先验知识,仅关注训练期间发展的决策策略。例如,在Bandit环境中,代理必须通过符号化推理龙和凤凰臂代表不同的奖励分布,将其解读为“力量”和“希望”来预测结果。
使用StarPO-S稳定强化学习
为应对训练崩溃,研究人员推出了StarPO的稳定版本StarPO-S。StarPO-S包括三项关键干预措施:
- 基于不确定性的生成筛选: 优先选择代理显示结果不确定性的生成序列。
- 移除KL惩罚: 允许模型更自由地偏离其原始策略,探索新行为。
- 非对称PPO裁剪: 放大高奖励轨迹的权重,超过低奖励轨迹,以提升学习效果。
这些变化有助于延迟或消除训练崩溃,并提升所有三项任务的性能。正如王子涵所说:“StarPO-S……在所有三个任务中都有效。缓解崩溃。更高奖励。”
什么是优秀的代理型AI模型?
强化学习训练的成功不仅取决于架构,还取决于代理生成的数据质量。团队确定了三个显著影响训练的关键维度:
- 任务多样性: 让模型接触广泛的初始场景可提高泛化能力。
- 交互粒度: 每轮允许多个动作可实现更有意义的规划。
- 生成新鲜度: 保持训练数据与当前模型策略对齐,避免过时的学习信号。
这些因素有助于更稳定和有效的训练过程。Github上的一个交互式演示网站将代理生成序列可视化为完整的对话轮次,不仅包括动作,还包括之前的逐步思考过程。例如,在解决数学问题时,代理可能首先“思考”隔离变量,然后提交答案如“x = 5”。这些中间思考过程可见且可追溯,增加了代理决策的透明度。
当推理耗尽时
虽然显式推理在Bandit等简单单轮任务中能提升性能,但在多轮训练中往往会衰退。尽管使用了结构化提示和标记,推理痕迹通常会缩小或消失,除非直接给予奖励。这凸显了奖励设计的一个局限性:专注于任务完成可能忽视背后过程的质量。团队尝试了基于格式的惩罚以鼓励更好的结构化推理,但承认可能需要更精细的奖励塑造。
开放工具与未来方向
RAGEN及其StarPO和StarPO-S框架现已作为开源项目在https://github.com/RAGEN-AI/RAGEN上提供。然而,在撰写本文时,GitHub仓库中未列明明确的许可证,这可能限制其使用或分发。
该系统为那些希望开发不仅能完成任务,还能思考、规划和进化的AI代理提供了宝贵的基础。随着AI向更高自主性发展,像RAGEN这样的项目有助于阐明如何训练能够从自身行动后果中学习的模型。
企业现实应用的未解问题
尽管RAGEN论文提供了详细的技术路线图,但对于希望在企业环境中应用这些方法的实践者来说,仍有几个实际问题。例如,RAGEN的方法在风格化、符号化任务之外的 transferable 程度如何?企业是否需要为发票处理或客户支持等流程设计全新的环境和奖励函数以使用该系统?
王子涵在X上对VentureBeat的直接消息中表示,增加任务多样性可能有所帮助,因为当前的游戏任务只有相似的网格表示,缺乏语义信息。他还对企业使用RAGEN设计自己的AI代理训练练习表示乐观,指出GitHub链接提供了添加新环境的简单介绍。
另一个关键领域是可扩展性。即使有了StarPO-S的增强,论文承认在更长的时间范围内训练仍会崩溃。这提出了一个问题:是否存在理论或实际路径来维持开放式或持续演变任务序列的推理?
在撰写本文时,RAGEN的GitHub仓库或文档中未列明明确的许可证,留下了使用权方面的未解问题。尽管如此,RAGEN不仅作为技术贡献脱颖而出,还作为迈向更自主、具备推理能力的AI代理的概念性一步。能否成为企业AI堆栈的一部分仍有待观察,但其对代理学习动态的洞察已在重新定义大型语言模型训练的前沿。




RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀












