前Deepseeker和合作者发布了新的培训可靠AI代理的方法:Ragen

人工智能代理之年:深入剖析2025年的期望与现实
许多专家预言2025年将是人工智能代理——由OpenAI、Anthropic、Google和DeepSeek等公司开发的高级大型语言和多模态模型驱动的专用AI系统——最终占据核心舞台的一年。然而,根据VentureBeat在社交网络X上进行的最新民意调查,大多数人工智能代理仍处于实验阶段,陷入一种企业困境。
但地平线上仍有一线希望。来自西北大学、微软、斯坦福大学和华盛顿大学的研究人员,包括曾在DeepSeek工作的研究员、现于西北大学攻读计算机科学博士的王子涵,合作推出了一种名为RAGEN的新系统。该系统旨在训练和评估人工智能代理,使其在现实世界和企业应用中更加可靠和适应性强。
RAGEN:训练人工智能代理的新方法
与数学求解或代码生成等静态任务不同,RAGEN专注于动态、多轮交互,代理需要在不确定性中适应、记忆和推理。该系统基于一种名为StarPO(状态-思考-行动-奖励策略优化)的定制强化学习(RL)框架,强调通过经验学习而非死记硬背。StarPO关注整个决策序列,而不仅仅是单步响应。
StarPO分为两个阶段:生成阶段,由大型语言模型在推理指导下生成完整的交互序列;更新阶段,使用归一化的累积奖励优化模型。这种方法相比传统的策略优化方法提供了更稳定和可解释的学习循环。
研究人员使用阿里巴巴的Qwen模型(具体为Qwen 1.5和Qwen 2.5)的微调版本测试了这一框架,这些模型因其开放权重和强大的指令遵循能力而被选中。这一选择便于在符号任务中进行可重复性和一致的基线比较。
回声陷阱:强化学习中的挑战
王子涵在一篇广为流传的X帖子中强调了强化学习训练中的一个关键问题:*为什么你的强化学习训练总是崩溃?* 团队发现,虽然大型语言模型代理最初能生成合理的响应,但强化学习系统往往奖励捷径,导致重复行为并降低性能——他们将这种现象称为“回声陷阱”。
这种退化由反馈循环驱动,某些短语或策略在早期获得高奖励,鼓励过度使用并抑制探索。其症状显而易见:奖励方差骤降、梯度激增和推理痕迹消失。
RAGEN的测试环境
为了在可控环境中研究这些行为,RAGEN在三种符号环境中评估代理:
- Bandit: 单轮、随机任务,测试符号化的风险-回报推理。
- Sokoban: 多轮、确定性谜题,涉及不可逆决策。
- Frozen Lake: 随机、多轮任务,需要适应性规划。
每个环境都旨在最小化现实世界的先验知识,仅关注训练期间发展的决策策略。例如,在Bandit环境中,代理必须通过符号化推理龙和凤凰臂代表不同的奖励分布,将其解读为“力量”和“希望”来预测结果。
使用StarPO-S稳定强化学习
为应对训练崩溃,研究人员推出了StarPO的稳定版本StarPO-S。StarPO-S包括三项关键干预措施:
- 基于不确定性的生成筛选: 优先选择代理显示结果不确定性的生成序列。
- 移除KL惩罚: 允许模型更自由地偏离其原始策略,探索新行为。
- 非对称PPO裁剪: 放大高奖励轨迹的权重,超过低奖励轨迹,以提升学习效果。
这些变化有助于延迟或消除训练崩溃,并提升所有三项任务的性能。正如王子涵所说:“StarPO-S……在所有三个任务中都有效。缓解崩溃。更高奖励。”
什么是优秀的代理型AI模型?
强化学习训练的成功不仅取决于架构,还取决于代理生成的数据质量。团队确定了三个显著影响训练的关键维度:
- 任务多样性: 让模型接触广泛的初始场景可提高泛化能力。
- 交互粒度: 每轮允许多个动作可实现更有意义的规划。
- 生成新鲜度: 保持训练数据与当前模型策略对齐,避免过时的学习信号。
这些因素有助于更稳定和有效的训练过程。Github上的一个交互式演示网站将代理生成序列可视化为完整的对话轮次,不仅包括动作,还包括之前的逐步思考过程。例如,在解决数学问题时,代理可能首先“思考”隔离变量,然后提交答案如“x = 5”。这些中间思考过程可见且可追溯,增加了代理决策的透明度。
当推理耗尽时
虽然显式推理在Bandit等简单单轮任务中能提升性能,但在多轮训练中往往会衰退。尽管使用了结构化提示和标记,推理痕迹通常会缩小或消失,除非直接给予奖励。这凸显了奖励设计的一个局限性:专注于任务完成可能忽视背后过程的质量。团队尝试了基于格式的惩罚以鼓励更好的结构化推理,但承认可能需要更精细的奖励塑造。
开放工具与未来方向
RAGEN及其StarPO和StarPO-S框架现已作为开源项目在https://github.com/RAGEN-AI/RAGEN上提供。然而,在撰写本文时,GitHub仓库中未列明明确的许可证,这可能限制其使用或分发。
该系统为那些希望开发不仅能完成任务,还能思考、规划和进化的AI代理提供了宝贵的基础。随着AI向更高自主性发展,像RAGEN这样的项目有助于阐明如何训练能够从自身行动后果中学习的模型。
企业现实应用的未解问题
尽管RAGEN论文提供了详细的技术路线图,但对于希望在企业环境中应用这些方法的实践者来说,仍有几个实际问题。例如,RAGEN的方法在风格化、符号化任务之外的 transferable 程度如何?企业是否需要为发票处理或客户支持等流程设计全新的环境和奖励函数以使用该系统?
王子涵在X上对VentureBeat的直接消息中表示,增加任务多样性可能有所帮助,因为当前的游戏任务只有相似的网格表示,缺乏语义信息。他还对企业使用RAGEN设计自己的AI代理训练练习表示乐观,指出GitHub链接提供了添加新环境的简单介绍。
另一个关键领域是可扩展性。即使有了StarPO-S的增强,论文承认在更长的时间范围内训练仍会崩溃。这提出了一个问题:是否存在理论或实际路径来维持开放式或持续演变任务序列的推理?
在撰写本文时,RAGEN的GitHub仓库或文档中未列明明确的许可证,留下了使用权方面的未解问题。尽管如此,RAGEN不仅作为技术贡献脱颖而出,还作为迈向更自主、具备推理能力的AI代理的概念性一步。能否成为企业AI堆栈的一部分仍有待观察,但其对代理学习动态的洞察已在重新定义大型语言模型训练的前沿。
相关文章
DeepSeek 推出可与前沿系统媲美的人工智能模型
中国人工智能实验室DeepSeek发布了其最新大型语言模型DeepSeek V4的两个预览版本。作为对去年V3.2模型及其配套的R1推理模型的备受期待的更新,该模型曾在人工智能界引起了巨大反响。该公司表示,DeepSeek V4 Flash和V4 Pro均为专家混合模型,各自拥有100万令牌的上下文窗口——足以处理提示词中的庞大代码库或文档。这种专家混合方法通过针对每项任务仅激活特定参数子集,从而
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
人工智能揭示新闻内容中的隐藏议程
ChatGPT类模型正被训练以揭示新闻报道背后的潜在立场——即便这种观点被引语、叙事框架或(有时虚伪的)中立表象所掩盖。通过将文章拆解为标题、导语和引语等段落,新型系统能识别长篇专业新闻报道中的偏见。 这种洞悉作者或发言者真实立场的技术(学术文献中称为立场检测),正攻克语言解读中最复杂的难题之一:从可能刻意设计来掩盖或模糊意图的内容中辨别真实意图。从乔纳森·斯威夫特的《一个谦卑的建议》到当代政治表
相关专题推荐
评论 (10)
0/500
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

人工智能代理之年:深入剖析2025年的期望与现实
许多专家预言2025年将是人工智能代理——由OpenAI、Anthropic、Google和DeepSeek等公司开发的高级大型语言和多模态模型驱动的专用AI系统——最终占据核心舞台的一年。然而,根据VentureBeat在社交网络X上进行的最新民意调查,大多数人工智能代理仍处于实验阶段,陷入一种企业困境。
但地平线上仍有一线希望。来自西北大学、微软、斯坦福大学和华盛顿大学的研究人员,包括曾在DeepSeek工作的研究员、现于西北大学攻读计算机科学博士的王子涵,合作推出了一种名为RAGEN的新系统。该系统旨在训练和评估人工智能代理,使其在现实世界和企业应用中更加可靠和适应性强。
RAGEN:训练人工智能代理的新方法
与数学求解或代码生成等静态任务不同,RAGEN专注于动态、多轮交互,代理需要在不确定性中适应、记忆和推理。该系统基于一种名为StarPO(状态-思考-行动-奖励策略优化)的定制强化学习(RL)框架,强调通过经验学习而非死记硬背。StarPO关注整个决策序列,而不仅仅是单步响应。
StarPO分为两个阶段:生成阶段,由大型语言模型在推理指导下生成完整的交互序列;更新阶段,使用归一化的累积奖励优化模型。这种方法相比传统的策略优化方法提供了更稳定和可解释的学习循环。
研究人员使用阿里巴巴的Qwen模型(具体为Qwen 1.5和Qwen 2.5)的微调版本测试了这一框架,这些模型因其开放权重和强大的指令遵循能力而被选中。这一选择便于在符号任务中进行可重复性和一致的基线比较。
回声陷阱:强化学习中的挑战
王子涵在一篇广为流传的X帖子中强调了强化学习训练中的一个关键问题:*为什么你的强化学习训练总是崩溃?* 团队发现,虽然大型语言模型代理最初能生成合理的响应,但强化学习系统往往奖励捷径,导致重复行为并降低性能——他们将这种现象称为“回声陷阱”。
这种退化由反馈循环驱动,某些短语或策略在早期获得高奖励,鼓励过度使用并抑制探索。其症状显而易见:奖励方差骤降、梯度激增和推理痕迹消失。
RAGEN的测试环境
为了在可控环境中研究这些行为,RAGEN在三种符号环境中评估代理:
- Bandit: 单轮、随机任务,测试符号化的风险-回报推理。
- Sokoban: 多轮、确定性谜题,涉及不可逆决策。
- Frozen Lake: 随机、多轮任务,需要适应性规划。
每个环境都旨在最小化现实世界的先验知识,仅关注训练期间发展的决策策略。例如,在Bandit环境中,代理必须通过符号化推理龙和凤凰臂代表不同的奖励分布,将其解读为“力量”和“希望”来预测结果。
使用StarPO-S稳定强化学习
为应对训练崩溃,研究人员推出了StarPO的稳定版本StarPO-S。StarPO-S包括三项关键干预措施:
- 基于不确定性的生成筛选: 优先选择代理显示结果不确定性的生成序列。
- 移除KL惩罚: 允许模型更自由地偏离其原始策略,探索新行为。
- 非对称PPO裁剪: 放大高奖励轨迹的权重,超过低奖励轨迹,以提升学习效果。
这些变化有助于延迟或消除训练崩溃,并提升所有三项任务的性能。正如王子涵所说:“StarPO-S……在所有三个任务中都有效。缓解崩溃。更高奖励。”
什么是优秀的代理型AI模型?
强化学习训练的成功不仅取决于架构,还取决于代理生成的数据质量。团队确定了三个显著影响训练的关键维度:
- 任务多样性: 让模型接触广泛的初始场景可提高泛化能力。
- 交互粒度: 每轮允许多个动作可实现更有意义的规划。
- 生成新鲜度: 保持训练数据与当前模型策略对齐,避免过时的学习信号。
这些因素有助于更稳定和有效的训练过程。Github上的一个交互式演示网站将代理生成序列可视化为完整的对话轮次,不仅包括动作,还包括之前的逐步思考过程。例如,在解决数学问题时,代理可能首先“思考”隔离变量,然后提交答案如“x = 5”。这些中间思考过程可见且可追溯,增加了代理决策的透明度。
当推理耗尽时
虽然显式推理在Bandit等简单单轮任务中能提升性能,但在多轮训练中往往会衰退。尽管使用了结构化提示和标记,推理痕迹通常会缩小或消失,除非直接给予奖励。这凸显了奖励设计的一个局限性:专注于任务完成可能忽视背后过程的质量。团队尝试了基于格式的惩罚以鼓励更好的结构化推理,但承认可能需要更精细的奖励塑造。
开放工具与未来方向
RAGEN及其StarPO和StarPO-S框架现已作为开源项目在https://github.com/RAGEN-AI/RAGEN上提供。然而,在撰写本文时,GitHub仓库中未列明明确的许可证,这可能限制其使用或分发。
该系统为那些希望开发不仅能完成任务,还能思考、规划和进化的AI代理提供了宝贵的基础。随着AI向更高自主性发展,像RAGEN这样的项目有助于阐明如何训练能够从自身行动后果中学习的模型。
企业现实应用的未解问题
尽管RAGEN论文提供了详细的技术路线图,但对于希望在企业环境中应用这些方法的实践者来说,仍有几个实际问题。例如,RAGEN的方法在风格化、符号化任务之外的 transferable 程度如何?企业是否需要为发票处理或客户支持等流程设计全新的环境和奖励函数以使用该系统?
王子涵在X上对VentureBeat的直接消息中表示,增加任务多样性可能有所帮助,因为当前的游戏任务只有相似的网格表示,缺乏语义信息。他还对企业使用RAGEN设计自己的AI代理训练练习表示乐观,指出GitHub链接提供了添加新环境的简单介绍。
另一个关键领域是可扩展性。即使有了StarPO-S的增强,论文承认在更长的时间范围内训练仍会崩溃。这提出了一个问题:是否存在理论或实际路径来维持开放式或持续演变任务序列的推理?
在撰写本文时,RAGEN的GitHub仓库或文档中未列明明确的许可证,留下了使用权方面的未解问题。尽管如此,RAGEN不仅作为技术贡献脱颖而出,还作为迈向更自主、具备推理能力的AI代理的概念性一步。能否成为企业AI堆栈的一部分仍有待观察,但其对代理学习动态的洞察已在重新定义大型语言模型训练的前沿。
DeepSeek 推出可与前沿系统媲美的人工智能模型
中国人工智能实验室DeepSeek发布了其最新大型语言模型DeepSeek V4的两个预览版本。作为对去年V3.2模型及其配套的R1推理模型的备受期待的更新,该模型曾在人工智能界引起了巨大反响。该公司表示,DeepSeek V4 Flash和V4 Pro均为专家混合模型,各自拥有100万令牌的上下文窗口——足以处理提示词中的庞大代码库或文档。这种专家混合方法通过针对每项任务仅激活特定参数子集,从而
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
人工智能揭示新闻内容中的隐藏议程
ChatGPT类模型正被训练以揭示新闻报道背后的潜在立场——即便这种观点被引语、叙事框架或(有时虚伪的)中立表象所掩盖。通过将文章拆解为标题、导语和引语等段落,新型系统能识别长篇专业新闻报道中的偏见。 这种洞悉作者或发言者真实立场的技术(学术文献中称为立场检测),正攻克语言解读中最复杂的难题之一:从可能刻意设计来掩盖或模糊意图的内容中辨别真实意图。从乔纳森·斯威夫特的《一个谦卑的建议》到当代政治表
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔





首页






