前Deepseeker和合作者发布了新的培训可靠AI代理的方法:Ragen
2025年05月04日
DavidMartínez
0

AI代理年:仔细研究2025年的期望和现实
2025年被许多专家宣布为AI代理商(由OpenAI,Anthropic,Google和DeepSeek等公司提供支持的AI代理商(由高级大语和多模型)提供支持的一年。但是,根据最近对社交网络X的VentureBeat民意调查,大多数AI代理商仍在实验阶段中陷入困境,陷入了一种公司的困境。
但是,地平线有一线希望。西北大学,微软,斯坦福大学和华盛顿大学的研究人员的合作努力,包括Zihan Wang,他是前DeepSeek研究员Zihan Wang,目前攻读西北地区的计算机科学博士学位,引入了Ragen。这个新系统旨在培训和评估AI代理,以使其对现实世界中的企业使用更可靠和适应。
拉根:一种新的培训AI代理商的方法
与诸如数学求解或代码生成之类的静态任务不同,Ragen专注于动态的多转交互作用,其中代理需要在不确定性中适应,记住和原因。该系统建立在称为Starpo(状态思维 - 奖励政策优化)的自定义加固学习(RL)框架上,该框架强调通过经验而不是死记硬背的记忆来学习。 Starpo着眼于整个决策序列,而不仅仅是单步响应。
StarPo分为两个阶段:LLM生成以推理为指导的完整交互序列的推出阶段,以及使用归一化累积奖励优化模型的更新阶段。与传统的政策优化方法相比,这种方法提供了更稳定,更容易解释的学习循环。
研究人员使用阿里巴巴QWEN模型的微调版本,特别是QWEN 1.5和QWEN 2.5测试了该框架,该框架是为了开放的重量和强大的指导性功能而选择的。这种选择促进了符号任务之间的可重复性和一致的基线比较。
回声陷阱:增强学习的挑战
Zihan Wang在一个广泛共享的X线程中强调了RL培训中的一个关键问题: *为什么您的RL培训总是崩溃?
反馈循环为某些短语或策略提早获得了很高的回报,从而鼓励过度使用和扼杀探索,从而推动了这种回归。症状很明显:奖励差异悬崖,梯度尖峰和消失的推理痕迹。
拉根的测试环境
为了在受控的环境中研究这些行为,拉根评估了三个符号环境的代理:
- 强盗:一项单转,随机任务,测试符号风险奖励推理。
- Sokoban:一个涉及不可逆转决策的多转弯,确定性的难题。
- 冷冻湖:一项需要自适应计划的随机,多转弯任务。
每个环境旨在最大程度地减少现实世界的先验,并仅专注于培训期间制定的决策策略。例如,在强盗环境中,代理必须象征性地推理代表不同奖励分布的龙和凤凰臂,将它们解释为“力量”和“希望”,以预测结果。
使用Starpo-S稳定增强学习
为了打击训练崩溃,研究人员介绍了STARPO-S,这是原始框架的稳定版本。 Starpo-S包括三个关键干预措施:
- 基于不确定性的推出过滤:优先级推广,其中代理显示结果不确定性。
- KL罚款:允许该模型更自由地偏离其原始政策并探索新行为。
- 不对称的PPO剪辑:扩大高回报轨迹比低回报的轨迹增加了学习。
这些更改有助于延迟或消除培训崩溃并提高所有三个任务的性能。正如Wang所说,“ Starpo-S…在所有3个任务中都可以解决。缓解崩溃。更好的回报。”
是什么使良好的代理AI模型?
RL培训的成功不仅取决于体系结构,还取决于代理商生成的数据的质量。该团队确定了三个重要影响培训的重要方面:
- 任务多样性:将模型暴露在广泛的初始场景中可以改善概括。
- 互动粒度:允许每回合进行多次操作实现更有意义的计划。
- 推出新鲜度:保持与当前模型策略一致的培训数据避免过时的学习信号。
这些因素有助于更稳定,更有效的培训过程。 GitHub上的一个交互式演示站点可视化代理在完整的对话转弯时的推出,不仅包括动作,还包括在它们之前的逐步思考过程。例如,在解决数学问题时,代理商可能首先“思考”要在提交诸如'x = 5'之类的答案之前隔离变量。这些中间思想是可见和可追溯的,从而增加了代理如何做出决策的透明度。
当推理用完时
虽然明确的推理可以提高简单,单转的任务(例如强盗)的性能,但在多转弯训练期间它往往会衰减。尽管使用结构化提示和令牌,但除非直接奖励,否则推理痕迹通常会收缩或消失。这突出了奖励通常设计的限制:专注于任务完成可能会忽略其背后的过程质量。该团队进行了基于格式的惩罚,以鼓励更好的结构化推理,但承认可能需要更精致的奖励成型。
开放工具和未来的方向
Ragen及其Starpo和Starpo-S框架现在可以在https://github.com/ragen-ai/ragen上作为开源项目。但是,在撰写本文时,GitHub存储库中没有列出明确的许可证,这可能会限制其其他人的使用或重新分配。
该系统为那些有兴趣开发AI代理的人提供了宝贵的基础,这些AI代理不仅完成任务,而且考虑,计划和发展。随着AI朝着更大的自主权发展,像Ragen这样的项目帮助阐明了训练模型所需的内容,这些模型从自己的行动的后果中学习。
现实企业采用的杰出问题
尽管Ragen Paper提供了详细的技术路线图,但对于希望在企业设置中应用这些方法的人仍然存在一些实际问题。例如,拉根(Ragen)的方法超出了风格化的象征性任务如何转移?企业是否需要设计全新的环境和奖励功能才能在发票处理或客户支持等工作流程中使用此系统?
王在X上的VentureBeat的直接信息中建议,改善任务多样性可以有所帮助,因为当前的游戏任务只有类似的网格表示,但缺乏语义信息。他还对使用Ragen为AI代理设计自己的培训练习的企业表示乐观,并指出GitHub链接为添加新环境提供了简单的介绍。
另一个关键领域是可伸缩性。即使使用Starpo-S提供的增强功能,该论文也承认培训最终仍会倒在更长的视野上。这就提出了一个问题:是否有理论或实用的途径来维持对开放式或不断发展的任务序列的推理?
在撰写本文时,Ragen Github存储库或文档中没有列出任何明确的许可证,而留下了有关使用权的公开问题。尽管如此,拉根(Ragen)不仅是技术贡献,而且是迈向更自主,能够推理的AI代理商的概念步骤。它是否成为企业AI堆栈的一部分还有待观察,但其对代理学习动态的见解已经在帮助重新定义LLM培训的前沿。
相关文章
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI
Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
Open Deep Search arrives to challenge Perplexity and ChatGPT Search
If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges
If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
评论 (0)
0/200






AI代理年:仔细研究2025年的期望和现实
2025年被许多专家宣布为AI代理商(由OpenAI,Anthropic,Google和DeepSeek等公司提供支持的AI代理商(由高级大语和多模型)提供支持的一年。但是,根据最近对社交网络X的VentureBeat民意调查,大多数AI代理商仍在实验阶段中陷入困境,陷入了一种公司的困境。
但是,地平线有一线希望。西北大学,微软,斯坦福大学和华盛顿大学的研究人员的合作努力,包括Zihan Wang,他是前DeepSeek研究员Zihan Wang,目前攻读西北地区的计算机科学博士学位,引入了Ragen。这个新系统旨在培训和评估AI代理,以使其对现实世界中的企业使用更可靠和适应。
拉根:一种新的培训AI代理商的方法
与诸如数学求解或代码生成之类的静态任务不同,Ragen专注于动态的多转交互作用,其中代理需要在不确定性中适应,记住和原因。该系统建立在称为Starpo(状态思维 - 奖励政策优化)的自定义加固学习(RL)框架上,该框架强调通过经验而不是死记硬背的记忆来学习。 Starpo着眼于整个决策序列,而不仅仅是单步响应。
StarPo分为两个阶段:LLM生成以推理为指导的完整交互序列的推出阶段,以及使用归一化累积奖励优化模型的更新阶段。与传统的政策优化方法相比,这种方法提供了更稳定,更容易解释的学习循环。
研究人员使用阿里巴巴QWEN模型的微调版本,特别是QWEN 1.5和QWEN 2.5测试了该框架,该框架是为了开放的重量和强大的指导性功能而选择的。这种选择促进了符号任务之间的可重复性和一致的基线比较。
回声陷阱:增强学习的挑战
Zihan Wang在一个广泛共享的X线程中强调了RL培训中的一个关键问题: *为什么您的RL培训总是崩溃?
反馈循环为某些短语或策略提早获得了很高的回报,从而鼓励过度使用和扼杀探索,从而推动了这种回归。症状很明显:奖励差异悬崖,梯度尖峰和消失的推理痕迹。
拉根的测试环境
为了在受控的环境中研究这些行为,拉根评估了三个符号环境的代理:
- 强盗:一项单转,随机任务,测试符号风险奖励推理。
- Sokoban:一个涉及不可逆转决策的多转弯,确定性的难题。
- 冷冻湖:一项需要自适应计划的随机,多转弯任务。
每个环境旨在最大程度地减少现实世界的先验,并仅专注于培训期间制定的决策策略。例如,在强盗环境中,代理必须象征性地推理代表不同奖励分布的龙和凤凰臂,将它们解释为“力量”和“希望”,以预测结果。
使用Starpo-S稳定增强学习
为了打击训练崩溃,研究人员介绍了STARPO-S,这是原始框架的稳定版本。 Starpo-S包括三个关键干预措施:
- 基于不确定性的推出过滤:优先级推广,其中代理显示结果不确定性。
- KL罚款:允许该模型更自由地偏离其原始政策并探索新行为。
- 不对称的PPO剪辑:扩大高回报轨迹比低回报的轨迹增加了学习。
这些更改有助于延迟或消除培训崩溃并提高所有三个任务的性能。正如Wang所说,“ Starpo-S…在所有3个任务中都可以解决。缓解崩溃。更好的回报。”
是什么使良好的代理AI模型?
RL培训的成功不仅取决于体系结构,还取决于代理商生成的数据的质量。该团队确定了三个重要影响培训的重要方面:
- 任务多样性:将模型暴露在广泛的初始场景中可以改善概括。
- 互动粒度:允许每回合进行多次操作实现更有意义的计划。
- 推出新鲜度:保持与当前模型策略一致的培训数据避免过时的学习信号。
这些因素有助于更稳定,更有效的培训过程。 GitHub上的一个交互式演示站点可视化代理在完整的对话转弯时的推出,不仅包括动作,还包括在它们之前的逐步思考过程。例如,在解决数学问题时,代理商可能首先“思考”要在提交诸如'x = 5'之类的答案之前隔离变量。这些中间思想是可见和可追溯的,从而增加了代理如何做出决策的透明度。
当推理用完时
虽然明确的推理可以提高简单,单转的任务(例如强盗)的性能,但在多转弯训练期间它往往会衰减。尽管使用结构化提示和令牌,但除非直接奖励,否则推理痕迹通常会收缩或消失。这突出了奖励通常设计的限制:专注于任务完成可能会忽略其背后的过程质量。该团队进行了基于格式的惩罚,以鼓励更好的结构化推理,但承认可能需要更精致的奖励成型。
开放工具和未来的方向
Ragen及其Starpo和Starpo-S框架现在可以在https://github.com/ragen-ai/ragen上作为开源项目。但是,在撰写本文时,GitHub存储库中没有列出明确的许可证,这可能会限制其其他人的使用或重新分配。
该系统为那些有兴趣开发AI代理的人提供了宝贵的基础,这些AI代理不仅完成任务,而且考虑,计划和发展。随着AI朝着更大的自主权发展,像Ragen这样的项目帮助阐明了训练模型所需的内容,这些模型从自己的行动的后果中学习。
现实企业采用的杰出问题
尽管Ragen Paper提供了详细的技术路线图,但对于希望在企业设置中应用这些方法的人仍然存在一些实际问题。例如,拉根(Ragen)的方法超出了风格化的象征性任务如何转移?企业是否需要设计全新的环境和奖励功能才能在发票处理或客户支持等工作流程中使用此系统?
王在X上的VentureBeat的直接信息中建议,改善任务多样性可以有所帮助,因为当前的游戏任务只有类似的网格表示,但缺乏语义信息。他还对使用Ragen为AI代理设计自己的培训练习的企业表示乐观,并指出GitHub链接为添加新环境提供了简单的介绍。
另一个关键领域是可伸缩性。即使使用Starpo-S提供的增强功能,该论文也承认培训最终仍会倒在更长的视野上。这就提出了一个问题:是否有理论或实用的途径来维持对开放式或不断发展的任务序列的推理?
在撰写本文时,Ragen Github存储库或文档中没有列出任何明确的许可证,而留下了有关使用权的公开问题。尽管如此,拉根(Ragen)不仅是技术贡献,而且是迈向更自主,能够推理的AI代理商的概念步骤。它是否成为企业AI堆栈的一部分还有待观察,但其对代理学习动态的见解已经在帮助重新定义LLM培训的前沿。











