前Deepseeker和合作者发布了新的培训可靠AI代理的方法:Ragen

AI代理年:仔细研究2025年的期望和现实
2025年被许多专家宣布为AI代理商(由OpenAI,Anthropic,Google和DeepSeek等公司提供支持的AI代理商(由高级大语和多模型)提供支持的一年。但是,根据最近对社交网络X的VentureBeat民意调查,大多数AI代理商仍在实验阶段中陷入困境,陷入了一种公司的困境。
但是,地平线有一线希望。西北大学,微软,斯坦福大学和华盛顿大学的研究人员的合作努力,包括Zihan Wang,他是前DeepSeek研究员Zihan Wang,目前攻读西北地区的计算机科学博士学位,引入了Ragen。这个新系统旨在培训和评估AI代理,以使其对现实世界中的企业使用更可靠和适应。
拉根:一种新的培训AI代理商的方法
与诸如数学求解或代码生成之类的静态任务不同,Ragen专注于动态的多转交互作用,其中代理需要在不确定性中适应,记住和原因。该系统建立在称为Starpo(状态思维 - 奖励政策优化)的自定义加固学习(RL)框架上,该框架强调通过经验而不是死记硬背的记忆来学习。 Starpo着眼于整个决策序列,而不仅仅是单步响应。
StarPo分为两个阶段:LLM生成以推理为指导的完整交互序列的推出阶段,以及使用归一化累积奖励优化模型的更新阶段。与传统的政策优化方法相比,这种方法提供了更稳定,更容易解释的学习循环。
研究人员使用阿里巴巴QWEN模型的微调版本,特别是QWEN 1.5和QWEN 2.5测试了该框架,该框架是为了开放的重量和强大的指导性功能而选择的。这种选择促进了符号任务之间的可重复性和一致的基线比较。
回声陷阱:增强学习的挑战
Zihan Wang在一个广泛共享的X线程中强调了RL培训中的一个关键问题: *为什么您的RL培训总是崩溃?
反馈循环为某些短语或策略提早获得了很高的回报,从而鼓励过度使用和扼杀探索,从而推动了这种回归。症状很明显:奖励差异悬崖,梯度尖峰和消失的推理痕迹。
拉根的测试环境
为了在受控的环境中研究这些行为,拉根评估了三个符号环境的代理:
- 强盗:一项单转,随机任务,测试符号风险奖励推理。
- Sokoban:一个涉及不可逆转决策的多转弯,确定性的难题。
- 冷冻湖:一项需要自适应计划的随机,多转弯任务。
每个环境旨在最大程度地减少现实世界的先验,并仅专注于培训期间制定的决策策略。例如,在强盗环境中,代理必须象征性地推理代表不同奖励分布的龙和凤凰臂,将它们解释为“力量”和“希望”,以预测结果。
使用Starpo-S稳定增强学习
为了打击训练崩溃,研究人员介绍了STARPO-S,这是原始框架的稳定版本。 Starpo-S包括三个关键干预措施:
- 基于不确定性的推出过滤:优先级推广,其中代理显示结果不确定性。
- KL罚款:允许该模型更自由地偏离其原始政策并探索新行为。
- 不对称的PPO剪辑:扩大高回报轨迹比低回报的轨迹增加了学习。
这些更改有助于延迟或消除培训崩溃并提高所有三个任务的性能。正如Wang所说,“ Starpo-S…在所有3个任务中都可以解决。缓解崩溃。更好的回报。”
是什么使良好的代理AI模型?
RL培训的成功不仅取决于体系结构,还取决于代理商生成的数据的质量。该团队确定了三个重要影响培训的重要方面:
- 任务多样性:将模型暴露在广泛的初始场景中可以改善概括。
- 互动粒度:允许每回合进行多次操作实现更有意义的计划。
- 推出新鲜度:保持与当前模型策略一致的培训数据避免过时的学习信号。
这些因素有助于更稳定,更有效的培训过程。 GitHub上的一个交互式演示站点可视化代理在完整的对话转弯时的推出,不仅包括动作,还包括在它们之前的逐步思考过程。例如,在解决数学问题时,代理商可能首先“思考”要在提交诸如'x = 5'之类的答案之前隔离变量。这些中间思想是可见和可追溯的,从而增加了代理如何做出决策的透明度。
当推理用完时
虽然明确的推理可以提高简单,单转的任务(例如强盗)的性能,但在多转弯训练期间它往往会衰减。尽管使用结构化提示和令牌,但除非直接奖励,否则推理痕迹通常会收缩或消失。这突出了奖励通常设计的限制:专注于任务完成可能会忽略其背后的过程质量。该团队进行了基于格式的惩罚,以鼓励更好的结构化推理,但承认可能需要更精致的奖励成型。
开放工具和未来的方向
Ragen及其Starpo和Starpo-S框架现在可以在https://github.com/ragen-ai/ragen上作为开源项目。但是,在撰写本文时,GitHub存储库中没有列出明确的许可证,这可能会限制其其他人的使用或重新分配。
该系统为那些有兴趣开发AI代理的人提供了宝贵的基础,这些AI代理不仅完成任务,而且考虑,计划和发展。随着AI朝着更大的自主权发展,像Ragen这样的项目帮助阐明了训练模型所需的内容,这些模型从自己的行动的后果中学习。
现实企业采用的杰出问题
尽管Ragen Paper提供了详细的技术路线图,但对于希望在企业设置中应用这些方法的人仍然存在一些实际问题。例如,拉根(Ragen)的方法超出了风格化的象征性任务如何转移?企业是否需要设计全新的环境和奖励功能才能在发票处理或客户支持等工作流程中使用此系统?
王在X上的VentureBeat的直接信息中建议,改善任务多样性可以有所帮助,因为当前的游戏任务只有类似的网格表示,但缺乏语义信息。他还对使用Ragen为AI代理设计自己的培训练习的企业表示乐观,并指出GitHub链接为添加新环境提供了简单的介绍。
另一个关键领域是可伸缩性。即使使用Starpo-S提供的增强功能,该论文也承认培训最终仍会倒在更长的视野上。这就提出了一个问题:是否有理论或实用的途径来维持对开放式或不断发展的任务序列的推理?
在撰写本文时,Ragen Github存储库或文档中没有列出任何明确的许可证,而留下了有关使用权的公开问题。尽管如此,拉根(Ragen)不仅是技术贡献,而且是迈向更自主,能够推理的AI代理商的概念步骤。它是否成为企业AI堆栈的一部分还有待观察,但其对代理学习动态的见解已经在帮助重新定义LLM培训的前沿。
相关文章
谷歌发布面向生产环境的Gemini 2.5 AI模型,挑战企业市场中的OpenAI
谷歌周一加码其AI战略,推出面向企业使用的先进Gemini 2.5模型,并引入成本效益更高的变体,以在价格和性能上展开竞争。这家隶属于Alphabet的公司将其旗舰AI模型——Gemini 2.5 Pro和Gemini 2.5 Flash——从测试阶段提升至全面可用,展示其在关键业务应用中的准备就绪。同时,谷歌推出了Gemini 2.5 Flash-Lite,定位为高容量任务中最具预算友好性的选择
阿里巴巴发布Wan2.1-VACE:开源AI视频解决方案
阿里巴巴推出了Wan2.1-VACE,这是一个开源AI模型,有望改变视频创作和编辑流程。VACE是阿里巴巴Wan2.1视频AI模型系列的关键组成部分,公司宣称这是“业内首个为多样化视频生成和编辑任务提供全面解决方案的开源模型。”如果阿里巴巴能够简化视频制作流程,将多种工具整合到一个单一平台上,可能会重新定义行业标准。VACE能做什么?它可以从多种输入生成视频,例如文本提示、静态图像或短视频片段。除
AI驱动的零售实验在Anthropic惨败
想象将一家小商店交给人工智能,委托它处理从定价到客户互动的一切。会出什么问题?Anthropic周五发布的一项研究回答了这个问题:几乎一切都出错了。他们的AI助手Claude在旧金山办公室经营了一家小商店一个月,结果堪称商学院学生的警示案例,像是完全没有现实经验的人写的——这正是实验的实际情况。Anthropic办公室的“商店”是一个装满饮料和零食的迷你冰箱,配有iPad用于自助结账。(图片来源:
评论 (6)
0/200
JimmyRamirez
2025-07-23 12:59:29
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
2025-05-06 15:48:04
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
2025-05-06 06:45:54
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
2025-05-05 11:45:04
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
2025-05-05 04:00:48
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
MateoAdams
2025-05-04 23:14:20
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
AI代理年:仔细研究2025年的期望和现实
2025年被许多专家宣布为AI代理商(由OpenAI,Anthropic,Google和DeepSeek等公司提供支持的AI代理商(由高级大语和多模型)提供支持的一年。但是,根据最近对社交网络X的VentureBeat民意调查,大多数AI代理商仍在实验阶段中陷入困境,陷入了一种公司的困境。
但是,地平线有一线希望。西北大学,微软,斯坦福大学和华盛顿大学的研究人员的合作努力,包括Zihan Wang,他是前DeepSeek研究员Zihan Wang,目前攻读西北地区的计算机科学博士学位,引入了Ragen。这个新系统旨在培训和评估AI代理,以使其对现实世界中的企业使用更可靠和适应。
拉根:一种新的培训AI代理商的方法
与诸如数学求解或代码生成之类的静态任务不同,Ragen专注于动态的多转交互作用,其中代理需要在不确定性中适应,记住和原因。该系统建立在称为Starpo(状态思维 - 奖励政策优化)的自定义加固学习(RL)框架上,该框架强调通过经验而不是死记硬背的记忆来学习。 Starpo着眼于整个决策序列,而不仅仅是单步响应。
StarPo分为两个阶段:LLM生成以推理为指导的完整交互序列的推出阶段,以及使用归一化累积奖励优化模型的更新阶段。与传统的政策优化方法相比,这种方法提供了更稳定,更容易解释的学习循环。
研究人员使用阿里巴巴QWEN模型的微调版本,特别是QWEN 1.5和QWEN 2.5测试了该框架,该框架是为了开放的重量和强大的指导性功能而选择的。这种选择促进了符号任务之间的可重复性和一致的基线比较。
回声陷阱:增强学习的挑战
Zihan Wang在一个广泛共享的X线程中强调了RL培训中的一个关键问题: *为什么您的RL培训总是崩溃?
反馈循环为某些短语或策略提早获得了很高的回报,从而鼓励过度使用和扼杀探索,从而推动了这种回归。症状很明显:奖励差异悬崖,梯度尖峰和消失的推理痕迹。
拉根的测试环境
为了在受控的环境中研究这些行为,拉根评估了三个符号环境的代理:
- 强盗:一项单转,随机任务,测试符号风险奖励推理。
- Sokoban:一个涉及不可逆转决策的多转弯,确定性的难题。
- 冷冻湖:一项需要自适应计划的随机,多转弯任务。
每个环境旨在最大程度地减少现实世界的先验,并仅专注于培训期间制定的决策策略。例如,在强盗环境中,代理必须象征性地推理代表不同奖励分布的龙和凤凰臂,将它们解释为“力量”和“希望”,以预测结果。
使用Starpo-S稳定增强学习
为了打击训练崩溃,研究人员介绍了STARPO-S,这是原始框架的稳定版本。 Starpo-S包括三个关键干预措施:
- 基于不确定性的推出过滤:优先级推广,其中代理显示结果不确定性。
- KL罚款:允许该模型更自由地偏离其原始政策并探索新行为。
- 不对称的PPO剪辑:扩大高回报轨迹比低回报的轨迹增加了学习。
这些更改有助于延迟或消除培训崩溃并提高所有三个任务的性能。正如Wang所说,“ Starpo-S…在所有3个任务中都可以解决。缓解崩溃。更好的回报。”
是什么使良好的代理AI模型?
RL培训的成功不仅取决于体系结构,还取决于代理商生成的数据的质量。该团队确定了三个重要影响培训的重要方面:
- 任务多样性:将模型暴露在广泛的初始场景中可以改善概括。
- 互动粒度:允许每回合进行多次操作实现更有意义的计划。
- 推出新鲜度:保持与当前模型策略一致的培训数据避免过时的学习信号。
这些因素有助于更稳定,更有效的培训过程。 GitHub上的一个交互式演示站点可视化代理在完整的对话转弯时的推出,不仅包括动作,还包括在它们之前的逐步思考过程。例如,在解决数学问题时,代理商可能首先“思考”要在提交诸如'x = 5'之类的答案之前隔离变量。这些中间思想是可见和可追溯的,从而增加了代理如何做出决策的透明度。
当推理用完时
虽然明确的推理可以提高简单,单转的任务(例如强盗)的性能,但在多转弯训练期间它往往会衰减。尽管使用结构化提示和令牌,但除非直接奖励,否则推理痕迹通常会收缩或消失。这突出了奖励通常设计的限制:专注于任务完成可能会忽略其背后的过程质量。该团队进行了基于格式的惩罚,以鼓励更好的结构化推理,但承认可能需要更精致的奖励成型。
开放工具和未来的方向
Ragen及其Starpo和Starpo-S框架现在可以在https://github.com/ragen-ai/ragen上作为开源项目。但是,在撰写本文时,GitHub存储库中没有列出明确的许可证,这可能会限制其其他人的使用或重新分配。
该系统为那些有兴趣开发AI代理的人提供了宝贵的基础,这些AI代理不仅完成任务,而且考虑,计划和发展。随着AI朝着更大的自主权发展,像Ragen这样的项目帮助阐明了训练模型所需的内容,这些模型从自己的行动的后果中学习。
现实企业采用的杰出问题
尽管Ragen Paper提供了详细的技术路线图,但对于希望在企业设置中应用这些方法的人仍然存在一些实际问题。例如,拉根(Ragen)的方法超出了风格化的象征性任务如何转移?企业是否需要设计全新的环境和奖励功能才能在发票处理或客户支持等工作流程中使用此系统?
王在X上的VentureBeat的直接信息中建议,改善任务多样性可以有所帮助,因为当前的游戏任务只有类似的网格表示,但缺乏语义信息。他还对使用Ragen为AI代理设计自己的培训练习的企业表示乐观,并指出GitHub链接为添加新环境提供了简单的介绍。
另一个关键领域是可伸缩性。即使使用Starpo-S提供的增强功能,该论文也承认培训最终仍会倒在更长的视野上。这就提出了一个问题:是否有理论或实用的途径来维持对开放式或不断发展的任务序列的推理?
在撰写本文时,Ragen Github存储库或文档中没有列出任何明确的许可证,而留下了有关使用权的公开问题。尽管如此,拉根(Ragen)不仅是技术贡献,而且是迈向更自主,能够推理的AI代理商的概念步骤。它是否成为企业AI堆栈的一部分还有待观察,但其对代理学习动态的见解已经在帮助重新定义LLM培训的前沿。




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀












