选项
首页
新闻
英伟达开源 Polar 框架,助力通过强化学习实现零门槛的 AI 编码代理进化

英伟达开源 Polar 框架,助力通过强化学习实现零门槛的 AI 编码代理进化

2026-05-31
68

5月28日,英伟达(NVIDIA)研究团队开源了强化学习训练框架Polar。其核心创新在于,能够将现有的主流代码代理(如Codex、Claude Code和Qwen Code)无缝集成到GRPO(广义相对策略优化)强化学习训练中,且无需对原始代码进行任何修改。

image.png

一、行业痛点:代理强化学习的障碍

随着代码代理从简单的单步任务演进为复杂且长期运行的流程(例如仓库级代码修改或操作系统交互),开发者越来越依赖成熟的执行框架(Harness)。然而,将这些复杂的框架集成到传统的强化学习基础设施中面临着重大挑战:

高集成成本:传统方法要求将代码逻辑重写为 env.init() 和 env.step() 等标准环境接口,这一过程极其繁琐。

信息丢失:在重构过程中,关键细节(如工具调用、多轮对话上下文或子代理协作逻辑)往往丢失,导致模型无法接收高质量的训练信号。

image.png

II. 核心解决方案:以“边界”作为训练入口点

Polar 消除了重写执行框架的必要性。相反,它将模型 API 边界作为训练入口点

黑盒处理:Polar 在代码执行框架与模型推理服务器之间部署了一个透明代理(网关)。无论代理使用的是 Anthropic、OpenAI 还是 Google 的 API,Polar 都能无缝拦截并转发请求。

轨迹重建:在转发过程中,Polar 会记录实时关键数据(如提示词、采样令牌和日志概率),并将其重建为强化学习训练器所需的“轨迹”数据。

高效的异步架构:系统采用 Rollout 服务器负责调度和数据持久化,而网关节点则管理生命周期和资源回收。通过利用预热缓冲区(READY 缓冲区)和并行任务处理,它有效消除了可能阻塞 GPU 训练的长尾任务。

III. 性能飞跃:代码代理的转型

实验数据表明,Polar 与 GRPO 训练相结合可带来显著的性能提升:

SWE-Bench验证基准测试:使用相同的Qwen3.5-4B基础模型,不同代码框架的性能表现存在差异:

Codex 框架:pass@1 得分从 3.8% 跃升至 26.4%——增幅达594.74%。

Claude Code Framework:从 29.8% 提升至 34.6%。

Pi 框架:从 34.2% 提升至 40.4%。

极致效率:引入 prefix_merging 策略后,与传统的按请求模式相比,训练总耗时缩短了约 5.39倍,GPU 利用率从 20.4% 提升至87.7%。

行业评论

NVIDIA Polar的开源本质上为AI代理进入强化学习训练领域铺设了一条“高速公路”。它不仅使研究人员能够利用海量的开源代码框架进行高效训练,还通过系统级优化降低了GPU计算门槛。

随着Polar的日益普及,开发者不再需要担心“如何将模型适配到训练框架”的问题。未来,AI编码代理的演进将变得更加标准化和高效。这标志着AI代理训练正从实验室的手动调试,转向大规模、系统化的工程化生产。

论文链接:https://arxiv.org/pdf/2605.24220

相关文章
DeepSeek Code 即将发布 DeepSeek Code 即将发布 随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势? 马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势? 埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度 OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度 在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解
相关专题推荐
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
代码 最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例
最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具,这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具,它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上,您可以免费查看各种选项,并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具,提升您的开发效率吧!

10 个工具
xix.ai
评论 (0)
0/500
OR