英伟达开源 Polar 框架,助力通过强化学习实现零门槛的 AI 编码代理进化
5月28日,英伟达(NVIDIA)研究团队开源了强化学习训练框架Polar。其核心创新在于,能够将现有的主流代码代理(如Codex、Claude Code和Qwen Code)无缝集成到GRPO(广义相对策略优化)强化学习训练中,且无需对原始代码进行任何修改。

一、行业痛点:代理强化学习的障碍
随着代码代理从简单的单步任务演进为复杂且长期运行的流程(例如仓库级代码修改或操作系统交互),开发者越来越依赖成熟的执行框架(Harness)。然而,将这些复杂的框架集成到传统的强化学习基础设施中面临着重大挑战:
高集成成本:传统方法要求将代码逻辑重写为 env.init() 和 env.step() 等标准环境接口,这一过程极其繁琐。
信息丢失:在重构过程中,关键细节(如工具调用、多轮对话上下文或子代理协作逻辑)往往丢失,导致模型无法接收高质量的训练信号。

II. 核心解决方案:以“边界”作为训练入口点
Polar 消除了重写执行框架的必要性。相反,它将模型 API 边界作为训练入口点。
黑盒处理:Polar 在代码执行框架与模型推理服务器之间部署了一个透明代理(网关)。无论代理使用的是 Anthropic、OpenAI 还是 Google 的 API,Polar 都能无缝拦截并转发请求。
轨迹重建:在转发过程中,Polar 会记录实时关键数据(如提示词、采样令牌和日志概率),并将其重建为强化学习训练器所需的“轨迹”数据。
高效的异步架构:系统采用 Rollout 服务器负责调度和数据持久化,而网关节点则管理生命周期和资源回收。通过利用预热缓冲区(READY 缓冲区)和并行任务处理,它有效消除了可能阻塞 GPU 训练的长尾任务。
III. 性能飞跃:代码代理的转型
实验数据表明,Polar 与 GRPO 训练相结合可带来显著的性能提升:
SWE-Bench验证基准测试:使用相同的Qwen3.5-4B基础模型,不同代码框架的性能表现存在差异:
Codex 框架:pass@1 得分从 3.8% 跃升至 26.4%——增幅达594.74%。
Claude Code Framework:从 29.8% 提升至 34.6%。
Pi 框架:从 34.2% 提升至 40.4%。
极致效率:引入 prefix_merging 策略后,与传统的按请求模式相比,训练总耗时缩短了约 5.39倍,GPU 利用率从 20.4% 提升至87.7%。
行业评论
NVIDIA Polar的开源本质上为AI代理进入强化学习训练领域铺设了一条“高速公路”。它不仅使研究人员能够利用海量的开源代码框架进行高效训练,还通过系统级优化降低了GPU计算门槛。
随着Polar的日益普及,开发者不再需要担心“如何将模型适配到训练框架”的问题。未来,AI编码代理的演进将变得更加标准化和高效。这标志着AI代理训练正从实验室的手动调试,转向大规模、系统化的工程化生产。
论文链接:https://arxiv.org/pdf/2605.24220
相关文章
DeepSeek Code 即将发布
随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势?
埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度
在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解
相关专题推荐
评论 (0)
0/500
5月28日,英伟达(NVIDIA)研究团队开源了强化学习训练框架Polar。其核心创新在于,能够将现有的主流代码代理(如Codex、Claude Code和Qwen Code)无缝集成到GRPO(广义相对策略优化)强化学习训练中,且无需对原始代码进行任何修改。

一、行业痛点:代理强化学习的障碍
随着代码代理从简单的单步任务演进为复杂且长期运行的流程(例如仓库级代码修改或操作系统交互),开发者越来越依赖成熟的执行框架(Harness)。然而,将这些复杂的框架集成到传统的强化学习基础设施中面临着重大挑战:
高集成成本:传统方法要求将代码逻辑重写为 env.init() 和 env.step() 等标准环境接口,这一过程极其繁琐。
信息丢失:在重构过程中,关键细节(如工具调用、多轮对话上下文或子代理协作逻辑)往往丢失,导致模型无法接收高质量的训练信号。

II. 核心解决方案:以“边界”作为训练入口点
Polar 消除了重写执行框架的必要性。相反,它将模型 API 边界作为训练入口点。
黑盒处理:Polar 在代码执行框架与模型推理服务器之间部署了一个透明代理(网关)。无论代理使用的是 Anthropic、OpenAI 还是 Google 的 API,Polar 都能无缝拦截并转发请求。
轨迹重建:在转发过程中,Polar 会记录实时关键数据(如提示词、采样令牌和日志概率),并将其重建为强化学习训练器所需的“轨迹”数据。
高效的异步架构:系统采用 Rollout 服务器负责调度和数据持久化,而网关节点则管理生命周期和资源回收。通过利用预热缓冲区(READY 缓冲区)和并行任务处理,它有效消除了可能阻塞 GPU 训练的长尾任务。
III. 性能飞跃:代码代理的转型
实验数据表明,Polar 与 GRPO 训练相结合可带来显著的性能提升:
SWE-Bench验证基准测试:使用相同的Qwen3.5-4B基础模型,不同代码框架的性能表现存在差异:
Codex 框架:pass@1 得分从 3.8% 跃升至 26.4%——增幅达594.74%。
Claude Code Framework:从 29.8% 提升至 34.6%。
Pi 框架:从 34.2% 提升至 40.4%。
极致效率:引入 prefix_merging 策略后,与传统的按请求模式相比,训练总耗时缩短了约 5.39倍,GPU 利用率从 20.4% 提升至87.7%。
行业评论
NVIDIA Polar的开源本质上为AI代理进入强化学习训练领域铺设了一条“高速公路”。它不仅使研究人员能够利用海量的开源代码框架进行高效训练,还通过系统级优化降低了GPU计算门槛。
随着Polar的日益普及,开发者不再需要担心“如何将模型适配到训练框架”的问题。未来,AI编码代理的演进将变得更加标准化和高效。这标志着AI代理训练正从实验室的手动调试,转向大规模、系统化的工程化生产。
论文链接:https://arxiv.org/pdf/2605.24220
DeepSeek Code 即将发布
随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势?
埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度
在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解





首页






