NVIDIA 將 Polar 框架開源,透過強化學習實現零門檻的 AI 編碼代理演化
5月28日,NVIDIA 研究團隊將強化學習訓練框架「Polar」開源。其核心創新之處在於,能將現有的主流程式碼代理(例如 Codex、Claude Code 和 Qwen Code)無縫整合至 GRPO(通用相對策略優化)強化學習訓練中,且無需對原始程式碼進行任何修改。

I. 產業痛點:代理強化學習的障礙
隨著程式碼代理從簡單的單步驟任務,演進至複雜且長期運行的流程——例如倉庫級別的程式碼修改或作業系統互動——開發人員越來越依賴成熟的執行框架(Harness)。然而,將這些複雜的框架整合到傳統的強化學習基礎架構中,卻面臨著巨大的挑戰:
高整合成本:傳統方法需要將程式邏輯重寫為標準環境介面(如 env.init() 和 env.step()),此過程極為繁瑣。
資訊流失:在重構過程中,關鍵細節(例如工具呼叫、多回合對話語境或子代理協作邏輯)往往會遺失,導致模型無法接收高品質的訓練訊號。

II. 核心解決方案:以「邊界」作為訓練入口點
Polar 無需重寫執行框架,而是將模型 API 邊界視為訓練入口點。
黑盒處理:Polar 在程式碼執行框架與模型推論伺服器之間設置了一個透明的代理(Gateway)。無論代理使用的是 Anthropic、OpenAI 還是 Google 的 API,Polar 都能無縫攔截並轉發請求。
追蹤重建:在轉發過程中,Polar 會記錄關鍵的即時資料——例如提示、採樣標記及對數機率——並將其重建為強化學習訓練器所需的「追蹤」資料。
高效異步架構:系統採用 Rollout Server 負責調度與資料持久化,同時由 Gateway Nodes 管理生命週期與資源回收。透過預熱緩衝區(READY buffer)與並行任務處理,有效消除可能阻塞 GPU 訓練的長尾任務。
III. 性能飛躍:轉化程式碼代理
實驗數據顯示,Polar 結合 GRPO 訓練可帶來顯著的性能提升:
經 SWE-Bench 驗證的基準測試:使用相同的 Qwen3.5-4B 基礎模型,不同程式碼框架的表現存在差異:
Codex 框架:pass@1 分數從 3.8% 躍升至 26.4%——暴增594.74%。
Claude Code Framework:從 29.8% 提升至 34.6%。
Pi Framework:從 34.2% 提升至 40.4%。
極致效率:導入 prefix_merging 策略後,相較於傳統的逐次請求模式,訓練總耗時縮短約5.39 倍,且 GPU 利用率從 20.4% 提升至87.7%。
產業評論
NVIDIA 的 Polar 開源計畫,實質上為 AI 代理進入強化的學習訓練領域鋪設了一條「高速公路」。它不僅讓研究人員能利用龐大的開源程式碼框架進行高效訓練,更透過系統層級的優化降低了 GPU 運算門檻。
隨著 Polar 的日益普及,開發者無需再擔心「如何將模型適應於訓練框架」。未來,AI 編碼代理的演進將變得更加標準化與高效。這標誌著 AI 代理訓練正從手動實驗室調校,轉向大規模、系統化的工程化生產。
論文網址:https://arxiv.org/pdf/2605.24220
相關文章
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
相關專題推薦
評論 (0)
0/500
5月28日,NVIDIA 研究團隊將強化學習訓練框架「Polar」開源。其核心創新之處在於,能將現有的主流程式碼代理(例如 Codex、Claude Code 和 Qwen Code)無縫整合至 GRPO(通用相對策略優化)強化學習訓練中,且無需對原始程式碼進行任何修改。

I. 產業痛點:代理強化學習的障礙
隨著程式碼代理從簡單的單步驟任務,演進至複雜且長期運行的流程——例如倉庫級別的程式碼修改或作業系統互動——開發人員越來越依賴成熟的執行框架(Harness)。然而,將這些複雜的框架整合到傳統的強化學習基礎架構中,卻面臨著巨大的挑戰:
高整合成本:傳統方法需要將程式邏輯重寫為標準環境介面(如 env.init() 和 env.step()),此過程極為繁瑣。
資訊流失:在重構過程中,關鍵細節(例如工具呼叫、多回合對話語境或子代理協作邏輯)往往會遺失,導致模型無法接收高品質的訓練訊號。

II. 核心解決方案:以「邊界」作為訓練入口點
Polar 無需重寫執行框架,而是將模型 API 邊界視為訓練入口點。
黑盒處理:Polar 在程式碼執行框架與模型推論伺服器之間設置了一個透明的代理(Gateway)。無論代理使用的是 Anthropic、OpenAI 還是 Google 的 API,Polar 都能無縫攔截並轉發請求。
追蹤重建:在轉發過程中,Polar 會記錄關鍵的即時資料——例如提示、採樣標記及對數機率——並將其重建為強化學習訓練器所需的「追蹤」資料。
高效異步架構:系統採用 Rollout Server 負責調度與資料持久化,同時由 Gateway Nodes 管理生命週期與資源回收。透過預熱緩衝區(READY buffer)與並行任務處理,有效消除可能阻塞 GPU 訓練的長尾任務。
III. 性能飛躍:轉化程式碼代理
實驗數據顯示,Polar 結合 GRPO 訓練可帶來顯著的性能提升:
經 SWE-Bench 驗證的基準測試:使用相同的 Qwen3.5-4B 基礎模型,不同程式碼框架的表現存在差異:
Codex 框架:pass@1 分數從 3.8% 躍升至 26.4%——暴增594.74%。
Claude Code Framework:從 29.8% 提升至 34.6%。
Pi Framework:從 34.2% 提升至 40.4%。
極致效率:導入 prefix_merging 策略後,相較於傳統的逐次請求模式,訓練總耗時縮短約5.39 倍,且 GPU 利用率從 20.4% 提升至87.7%。
產業評論
NVIDIA 的 Polar 開源計畫,實質上為 AI 代理進入強化的學習訓練領域鋪設了一條「高速公路」。它不僅讓研究人員能利用龐大的開源程式碼框架進行高效訓練,更透過系統層級的優化降低了 GPU 運算門檻。
隨著 Polar 的日益普及,開發者無需再擔心「如何將模型適應於訓練框架」。未來,AI 編碼代理的演進將變得更加標準化與高效。這標誌著 AI 代理訓練正從手動實驗室調校,轉向大規模、系統化的工程化生產。
論文網址:https://arxiv.org/pdf/2605.24220
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版





首頁






