選項
首頁
新聞
NVIDIA 將 Polar 框架開源,透過強化學習實現零門檻的 AI 編碼代理演化

NVIDIA 將 Polar 框架開源,透過強化學習實現零門檻的 AI 編碼代理演化

2026-05-31
68

5月28日,NVIDIA 研究團隊將強化學習訓練框架「Polar」開源。其核心創新之處在於,能將現有的主流程式碼代理(例如 Codex、Claude Code 和 Qwen Code)無縫整合至 GRPO(通用相對策略優化)強化學習訓練中,且無需對原始程式碼進行任何修改。

image.png

I. 產業痛點:代理強化學習的障礙

隨著程式碼代理從簡單的單步驟任務,演進至複雜且長期運行的流程——例如倉庫級別的程式碼修改或作業系統互動——開發人員越來越依賴成熟的執行框架(Harness)。然而,將這些複雜的框架整合到傳統的強化學習基礎架構中,卻面臨著巨大的挑戰:

高整合成本:傳統方法需要將程式邏輯重寫為標準環境介面(如 env.init() 和 env.step()),此過程極為繁瑣。

資訊流失:在重構過程中,關鍵細節(例如工具呼叫、多回合對話語境或子代理協作邏輯)往往會遺失,導致模型無法接收高品質的訓練訊號。

image.png

II. 核心解決方案:以「邊界」作為訓練入口點

Polar 無需重寫執行框架,而是將模型 API 邊界視為訓練入口點

黑盒處理:Polar 在程式碼執行框架與模型推論伺服器之間設置了一個透明的代理(Gateway)。無論代理使用的是 Anthropic、OpenAI 還是 Google 的 API,Polar 都能無縫攔截並轉發請求。

追蹤重建:在轉發過程中,Polar 會記錄關鍵的即時資料——例如提示、採樣標記及對數機率——並將其重建為強化學習訓練器所需的「追蹤」資料。

高效異步架構:系統採用 Rollout Server 負責調度與資料持久化,同時由 Gateway Nodes 管理生命週期與資源回收。透過預熱緩衝區(READY buffer)與並行任務處理,有效消除可能阻塞 GPU 訓練的長尾任務。

III. 性能飛躍:轉化程式碼代理

實驗數據顯示,Polar 結合 GRPO 訓練可帶來顯著的性能提升:

經 SWE-Bench 驗證的基準測試:使用相同的 Qwen3.5-4B 基礎模型,不同程式碼框架的表現存在差異:

Codex 框架:pass@1 分數從 3.8% 躍升至 26.4%——暴增594.74%。

Claude Code Framework:從 29.8% 提升至 34.6%。

Pi Framework:從 34.2% 提升至 40.4%。

極致效率:導入 prefix_merging 策略後,相較於傳統的逐次請求模式,訓練總耗時縮短約5.39 倍,且 GPU 利用率從 20.4% 提升至87.7%。

產業評論

NVIDIA 的 Polar 開源計畫,實質上為 AI 代理進入強化的學習訓練領域鋪設了一條「高速公路」。它不僅讓研究人員能利用龐大的開源程式碼框架進行高效訓練,更透過系統層級的優化降低了 GPU 運算門檻。

隨著 Polar 的日益普及,開發者無需再擔心「如何將模型適應於訓練框架」。未來,AI 編碼代理的演進將變得更加標準化與高效。這標誌著 AI 代理訓練正從手動實驗室調校,轉向大規模、系統化的工程化生產。

論文網址:https://arxiv.org/pdf/2605.24220

相關文章
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易 Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易 隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出 DeepSeek Code 即將推出 隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢? 馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢? 伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
相關專題推薦
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
聊天機器人 最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信
最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單,能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具,並透過免費與付費版本的比較,以及每週更新的排行榜,立即解鎖您的社交優勢。

10 個工具
xix.ai
代碼 最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例
最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例

探索2026年最新評選出的頂級AI工具,這些工具專為自動化單元測試而設計。我們精心挑選了那些功能強大、能夠改變開發流程的工具,它們能夠幫助您快速生成Jest、PyTest和JUnit測試用例。在XIX.AI平臺上,您可以免費檢視各種選項,並透過實際測試結果以及每週更新的排名來了解它們的優劣。立即利用這些AI工具,提升您的開發效率吧!

10 個工具
xix.ai
評論 (0)
0/500
OR