NVIDIA 將 Polar 框架開源，透過強化學習實現零門檻的 AI 編碼代理演化

首頁

新聞

2026-05-31

ThomasScott

5月28日，NVIDIA 研究團隊將強化學習訓練框架「Polar」開源。其核心創新之處在於，能將現有的主流程式碼代理（例如 Codex、Claude Code 和 Qwen Code）無縫整合至 GRPO（通用相對策略優化）強化學習訓練中，且無需對原始程式碼進行任何修改。

I. 產業痛點：代理強化學習的障礙

隨著程式碼代理從簡單的單步驟任務，演進至複雜且長期運行的流程——例如倉庫級別的程式碼修改或作業系統互動——開發人員越來越依賴成熟的執行框架（Harness）。然而，將這些複雜的框架整合到傳統的強化學習基礎架構中，卻面臨著巨大的挑戰：

高整合成本：傳統方法需要將程式邏輯重寫為標準環境介面（如 env.init() 和 env.step()），此過程極為繁瑣。

資訊流失：在重構過程中，關鍵細節（例如工具呼叫、多回合對話語境或子代理協作邏輯）往往會遺失，導致模型無法接收高品質的訓練訊號。

II. 核心解決方案：以「邊界」作為訓練入口點

Polar 無需重寫執行框架，而是將模型 API 邊界視為訓練入口點。

黑盒處理：Polar 在程式碼執行框架與模型推論伺服器之間設置了一個透明的代理（Gateway）。無論代理使用的是 Anthropic、OpenAI 還是 Google 的 API，Polar 都能無縫攔截並轉發請求。

追蹤重建：在轉發過程中，Polar 會記錄關鍵的即時資料——例如提示、採樣標記及對數機率——並將其重建為強化學習訓練器所需的「追蹤」資料。

高效異步架構：系統採用 Rollout Server 負責調度與資料持久化，同時由 Gateway Nodes 管理生命週期與資源回收。透過預熱緩衝區（READY buffer）與並行任務處理，有效消除可能阻塞 GPU 訓練的長尾任務。

III. 性能飛躍：轉化程式碼代理

實驗數據顯示，Polar 結合 GRPO 訓練可帶來顯著的性能提升：

經 SWE-Bench 驗證的基準測試：使用相同的 Qwen3.5-4B 基礎模型，不同程式碼框架的表現存在差異：

Codex 框架：pass@1 分數從 3.8% 躍升至 26.4%——暴增594.74%。

Claude Code Framework：從 29.8% 提升至 34.6%。

Pi Framework：從 34.2% 提升至 40.4%。

極致效率：導入 prefix_merging 策略後，相較於傳統的逐次請求模式，訓練總耗時縮短約5.39 倍，且 GPU 利用率從 20.4% 提升至87.7%。

產業評論

NVIDIA 的 Polar 開源計畫，實質上為 AI 代理進入強化的學習訓練領域鋪設了一條「高速公路」。它不僅讓研究人員能利用龐大的開源程式碼框架進行高效訓練，更透過系統層級的優化降低了 GPU 運算門檻。

隨著 Polar 的日益普及，開發者無需再擔心「如何將模型適應於訓練框架」。未來，AI 編碼代理的演進將變得更加標準化與高效。這標誌著 AI 代理訓練正從手動實驗室調校，轉向大規模、系統化的工程化生產。

論文網址：https://arxiv.org/pdf/2605.24220

Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易隨著人工智慧的快速發展，Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗，展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商，並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場，Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工，以收集他們的買賣意圖及

DeepSeek Code 即將推出隨著人工智慧技術的加速發展，DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露，已獲得超過 700 億元的資金。管理層強調，公司致力於突破性的人工智慧研究，而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發，尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形，該公司職缺頁面已發布數個相關職位，例如「Agen

馬斯克的 Grok：1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者，還是虛張聲勢？伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中，OpenAI 和 Anthropic 正加速前進，而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡，然而儘管 Grok4.X 系列已進行多次更新，成果在理論上看似不錯，但在實際應用中卻未能達標，兩者之間的差距幾乎未見縮小。不過，這次他握有一張新王牌。馬斯克在 X 平台上證實，Grok 的新版本即將問世。這款基礎模型第九版

相關專題推薦

商業

最佳 AI 招聘工具：篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案，可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即找到最適合您的招聘助手，並優化您的招聘流程！

10 個工具

xix.ai

生產率

AI 個人健康與專注力教練：管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具，助您管理倦怠感並提升精神能量。透過實際使用心得，比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具

xix.ai

聊天機器人

最受好評的 AI 浪漫聊天機器人：透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人，助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較，以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶，並開始建立這段關係吧。

10 個工具

xix.ai

教育與學習

最佳AI資料科學導師：精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師，幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單，獲得強大而具有變革性的指導。透過對比免費和付費選項，並結合實際應用案例進行了解，今天就開啟你的資料科學精通之路吧。

10 個工具

xix.ai

聊天機器人

最佳 AI 調情與對話訓練工具：即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單，能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具，並透過免費與付費版本的比較，以及每週更新的排行榜，立即解鎖您的社交優勢。

10 個工具

xix.ai

代碼

最適合自動化單元測試的最佳AI工具：一鍵生成Jest、PyTest和JUnit測試用例

探索2026年最新評選出的頂級AI工具，這些工具專為自動化單元測試而設計。我們精心挑選了那些功能強大、能夠改變開發流程的工具，它們能夠幫助您快速生成Jest、PyTest和JUnit測試用例。在XIX.AI平臺上，您可以免費檢視各種選項，並透過實際測試結果以及每週更新的排名來了解它們的優劣。立即利用這些AI工具，提升您的開發效率吧！

10 個工具

xix.ai