NVIDIA、強化学習による障壁のないAIコーディングエージェントの進化を実現する「Polar」フレームワークをオープンソース化
5月28日、NVIDIAの研究チームは、強化学習トレーニングフレームワーク「Polar」をオープンソース化しました。その中核となる革新性は、Codex、Claude Code、Qwen Codeといった既存の主流なコードエージェントを、元のコードに変更を加えることなく、GRPO(Generalized Relative Policy Optimization)強化学習トレーニングにシームレスに統合できる点にあります。

I. 業界の課題:エージェント強化学習の障壁
コードエージェントが、単純な単一ステップのタスクから、倉庫レベルのコード変更やOSとの連携といった複雑で長時間実行されるプロセスへと進化するにつれ、開発者は成熟した実行フレームワーク(Harness)への依存度を高めています。しかし、これらの複雑なフレームワークを従来の強化学習インフラに統合するには、大きな課題が伴います:
高い統合コスト:従来の方法では、コードロジックを env.init() や env.step() といった標準的な環境インターフェースに書き換える必要があり、このプロセスは極めて煩雑です。
情報の喪失:リファクタリングの際、ツール呼び出し、複数ターンにわたる対話コンテキスト、サブエージェント間の協調ロジックといった重要な詳細が失われることが多く、その結果、モデルが高品質なトレーニング信号を受け取れなくなります。

II. 核心となる解決策:「境界」をトレーニングのエントリポイントとして活用
Polarは、実行フレームワークの書き換えを不要にします。その代わりに、モデルAPIの境界をトレーニングのエントリポイントとして扱います。
ブラックボックス処理:Polarは、コード実行フレームワークとモデル推論サーバーの間に透過的なプロキシ(Gateway)を配置します。エージェントがAnthropic、OpenAI、GoogleのいずれのAPIを使用しているかに関わらず、Polarはリクエストをシームレスにインターセプトして転送します。
トレースの再構築:転送中に、Polarはプロンプト、サンプリングされたトークン、ログ確率などの主要なデータをリアルタイムで記録し、強化学習トレーナーが必要とする「トレース」データとして再構築します。
効率的な非同期アーキテクチャ:システムはスケジューリングと永続化にロールアウトサーバーを採用し、ゲートウェイノードがライフサイクルとリソースのリサイクルを管理します。プリヒートされたバッファ(READYバッファ)と並列タスク処理を活用することで、GPUトレーニングをブロックする可能性のあるロングテールタスクを効果的に排除します。
III. 性能の飛躍:コードエージェントの変革
実験データによると、PolarをGRPOトレーニングと組み合わせることで、大幅な性能向上が得られることが示されています:
SWE-Benchによる検証済みベンチマークテスト:同じQwen3.5-4Bベースモデルを使用した場合、パフォーマンスはコードフレームワークによって異なります:
Codexフレームワーク:pass@1スコアが3.8%から26.4%へと跳ね上がり、594.74%の急増を記録しました。
Claude Code Framework:29.8%から34.6%へ。
Pi Framework:34.2%から40.4%へ。
極めて高い効率性:prefix_merging戦略を導入した結果、従来のリクエストごとのモードと比較してトレーニングの実行時間が約5.39倍短縮され、GPU利用率は20.4%から87.7%に上昇しました。
業界のコメント
NVIDIAのPolarのオープンソース化は、本質的にAIエージェントが強化学習のトレーニングに参入するための「高速道路」を構築するものです。これにより、研究者は大規模なオープンソースコードフレームワークを活用して効率的にトレーニングを行えるようになるだけでなく、システムレベルの最適化を通じてGPUコンピューティングの参入障壁も低減されます。
Polarの人気が高まるにつれ、開発者はもはや「モデルをトレーニングフレームワークにどう適応させるか」を心配する必要がなくなります。将来的には、AIコーディングエージェントの進化はより標準化され、効率的になるでしょう。これは、AIエージェントのトレーニングが、手作業によるラボでのチューニングから、大規模かつ体系的なエンジニアリング生産へと移行することを意味します。
論文URL: https://arxiv.org/pdf/2605.24220
関連記事
Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した
人工知能(AI)が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(
関連特集おすすめ
コメント (0)
0/500
5月28日、NVIDIAの研究チームは、強化学習トレーニングフレームワーク「Polar」をオープンソース化しました。その中核となる革新性は、Codex、Claude Code、Qwen Codeといった既存の主流なコードエージェントを、元のコードに変更を加えることなく、GRPO(Generalized Relative Policy Optimization)強化学習トレーニングにシームレスに統合できる点にあります。

I. 業界の課題:エージェント強化学習の障壁
コードエージェントが、単純な単一ステップのタスクから、倉庫レベルのコード変更やOSとの連携といった複雑で長時間実行されるプロセスへと進化するにつれ、開発者は成熟した実行フレームワーク(Harness)への依存度を高めています。しかし、これらの複雑なフレームワークを従来の強化学習インフラに統合するには、大きな課題が伴います:
高い統合コスト:従来の方法では、コードロジックを env.init() や env.step() といった標準的な環境インターフェースに書き換える必要があり、このプロセスは極めて煩雑です。
情報の喪失:リファクタリングの際、ツール呼び出し、複数ターンにわたる対話コンテキスト、サブエージェント間の協調ロジックといった重要な詳細が失われることが多く、その結果、モデルが高品質なトレーニング信号を受け取れなくなります。

II. 核心となる解決策:「境界」をトレーニングのエントリポイントとして活用
Polarは、実行フレームワークの書き換えを不要にします。その代わりに、モデルAPIの境界をトレーニングのエントリポイントとして扱います。
ブラックボックス処理:Polarは、コード実行フレームワークとモデル推論サーバーの間に透過的なプロキシ(Gateway)を配置します。エージェントがAnthropic、OpenAI、GoogleのいずれのAPIを使用しているかに関わらず、Polarはリクエストをシームレスにインターセプトして転送します。
トレースの再構築:転送中に、Polarはプロンプト、サンプリングされたトークン、ログ確率などの主要なデータをリアルタイムで記録し、強化学習トレーナーが必要とする「トレース」データとして再構築します。
効率的な非同期アーキテクチャ:システムはスケジューリングと永続化にロールアウトサーバーを採用し、ゲートウェイノードがライフサイクルとリソースのリサイクルを管理します。プリヒートされたバッファ(READYバッファ)と並列タスク処理を活用することで、GPUトレーニングをブロックする可能性のあるロングテールタスクを効果的に排除します。
III. 性能の飛躍:コードエージェントの変革
実験データによると、PolarをGRPOトレーニングと組み合わせることで、大幅な性能向上が得られることが示されています:
SWE-Benchによる検証済みベンチマークテスト:同じQwen3.5-4Bベースモデルを使用した場合、パフォーマンスはコードフレームワークによって異なります:
Codexフレームワーク:pass@1スコアが3.8%から26.4%へと跳ね上がり、594.74%の急増を記録しました。
Claude Code Framework:29.8%から34.6%へ。
Pi Framework:34.2%から40.4%へ。
極めて高い効率性:prefix_merging戦略を導入した結果、従来のリクエストごとのモードと比較してトレーニングの実行時間が約5.39倍短縮され、GPU利用率は20.4%から87.7%に上昇しました。
業界のコメント
NVIDIAのPolarのオープンソース化は、本質的にAIエージェントが強化学習のトレーニングに参入するための「高速道路」を構築するものです。これにより、研究者は大規模なオープンソースコードフレームワークを活用して効率的にトレーニングを行えるようになるだけでなく、システムレベルの最適化を通じてGPUコンピューティングの参入障壁も低減されます。
Polarの人気が高まるにつれ、開発者はもはや「モデルをトレーニングフレームワークにどう適応させるか」を心配する必要がなくなります。将来的には、AIコーディングエージェントの進化はより標準化され、効率的になるでしょう。これは、AIエージェントのトレーニングが、手作業によるラボでのチューニングから、大規模かつ体系的なエンジニアリング生産へと移行することを意味します。
論文URL: https://arxiv.org/pdf/2605.24220
Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した
人工知能(AI)が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(





家






