NVIDIA、強化学習による障壁のないAIコーディングエージェントの進化を実現する「Polar」フレームワークをオープンソース化

家

ニュース

2026年5月31日

ThomasScott

5月28日、NVIDIAの研究チームは、強化学習トレーニングフレームワーク「Polar」をオープンソース化しました。その中核となる革新性は、Codex、Claude Code、Qwen Codeといった既存の主流なコードエージェントを、元のコードに変更を加えることなく、GRPO（Generalized Relative Policy Optimization）強化学習トレーニングにシームレスに統合できる点にあります。

I. 業界の課題：エージェント強化学習の障壁

コードエージェントが、単純な単一ステップのタスクから、倉庫レベルのコード変更やOSとの連携といった複雑で長時間実行されるプロセスへと進化するにつれ、開発者は成熟した実行フレームワーク（Harness）への依存度を高めています。しかし、これらの複雑なフレームワークを従来の強化学習インフラに統合するには、大きな課題が伴います：

高い統合コスト：従来の方法では、コードロジックを env.init() や env.step() といった標準的な環境インターフェースに書き換える必要があり、このプロセスは極めて煩雑です。

情報の喪失：リファクタリングの際、ツール呼び出し、複数ターンにわたる対話コンテキスト、サブエージェント間の協調ロジックといった重要な詳細が失われることが多く、その結果、モデルが高品質なトレーニング信号を受け取れなくなります。

II. 核心となる解決策：「境界」をトレーニングのエントリポイントとして活用

Polarは、実行フレームワークの書き換えを不要にします。その代わりに、モデルAPIの境界をトレーニングのエントリポイントとして扱います。

ブラックボックス処理：Polarは、コード実行フレームワークとモデル推論サーバーの間に透過的なプロキシ（Gateway）を配置します。エージェントがAnthropic、OpenAI、GoogleのいずれのAPIを使用しているかに関わらず、Polarはリクエストをシームレスにインターセプトして転送します。

トレースの再構築：転送中に、Polarはプロンプト、サンプリングされたトークン、ログ確率などの主要なデータをリアルタイムで記録し、強化学習トレーナーが必要とする「トレース」データとして再構築します。

効率的な非同期アーキテクチャ：システムはスケジューリングと永続化にロールアウトサーバーを採用し、ゲートウェイノードがライフサイクルとリソースのリサイクルを管理します。プリヒートされたバッファ（READYバッファ）と並列タスク処理を活用することで、GPUトレーニングをブロックする可能性のあるロングテールタスクを効果的に排除します。

III. 性能の飛躍：コードエージェントの変革

実験データによると、PolarをGRPOトレーニングと組み合わせることで、大幅な性能向上が得られることが示されています：

SWE-Benchによる検証済みベンチマークテスト：同じQwen3.5-4Bベースモデルを使用した場合、パフォーマンスはコードフレームワークによって異なります：

Codexフレームワーク：pass@1スコアが3.8%から26.4%へと跳ね上がり、594.74%の急増を記録しました。

Claude Code Framework：29.8%から34.6%へ。

Pi Framework：34.2%から40.4%へ。

極めて高い効率性：prefix_merging戦略を導入した結果、従来のリクエストごとのモードと比較してトレーニングの実行時間が約5.39倍短縮され、GPU利用率は20.4%から87.7%に上昇しました。

業界のコメント

NVIDIAのPolarのオープンソース化は、本質的にAIエージェントが強化学習のトレーニングに参入するための「高速道路」を構築するものです。これにより、研究者は大規模なオープンソースコードフレームワークを活用して効率的にトレーニングを行えるようになるだけでなく、システムレベルの最適化を通じてGPUコンピューティングの参入障壁も低減されます。

Polarの人気が高まるにつれ、開発者はもはや「モデルをトレーニングフレームワークにどう適応させるか」を心配する必要がなくなります。将来的には、AIコーディングエージェントの進化はより標準化され、効率的になるでしょう。これは、AIエージェントのトレーニングが、手作業によるラボでのチューニングから、大規模かつ体系的なエンジニアリング生産へと移行することを意味します。

論文URL: https://arxiv.org/pdf/2605.24220

Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した人工知能（AI）が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ

DeepSeek Code、まもなくリリースへ AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek

マスク氏の「Grok」：1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか？イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX（

関連特集おすすめ

仕事

おすすめのAI採用ツール：履歴書の選考と候補者の面接スケジュール管理を自動化

XIX.AIで、2026年最新の評価の高いAI採用ツールをチェックしましょう。厳選されたリストには、履歴書のスクリーニングや候補者の面接スケジュール管理を自動化する、強力で画期的なソリューションが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版の比較が可能です。最適な採用アシスタントを見つけて、今すぐ採用業務を効率化しましょう！

10 ツール

xix.ai

生産性

AIパーソナルウェルネス＆集中力コーチ：バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス＆集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール

xix.ai

チャットボット

高評価のAI恋愛チャットボット：一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール

xix.ai

教育と学習

最高のAIデータサイエンスメンター：SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール

xix.ai

チャットボット

最高のAIを使ったナンパ＆会話トレーニング：社交的な魅力と自信をリアルタイムで高める

XIX.AIで、2026年最高のAIを使った口説き術・会話トレーニングツールを発見しましょう。厳選された高評価のツールが、リアルタイムで社交的な魅力と自信を築くお手伝いをします。無料版と有料版の比較や毎週更新されるランキングを参考に、ぜひ試すべき画期的なツールを探してみてください。今すぐ、あなたの社交力を引き出しましょう。

10 ツール

xix.ai

コード

自動化ユニットテストに最適なAIツール：ワンクリックでJest、PyTest、JUnitのテストケースを生成する

2026年に登場した、自動化ユニットテスト用の最高評価を受けたAIツールを発見してください。当社が厳選したこれらのツールは、Jest、PyTest、JUnitのテストケースを瞬時に生成するための強力で革新的なソリューションです。XIX.AIでは、無料オプションと有料オプションを実際のテストデータと共に比較し、毎週更新されるランキングもご覧いただけます。今すぐAIの力を活用して、開発生産性を向上させましょう。

10 ツール

xix.ai