オプション
ニュース
元DeepseekerとCollaboratorsは、信頼できるAIエージェントをトレーニングするための新しい方法をリリースします:Ragen

元DeepseekerとCollaboratorsは、信頼できるAIエージェントをトレーニングするための新しい方法をリリースします:Ragen

2025年5月4日
109

元DeepseekerとCollaboratorsは、信頼できるAIエージェントをトレーニングするための新しい方法をリリースします:Ragen

AIエージェントの年:2025年の期待と現実を詳しく見る

多くの専門家が2025年を、OpenAI、Anthropic、Google、DeepSeekなどの企業による先進的な大規模言語モデルやマルチモーダルモデルによって駆動される特殊なAIシステムであるAIエージェントが、ついに中心的な役割を果たす年として歓迎していました。しかし、ソーシャルネットワークXでの最近のVentureBeatの世論調査によると、ほとんどのAIエージェントはまだ実験段階にとどまり、企業内での一種の中間状態に閉じ込められています。

しかし、希望の光が見えてきています。ノースウェスタン大学、マイクロソフト、スタンフォード大学、ワシントン大学の研究者たちによる共同研究、元DeepSeek研究者で現在ノースウェスタン大学でコンピュータサイエンスの博士号を取得中のZihan Wangを含むチームが、RAGENを導入しました。この新しいシステムは、AIエージェントを訓練し評価することで、実世界や企業での使用においてより信頼性と適応性を高めることを目指しています。

RAGEN:AIエージェント訓練の新しいアプローチ

数学問題の解決やコード生成といった静的なタスクとは異なり、RAGENはエージェントが適応し、記憶し、不確実性の中で推論する必要がある動的なマルチターン相互作用に焦点を当てています。このシステムは、StarPO(State-Thinking-Actions-Reward Policy Optimization)と呼ばれるカスタム強化学習(RL)フレームワークに基づいて構築されており、単なる暗記ではなく経験を通じた学習を重視します。StarPOは、単一のステップ応答だけでなく、意思決定のシーケンス全体を考慮します。

StarPOは2つのフェーズで動作します。LLMが推論によって導かれる完全な相互作用シーケンスを生成するロールアウト段階と、モデルが正規化された累積報酬を使用して最適化される更新段階です。このアプローチは、従来のポリシー最適化方法と比較して、より安定した解釈可能な学習ループを提供します。

研究者たちは、AlibabaのQwenモデル、具体的にはQwen 1.5およびQwen 2.5の微調整版を使用してこのフレームワークをテストしました。これらはオープンウェイトと強力な指示追従能力が選択理由で、シンボリックタスク間での再現性と一貫したベースライン比較を容易にしました。

エコートラップ:強化学習の課題

Zihan Wangは、広く共有されたXのスレッドで、RL訓練における重大な問題を強調しました:「なぜあなたのRL訓練は常に崩壊するのか?」チームは、LLMエージェントが最初は適切に推論された応答を生成する一方で、RLシステムがショートカットを報酬として与えるため、繰り返し行動がパフォーマンスを低下させる現象、すなわち「エコートラップ」を特定しました。

この退行は、特定のフレーズや戦略が早期に高い報酬を得ることで、過度に使用され、探索が抑制されるフィードバックループによって引き起こされます。症状は明らかです:報酬の分散の急落、勾配の急上昇、そして推論の痕跡の消失です。

RAGENのテスト環境

これらの行動を制御された環境で研究するため、RAGENは3つのシンボリック環境でエージェントを評価します:

  • Bandit: シンボリックなリスクと報酬の推論をテストするシングルターンの確率的タスク。
  • Sokoban: 不可逆的な決定を含むマルチターンの決定論的パズル。
  • Frozen Lake: 適応的な計画が必要な確率的マルチターンタスク。

各環境は、実世界の事前知識を最小限に抑え、訓練中に開発された意思決定戦略にのみ焦点を当てるように設計されています。たとえば、Bandit環境では、エージェントは異なる報酬分布を表すDragonとPhoenixのアームについてシンボリックに推論し、「強さ」と「希望」として解釈して結果を予測する必要があります。

StarPO-Sによる強化学習の安定化

訓練崩壊に対抗するため、研究者たちはオリジナルのフレームワークの安定化バージョンであるStarPO-Sを導入しました。StarPO-Sには3つの主要な介入が含まれます:

  1. 不確実性ベースのロールアウトフィルタリング: エージェントが結果の不確実性を示すロールアウトを優先します。
  2. KLペナルティの削除: モデルが元のポリシーからより自由に逸脱し、新しい行動を探索できるようにします。
  3. 非対称PPOクリッピング: 高報酬の軌跡を低報酬のものよりも増幅して学習を強化します。

これらの変更は、訓練崩壊を遅らせたり排除したりし、3つのタスクすべてでパフォーマンスを向上させます。Wangが述べたように、「StarPO-S…は3つのタスクすべてで機能します。崩壊を緩和し、より高い報酬を得ます。」

優れたエージェントAIモデルとは何か?

RL訓練の成功は、アーキテクチャだけでなく、エージェントが生成するデータの品質にも依存します。チームは、訓練に大きな影響を与える3つの重要な次元を特定しました:

  • タスクの多様性: モデルを多様な初期シナリオにさらすことで、一般化が向上します。
  • 相互作用の粒度: ターンごとの複数のアクションを許可することで、より意味のある計画が可能になります。
  • ロールアウトの新鮮さ: 訓練データを現在のモデルポリシーに合わせることで、時代遅れの学習シグナルを回避します。

これらの要因は、より安定かつ効果的な訓練プロセスに貢献します。Github上のインタラクティブなデモサイトは、エージェントのロールアウトを完全な対話ターンとして視覚化し、アクションだけでなくその前のステップごとの思考プロセスも含みます。たとえば、数学問題を解く際、エージェントはまず変数を分離することを「考える」かもしれず、その後に「x = 5」といった答えを提出します。これらの中間的な思考は可視化され、追跡可能であり、エージェントの意思決定の透明性を高めます。

推論が尽きるとき

明示的な推論は、Banditのようなシンプルなシングルターンタスクではパフォーマンスを向上させますが、マルチターン訓練中には衰退する傾向があります。構造化されたプロンプトやトークンを使用しても、推論の痕跡は直接報酬が与えられない限り縮小または消滅します。これは、報酬が通常どのように設計されているかの限界を浮き彫りにします:タスクの完了に焦点を当てることは、その背後にあるプロセスの質を無視する可能性があります。チームは、より構造化された推論を奨励するためにフォーマットベースのペナルティを試みましたが、より洗練された報酬形成が必要であると認めています。

オープンなツールと将来の方向性

RAGENとそのStarPOおよびStarPO-Sフレームワークは、https://github.com/RAGEN-AI/RAGENでオープンソースプロジェクトとして利用可能です。しかし、執筆時点では、GitHubリポジトリに明示的なライセンスが記載されておらず、これが他者による使用や再配布を制限する可能性があります。

このシステムは、タスクを完了するだけでなく、思考し、計画し、進化するAIエージェントを開発することに関心のある人々にとって貴重な基盤を提供します。AIがより高い自律性に向かう中、RAGENのようなプロジェクトは、モデルが自身の行動の結果から学ぶために必要なものを明らかにするのに役立ちます。

実世界の企業導入における未解決の質問

RAGENの論文は詳細な技術的ロードマップを提供していますが、企業環境でこれらの方法を適用しようとする人々にはいくつかの実際的な質問が残されています。たとえば、RAGENのアプローチは、様式化されたシンボリックタスクを超えてどの程度転用可能でしょうか?企業は、請求書処理やカスタマーサポートのようなワークフローでこのシステムを使用するために、完全に新しい環境や報酬関数を設計する必要があるでしょうか?

Wangは、VentureBeatへのXのダイレクトメッセージで、タスクの多様性を向上させることで助けになると示唆しました。現在のゲームタスクは類似したグリッド表現しか持たず、セマンティック情報が不足しているためです。彼はまた、企業がRAGENを使用して独自のAIエージェント訓練演習を設計することに楽観的で、GitHubリンクが新しい環境を追加する簡単な紹介を提供していると述べました。

もう一つの重要な領域はスケーラビリティです。StarPO-Sの改良にもかかわらず、論文は訓練が長期間にわたって最終的に崩壊することを認めています。これは、理論的または実際的に、オープンエンドまたは継続的に進化するタスクシーケンスで推論を維持する道があるかという疑問を投げかけます。

執筆時点で、RAGENのGitHubリポジトリやドキュメントには明示的なライセンスが記載されておらず、使用権に関する疑問が残されています。それでも、RAGENは技術的貢献だけでなく、より自律的で推論能力のあるAIエージェントに向けた概念的ステップとして際立っています。それが企業AIスタックの一部になるかどうかはまだわかりませんが、エージェント学習ダイナミクスに関するその洞察は、すでにLLM訓練の最前線を再定義するのに役立っています。

関連記事
トップAI研究所は、人類はAIシステムを理解する力を失いつつあると警告する トップAI研究所は、人類はAIシステムを理解する力を失いつつあると警告する OpenAI、Google DeepMind、Anthropic、Metaの研究者は、前例のない団結を示し、競争上の相違を脇に置いて、責任あるAI開発について集団で警告を発した。これらの通常ライバル関係にある組織から40人以上の一流の科学者が、AIの意思決定プロセスの透明性を確保するための窓が急速に狭まっていることを強調する画期的な研究論文を共同執筆した。この共同研究は、現代のAIシステムにおける
AnthropicのAIアップグレード:クロードがグーグルのワークスペース全体を瞬時に検索するようになった AnthropicのAIアップグレード:クロードがグーグルのワークスペース全体を瞬時に検索するようになった Anthropicの本日のメジャーアップグレードは、ClaudeをAIアシスタントから同社が「真のバーチャルコラボレーター」と呼ぶものへと変貌させ、画期的な自律的研究機能とシームレスなGoogle Workspace統合を導入しました。これらの進化により、クロードはますます混雑する企業向けAI生産性分野において、OpenAIやマイクロソフトに対抗する強力な競争相手となる。新しいリサーチ大国自律的な
アリババの「ZeroSearch」AI、自律学習でトレーニングコストを88%削減 アリババの「ZeroSearch」AI、自律学習でトレーニングコストを88%削減 アリババのゼロサーチ:AIの学習効率に変革をもたらすアリババグループの研究者は、AIシステムが情報検索を学習する方法に革命を起こす可能性のある画期的な方法を開拓し、コストのかかる商用検索エンジンAPIを完全に回避した。彼らのZeroSearchテクノロジーは、大規模な言語モデルが、トレーニング段階において、従来の検索エンジンとのやりとりの代わりに、シミュレートされた環境を通して洗練された検索能力を
コメント (7)
0/200
ScottEvans
ScottEvans 2025年8月13日 20:00:59 JST

RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!

JimmyRamirez
JimmyRamirez 2025年7月23日 13:59:29 JST

This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

RalphWalker
RalphWalker 2025年5月6日 16:48:04 JST

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

NicholasAdams
NicholasAdams 2025年5月6日 7:45:54 JST

RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀

EricLewis
EricLewis 2025年5月5日 12:45:04 JST

RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀

GeorgeTaylor
GeorgeTaylor 2025年5月5日 5:00:48 JST

RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀

トップに戻ります
OR