元DeepseekerとCollaboratorsは、信頼できるAIエージェントをトレーニングするための新しい方法をリリースします:Ragen

AIエージェントの年:2025年の期待と現実を詳しく見る
多くの専門家が2025年を、OpenAI、Anthropic、Google、DeepSeekなどの企業による先進的な大規模言語モデルやマルチモーダルモデルによって駆動される特殊なAIシステムであるAIエージェントが、ついに中心的な役割を果たす年として歓迎していました。しかし、ソーシャルネットワークXでの最近のVentureBeatの世論調査によると、ほとんどのAIエージェントはまだ実験段階にとどまり、企業内での一種の中間状態に閉じ込められています。
しかし、希望の光が見えてきています。ノースウェスタン大学、マイクロソフト、スタンフォード大学、ワシントン大学の研究者たちによる共同研究、元DeepSeek研究者で現在ノースウェスタン大学でコンピュータサイエンスの博士号を取得中のZihan Wangを含むチームが、RAGENを導入しました。この新しいシステムは、AIエージェントを訓練し評価することで、実世界や企業での使用においてより信頼性と適応性を高めることを目指しています。
RAGEN:AIエージェント訓練の新しいアプローチ
数学問題の解決やコード生成といった静的なタスクとは異なり、RAGENはエージェントが適応し、記憶し、不確実性の中で推論する必要がある動的なマルチターン相互作用に焦点を当てています。このシステムは、StarPO(State-Thinking-Actions-Reward Policy Optimization)と呼ばれるカスタム強化学習(RL)フレームワークに基づいて構築されており、単なる暗記ではなく経験を通じた学習を重視します。StarPOは、単一のステップ応答だけでなく、意思決定のシーケンス全体を考慮します。
StarPOは2つのフェーズで動作します。LLMが推論によって導かれる完全な相互作用シーケンスを生成するロールアウト段階と、モデルが正規化された累積報酬を使用して最適化される更新段階です。このアプローチは、従来のポリシー最適化方法と比較して、より安定した解釈可能な学習ループを提供します。
研究者たちは、AlibabaのQwenモデル、具体的にはQwen 1.5およびQwen 2.5の微調整版を使用してこのフレームワークをテストしました。これらはオープンウェイトと強力な指示追従能力が選択理由で、シンボリックタスク間での再現性と一貫したベースライン比較を容易にしました。
エコートラップ:強化学習の課題
Zihan Wangは、広く共有されたXのスレッドで、RL訓練における重大な問題を強調しました:「なぜあなたのRL訓練は常に崩壊するのか?」チームは、LLMエージェントが最初は適切に推論された応答を生成する一方で、RLシステムがショートカットを報酬として与えるため、繰り返し行動がパフォーマンスを低下させる現象、すなわち「エコートラップ」を特定しました。
この退行は、特定のフレーズや戦略が早期に高い報酬を得ることで、過度に使用され、探索が抑制されるフィードバックループによって引き起こされます。症状は明らかです:報酬の分散の急落、勾配の急上昇、そして推論の痕跡の消失です。
RAGENのテスト環境
これらの行動を制御された環境で研究するため、RAGENは3つのシンボリック環境でエージェントを評価します:
- Bandit: シンボリックなリスクと報酬の推論をテストするシングルターンの確率的タスク。
- Sokoban: 不可逆的な決定を含むマルチターンの決定論的パズル。
- Frozen Lake: 適応的な計画が必要な確率的マルチターンタスク。
各環境は、実世界の事前知識を最小限に抑え、訓練中に開発された意思決定戦略にのみ焦点を当てるように設計されています。たとえば、Bandit環境では、エージェントは異なる報酬分布を表すDragonとPhoenixのアームについてシンボリックに推論し、「強さ」と「希望」として解釈して結果を予測する必要があります。
StarPO-Sによる強化学習の安定化
訓練崩壊に対抗するため、研究者たちはオリジナルのフレームワークの安定化バージョンであるStarPO-Sを導入しました。StarPO-Sには3つの主要な介入が含まれます:
- 不確実性ベースのロールアウトフィルタリング: エージェントが結果の不確実性を示すロールアウトを優先します。
- KLペナルティの削除: モデルが元のポリシーからより自由に逸脱し、新しい行動を探索できるようにします。
- 非対称PPOクリッピング: 高報酬の軌跡を低報酬のものよりも増幅して学習を強化します。
これらの変更は、訓練崩壊を遅らせたり排除したりし、3つのタスクすべてでパフォーマンスを向上させます。Wangが述べたように、「StarPO-S…は3つのタスクすべてで機能します。崩壊を緩和し、より高い報酬を得ます。」
優れたエージェントAIモデルとは何か?
RL訓練の成功は、アーキテクチャだけでなく、エージェントが生成するデータの品質にも依存します。チームは、訓練に大きな影響を与える3つの重要な次元を特定しました:
- タスクの多様性: モデルを多様な初期シナリオにさらすことで、一般化が向上します。
- 相互作用の粒度: ターンごとの複数のアクションを許可することで、より意味のある計画が可能になります。
- ロールアウトの新鮮さ: 訓練データを現在のモデルポリシーに合わせることで、時代遅れの学習シグナルを回避します。
これらの要因は、より安定かつ効果的な訓練プロセスに貢献します。Github上のインタラクティブなデモサイトは、エージェントのロールアウトを完全な対話ターンとして視覚化し、アクションだけでなくその前のステップごとの思考プロセスも含みます。たとえば、数学問題を解く際、エージェントはまず変数を分離することを「考える」かもしれず、その後に「x = 5」といった答えを提出します。これらの中間的な思考は可視化され、追跡可能であり、エージェントの意思決定の透明性を高めます。
推論が尽きるとき
明示的な推論は、Banditのようなシンプルなシングルターンタスクではパフォーマンスを向上させますが、マルチターン訓練中には衰退する傾向があります。構造化されたプロンプトやトークンを使用しても、推論の痕跡は直接報酬が与えられない限り縮小または消滅します。これは、報酬が通常どのように設計されているかの限界を浮き彫りにします:タスクの完了に焦点を当てることは、その背後にあるプロセスの質を無視する可能性があります。チームは、より構造化された推論を奨励するためにフォーマットベースのペナルティを試みましたが、より洗練された報酬形成が必要であると認めています。
オープンなツールと将来の方向性
RAGENとそのStarPOおよびStarPO-Sフレームワークは、https://github.com/RAGEN-AI/RAGENでオープンソースプロジェクトとして利用可能です。しかし、執筆時点では、GitHubリポジトリに明示的なライセンスが記載されておらず、これが他者による使用や再配布を制限する可能性があります。
このシステムは、タスクを完了するだけでなく、思考し、計画し、進化するAIエージェントを開発することに関心のある人々にとって貴重な基盤を提供します。AIがより高い自律性に向かう中、RAGENのようなプロジェクトは、モデルが自身の行動の結果から学ぶために必要なものを明らかにするのに役立ちます。
実世界の企業導入における未解決の質問
RAGENの論文は詳細な技術的ロードマップを提供していますが、企業環境でこれらの方法を適用しようとする人々にはいくつかの実際的な質問が残されています。たとえば、RAGENのアプローチは、様式化されたシンボリックタスクを超えてどの程度転用可能でしょうか?企業は、請求書処理やカスタマーサポートのようなワークフローでこのシステムを使用するために、完全に新しい環境や報酬関数を設計する必要があるでしょうか?
Wangは、VentureBeatへのXのダイレクトメッセージで、タスクの多様性を向上させることで助けになると示唆しました。現在のゲームタスクは類似したグリッド表現しか持たず、セマンティック情報が不足しているためです。彼はまた、企業がRAGENを使用して独自のAIエージェント訓練演習を設計することに楽観的で、GitHubリンクが新しい環境を追加する簡単な紹介を提供していると述べました。
もう一つの重要な領域はスケーラビリティです。StarPO-Sの改良にもかかわらず、論文は訓練が長期間にわたって最終的に崩壊することを認めています。これは、理論的または実際的に、オープンエンドまたは継続的に進化するタスクシーケンスで推論を維持する道があるかという疑問を投げかけます。
執筆時点で、RAGENのGitHubリポジトリやドキュメントには明示的なライセンスが記載されておらず、使用権に関する疑問が残されています。それでも、RAGENは技術的貢献だけでなく、より自律的で推論能力のあるAIエージェントに向けた概念的ステップとして際立っています。それが企業AIスタックの一部になるかどうかはまだわかりませんが、エージェント学習ダイナミクスに関するその洞察は、すでにLLM訓練の最前線を再定義するのに役立っています。
関連記事
DeepSeek、Frontier Systemsに匹敵するAIモデルを発表
中国のAI研究所DeepSeekは、最新の大型言語モデル「DeepSeek V4」のプレビュー版2種類を公開した。これは、昨年リリースされたV3.2モデルおよび、AIコミュニティに大きな影響を与えた付随する推論モデル「R1」に対する、待望のアップデートとなる。同社によると、「DeepSeek V4 Flash」と「V4 Pro」はいずれもミクスチャー・オブ・エキスパート(MOE)モデルであり、それ
マルチバース・コンピューティング、無料圧縮生成AIモデルを発表
大規模言語モデルは重大な課題に直面している:その膨大なサイズである。スペインのスタートアップMultiverse Computingは、最先端AIの能力と企業が実用的に導入できる範囲とのギャップを埋めるべく設計された圧縮モデルを開発することでこの問題に取り組んでいる。同社の革新的な技術「CompactifAI」は量子コンピューティング原理に着想を得た圧縮技術であり、バスク地方のこの企業はOpenA
AIがニュースコンテンツに潜む隠された意図を明らかにする
ChatGPTスタイルのモデルは現在、ニュース記事の根底にある視点を解明するよう訓練されている——たとえその視点が引用文やフレームワーク、あるいは(時に不誠実な)中立性の覆いの下に隠されていても。見出し、リード文、引用文といったセグメントに記事を分割することで、新たなシステムは長文のプロフェッショナルなジャーナリズムにおいても偏りを識別することを学習する。 執筆者や発言者の真の立場を把握する能力—
関連特集おすすめ
コメント (10)
0/500
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

AIエージェントの年:2025年の期待と現実を詳しく見る
多くの専門家が2025年を、OpenAI、Anthropic、Google、DeepSeekなどの企業による先進的な大規模言語モデルやマルチモーダルモデルによって駆動される特殊なAIシステムであるAIエージェントが、ついに中心的な役割を果たす年として歓迎していました。しかし、ソーシャルネットワークXでの最近のVentureBeatの世論調査によると、ほとんどのAIエージェントはまだ実験段階にとどまり、企業内での一種の中間状態に閉じ込められています。
しかし、希望の光が見えてきています。ノースウェスタン大学、マイクロソフト、スタンフォード大学、ワシントン大学の研究者たちによる共同研究、元DeepSeek研究者で現在ノースウェスタン大学でコンピュータサイエンスの博士号を取得中のZihan Wangを含むチームが、RAGENを導入しました。この新しいシステムは、AIエージェントを訓練し評価することで、実世界や企業での使用においてより信頼性と適応性を高めることを目指しています。
RAGEN:AIエージェント訓練の新しいアプローチ
数学問題の解決やコード生成といった静的なタスクとは異なり、RAGENはエージェントが適応し、記憶し、不確実性の中で推論する必要がある動的なマルチターン相互作用に焦点を当てています。このシステムは、StarPO(State-Thinking-Actions-Reward Policy Optimization)と呼ばれるカスタム強化学習(RL)フレームワークに基づいて構築されており、単なる暗記ではなく経験を通じた学習を重視します。StarPOは、単一のステップ応答だけでなく、意思決定のシーケンス全体を考慮します。
StarPOは2つのフェーズで動作します。LLMが推論によって導かれる完全な相互作用シーケンスを生成するロールアウト段階と、モデルが正規化された累積報酬を使用して最適化される更新段階です。このアプローチは、従来のポリシー最適化方法と比較して、より安定した解釈可能な学習ループを提供します。
研究者たちは、AlibabaのQwenモデル、具体的にはQwen 1.5およびQwen 2.5の微調整版を使用してこのフレームワークをテストしました。これらはオープンウェイトと強力な指示追従能力が選択理由で、シンボリックタスク間での再現性と一貫したベースライン比較を容易にしました。
エコートラップ:強化学習の課題
Zihan Wangは、広く共有されたXのスレッドで、RL訓練における重大な問題を強調しました:「なぜあなたのRL訓練は常に崩壊するのか?」チームは、LLMエージェントが最初は適切に推論された応答を生成する一方で、RLシステムがショートカットを報酬として与えるため、繰り返し行動がパフォーマンスを低下させる現象、すなわち「エコートラップ」を特定しました。
この退行は、特定のフレーズや戦略が早期に高い報酬を得ることで、過度に使用され、探索が抑制されるフィードバックループによって引き起こされます。症状は明らかです:報酬の分散の急落、勾配の急上昇、そして推論の痕跡の消失です。
RAGENのテスト環境
これらの行動を制御された環境で研究するため、RAGENは3つのシンボリック環境でエージェントを評価します:
- Bandit: シンボリックなリスクと報酬の推論をテストするシングルターンの確率的タスク。
- Sokoban: 不可逆的な決定を含むマルチターンの決定論的パズル。
- Frozen Lake: 適応的な計画が必要な確率的マルチターンタスク。
各環境は、実世界の事前知識を最小限に抑え、訓練中に開発された意思決定戦略にのみ焦点を当てるように設計されています。たとえば、Bandit環境では、エージェントは異なる報酬分布を表すDragonとPhoenixのアームについてシンボリックに推論し、「強さ」と「希望」として解釈して結果を予測する必要があります。
StarPO-Sによる強化学習の安定化
訓練崩壊に対抗するため、研究者たちはオリジナルのフレームワークの安定化バージョンであるStarPO-Sを導入しました。StarPO-Sには3つの主要な介入が含まれます:
- 不確実性ベースのロールアウトフィルタリング: エージェントが結果の不確実性を示すロールアウトを優先します。
- KLペナルティの削除: モデルが元のポリシーからより自由に逸脱し、新しい行動を探索できるようにします。
- 非対称PPOクリッピング: 高報酬の軌跡を低報酬のものよりも増幅して学習を強化します。
これらの変更は、訓練崩壊を遅らせたり排除したりし、3つのタスクすべてでパフォーマンスを向上させます。Wangが述べたように、「StarPO-S…は3つのタスクすべてで機能します。崩壊を緩和し、より高い報酬を得ます。」
優れたエージェントAIモデルとは何か?
RL訓練の成功は、アーキテクチャだけでなく、エージェントが生成するデータの品質にも依存します。チームは、訓練に大きな影響を与える3つの重要な次元を特定しました:
- タスクの多様性: モデルを多様な初期シナリオにさらすことで、一般化が向上します。
- 相互作用の粒度: ターンごとの複数のアクションを許可することで、より意味のある計画が可能になります。
- ロールアウトの新鮮さ: 訓練データを現在のモデルポリシーに合わせることで、時代遅れの学習シグナルを回避します。
これらの要因は、より安定かつ効果的な訓練プロセスに貢献します。Github上のインタラクティブなデモサイトは、エージェントのロールアウトを完全な対話ターンとして視覚化し、アクションだけでなくその前のステップごとの思考プロセスも含みます。たとえば、数学問題を解く際、エージェントはまず変数を分離することを「考える」かもしれず、その後に「x = 5」といった答えを提出します。これらの中間的な思考は可視化され、追跡可能であり、エージェントの意思決定の透明性を高めます。
推論が尽きるとき
明示的な推論は、Banditのようなシンプルなシングルターンタスクではパフォーマンスを向上させますが、マルチターン訓練中には衰退する傾向があります。構造化されたプロンプトやトークンを使用しても、推論の痕跡は直接報酬が与えられない限り縮小または消滅します。これは、報酬が通常どのように設計されているかの限界を浮き彫りにします:タスクの完了に焦点を当てることは、その背後にあるプロセスの質を無視する可能性があります。チームは、より構造化された推論を奨励するためにフォーマットベースのペナルティを試みましたが、より洗練された報酬形成が必要であると認めています。
オープンなツールと将来の方向性
RAGENとそのStarPOおよびStarPO-Sフレームワークは、https://github.com/RAGEN-AI/RAGENでオープンソースプロジェクトとして利用可能です。しかし、執筆時点では、GitHubリポジトリに明示的なライセンスが記載されておらず、これが他者による使用や再配布を制限する可能性があります。
このシステムは、タスクを完了するだけでなく、思考し、計画し、進化するAIエージェントを開発することに関心のある人々にとって貴重な基盤を提供します。AIがより高い自律性に向かう中、RAGENのようなプロジェクトは、モデルが自身の行動の結果から学ぶために必要なものを明らかにするのに役立ちます。
実世界の企業導入における未解決の質問
RAGENの論文は詳細な技術的ロードマップを提供していますが、企業環境でこれらの方法を適用しようとする人々にはいくつかの実際的な質問が残されています。たとえば、RAGENのアプローチは、様式化されたシンボリックタスクを超えてどの程度転用可能でしょうか?企業は、請求書処理やカスタマーサポートのようなワークフローでこのシステムを使用するために、完全に新しい環境や報酬関数を設計する必要があるでしょうか?
Wangは、VentureBeatへのXのダイレクトメッセージで、タスクの多様性を向上させることで助けになると示唆しました。現在のゲームタスクは類似したグリッド表現しか持たず、セマンティック情報が不足しているためです。彼はまた、企業がRAGENを使用して独自のAIエージェント訓練演習を設計することに楽観的で、GitHubリンクが新しい環境を追加する簡単な紹介を提供していると述べました。
もう一つの重要な領域はスケーラビリティです。StarPO-Sの改良にもかかわらず、論文は訓練が長期間にわたって最終的に崩壊することを認めています。これは、理論的または実際的に、オープンエンドまたは継続的に進化するタスクシーケンスで推論を維持する道があるかという疑問を投げかけます。
執筆時点で、RAGENのGitHubリポジトリやドキュメントには明示的なライセンスが記載されておらず、使用権に関する疑問が残されています。それでも、RAGENは技術的貢献だけでなく、より自律的で推論能力のあるAIエージェントに向けた概念的ステップとして際立っています。それが企業AIスタックの一部になるかどうかはまだわかりませんが、エージェント学習ダイナミクスに関するその洞察は、すでにLLM訓練の最前線を再定義するのに役立っています。
DeepSeek、Frontier Systemsに匹敵するAIモデルを発表
中国のAI研究所DeepSeekは、最新の大型言語モデル「DeepSeek V4」のプレビュー版2種類を公開した。これは、昨年リリースされたV3.2モデルおよび、AIコミュニティに大きな影響を与えた付随する推論モデル「R1」に対する、待望のアップデートとなる。同社によると、「DeepSeek V4 Flash」と「V4 Pro」はいずれもミクスチャー・オブ・エキスパート(MOE)モデルであり、それ
マルチバース・コンピューティング、無料圧縮生成AIモデルを発表
大規模言語モデルは重大な課題に直面している:その膨大なサイズである。スペインのスタートアップMultiverse Computingは、最先端AIの能力と企業が実用的に導入できる範囲とのギャップを埋めるべく設計された圧縮モデルを開発することでこの問題に取り組んでいる。同社の革新的な技術「CompactifAI」は量子コンピューティング原理に着想を得た圧縮技術であり、バスク地方のこの企業はOpenA
AIがニュースコンテンツに潜む隠された意図を明らかにする
ChatGPTスタイルのモデルは現在、ニュース記事の根底にある視点を解明するよう訓練されている——たとえその視点が引用文やフレームワーク、あるいは(時に不誠実な)中立性の覆いの下に隠されていても。見出し、リード文、引用文といったセグメントに記事を分割することで、新たなシステムは長文のプロフェッショナルなジャーナリズムにおいても偏りを識別することを学習する。 執筆者や発言者の真の立場を把握する能力—
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔





家






