元DeepseekerとCollaboratorsは、信頼できるAIエージェントをトレーニングするための新しい方法をリリースします:Ragen

AIエージェントの年:2025の期待と現実を詳しく見る
2025年は、AIエージェント(Openai、Anthropic、Google、Deepseekなどの企業の高度な大手言語とマルチモーダルモデルを搭載した専門化されたAIシステム)が最終的に中心的なステージに登場する年として、多くの専門家に告げられました。ただし、ソーシャルネットワークXに関する最近のベンチャービートの世論調査によると、ほとんどのAIエージェントは、ある種の企業の範囲に巻き込まれた実験段階でまだ苦しんでいます。
しかし、地平線にはかすかな希望があります。ノースウェスタン大学、スタンフォード州マイクロソフト、ワシントン大学を含むワシントン大学を含むワシントン大学の研究者からの共同作業は、現在ノースウェスタンでコンピューターサイエンスの博士号を取得しているDeepseekの研究者であるRagenを導入しました。この新しいシステムは、AIエージェントをトレーニングおよび評価して、実際のエンタープライズの使用に対してより信頼性と適応性を高めることを目的としています。
Ragen:AIエージェントのトレーニングへの新しいアプローチ
数学解決やコード生成などの静的タスクとは異なり、Ragenは、不確実性の中でエージェントが適応、覚え、推論する必要がある動的なマルチターン相互作用に焦点を当てています。このシステムは、Starpo(State-Thinking-actions-Rewardポリシーの最適化)と呼ばれるカスタム強化学習(RL)フレームワークに基づいて構築されており、暗記ではなく経験を通じて学習を強調しています。 Starpoは、単一ステップの応答だけでなく、意思決定シーケンス全体を調べます。
STARPOは2つのフェーズで動作します。LLMが推論によってガイドされた完全なインタラクションシーケンスを生成するロールアウトステージと、正規化された累積報酬を使用してモデルが最適化される更新段階です。このアプローチは、従来の政策最適化方法と比較して、より安定した解釈可能な学習ループを提供します。
研究者たちは、AlibabaのQwenモデルの微調整バージョン、特にQwen 1.5とQwen 2.5の微調整されたバージョンを使用して、オープンウェイトと強力な指導中の能力のために選択されたこのフレームワークをテストしました。この選択により、象徴的なタスク全体で再現性と一貫したベースライン比較が促進されました。
エコートラップ:強化学習の課題
Zihan Wangは、広く共有されたXスレッドでのRLトレーニングにおける重要な問題を強調しました。 * RLトレーニングは常に崩壊するのか?
この回帰は、特定のフレーズまたは戦略が早い段階で高い報酬を獲得し、過剰使用と息苦しい探査を促進するフィードバックループによって促進されます。症状は明確です:報酬の分散崖、グラデーションスパイク、および消滅する推論の痕跡。
Ragenのテスト環境
制御された設定でこれらの行動を研究するために、Ragenは3つの象徴的な環境でエージェントを評価します。
- Bandit:シンボリックリスクの報酬推論をテストする一回ターン、確率的タスク。
- Sokoban:不可逆的な決定を含むマルチターン、決定論的パズル。
- 冷凍湖:適応計画を必要とする確率的でマルチターンタスク。
各環境は、実世界の事前を最小限に抑え、トレーニング中に開発された意思決定戦略のみに焦点を当てるように設計されています。たとえば、盗賊環境では、エージェントは、異なる報酬分布を表すドラゴンとフェニックスの武器について象徴的に推論し、結果を予測するための「強さ」および「希望」と解釈する必要があります。
STARPO-Sによる補強学習を安定化します
トレーニングの崩壊と戦うために、研究者は元のフレームワークの安定したバージョンであるStarpo-Sを導入しました。 STARPO-Sには3つの重要な介入が含まれています。
- 不確実性ベースのロールアウトフィルタリング:エージェントが結果の不確実性を示すロールアウトの優先順位付け。
- KLペナルティ削除:モデルが元のポリシーからより自由に逸脱し、新しい動作を探求できるようにします。
- 非対称PPOクリッピング:学習を促進するために、低報酬よりも高報酬の軌跡を増幅します。
これらの変更は、3つのタスクすべてにわたってトレーニングの崩壊を遅らせたり排除したり、パフォーマンスを向上させたりするのに役立ちます。 Wangが言ったように、「Starpo-Sは3つのタスクすべてにわたって機能します。崩壊を和らげます。より良い報酬。」
良いエージェントAIモデルを作るものは何ですか?
RLトレーニングの成功は、アーキテクチャだけでなく、エージェントによって生成されたデータの品質にも依存します。チームは、トレーニングに大きな影響を与える3つの重要な次元を特定しました。
- タスクの多様性:モデルを幅広い初期シナリオにさらすと、一般化が改善されます。
- 相互作用の粒度:ターンごとに複数のアクションを許可すると、より意味のある計画が可能になります。
- ロールアウトの新鮮さ:現在のモデルポリシーに合わせてトレーニングデータを維持すると、時代遅れの学習信号が回避されます。
これらの要因は、より安定した効果的なトレーニングプロセスに貢献しています。 GitHubのインタラクティブなデモサイトは、アクションだけでなく、それらに先行する段階的な思考プロセスを含む、完全な対話のターンとしてエージェントロールアウトを視覚化します。たとえば、数学の問題を解決する際に、エージェントは最初に「x = 5」のような回答を送信する前に変数を分離することについて「考える」ことができます。これらの中間の思考は目に見えるものであり、追跡可能であり、エージェントがどのように意思決定を行うかに透明性を加えます。
推論がなくなると
明示的な推論は、Banditのようなシンプルで1ターンのタスクでパフォーマンスを向上させますが、マルチターントレーニング中に崩壊する傾向があります。構造化されたプロンプトとトークンを使用しているにもかかわらず、推論トレースは直接報われない限り、しばしば縮小または消滅します。これは、報酬が通常設計される方法の制限を強調しています。タスクの完了に焦点を当てることで、その背後にあるプロセスの品質を無視する可能性があります。チームは、より良い構造化された推論を促進するためにフォーマットベースのペナルティを実験しましたが、より洗練された報酬形状が必要である可能性が高いことを認めています。
オープンツールと将来の方向
Ragenは、StarpoおよびStarpo-Sフレームワークとともに、 https://github.com/ragen-ai/ragenでオープンソースプロジェクトとして利用できるようになりました。ただし、執筆時点では、GitHubリポジトリに明示的なライセンスがリストされていないため、他の人による使用または再分配が制限される場合があります。
このシステムは、タスクを完了するだけでなく、考え、計画し、進化するAIエージェントの開発に関心のある人々に貴重な基盤を提供します。 AIがより大きな自律性に向かって移動すると、Ragenのようなプロジェクトは、自分の行動の結果から学ぶモデルを訓練するために必要なことを明らかにします。
現実世界のエンタープライズ採用に関する顕著な質問
Ragen Paperは詳細な技術的ロードマップを提供していますが、エンタープライズの設定でこれらの方法を適用しようとしている人にはいくつかの実用的な質問が残っています。たとえば、様式化された象徴的なタスクを超えて、Ragenのアプローチはどの程度転送可能ですか?企業は、まったく新しい環境を設計し、このシステムを請求書処理やカスタマーサポートなどのワークフローで使用する機能に報酬を与える必要がありますか?
Wangは、XのVentureBeatへの直接的なメッセージで、現在のゲームタスクには同様のグリッド表現しかないがセマンティック情報がないため、タスクの多様性を改善することが役立つと示唆しました。彼はまた、Ragenを使用してAIエージェント向けの独自のトレーニングエクササイズを設計する企業についての楽観主義を表明し、GitHubリンクが新しい環境を追加する簡単な紹介を提供していることに注目しました。
別の重要な領域はスケーラビリティです。 Starpo-Sが提供する機能強化があっても、この論文は、トレーニングが最終的に長い視野にわたって崩壊していることを認めています。これは疑問を提起します:自由または継続的に進化するタスクシーケンスよりも推論を維持するための理論的または実用的な道はありますか?
執筆時点では、Ragen Githubリポジトリまたはドキュメントに明示的なライセンスはリストされておらず、使用権に関する公開の質問を残しています。それにもかかわらず、Ragenは技術的な貢献としてだけでなく、より自律的で推論可能なAIエージェントへの概念的なステップとして際立っています。エンタープライズAIスタックの一部になるかどうかはまだわかりませんが、エージェント学習ダイナミクスに関する洞察は、LLMトレーニングのフロンティアの再定義を既に支援しています。
関連記事
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
コメント (5)
0/200
RalphWalker
2025年5月6日 0:00:00 GMT
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
2025年5月6日 0:00:00 GMT
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
MateoAdams
2025年5月4日 0:00:00 GMT
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
GeorgeTaylor
2025年5月5日 0:00:00 GMT
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
EricLewis
2025年5月5日 0:00:00 GMT
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
AIエージェントの年:2025の期待と現実を詳しく見る
2025年は、AIエージェント(Openai、Anthropic、Google、Deepseekなどの企業の高度な大手言語とマルチモーダルモデルを搭載した専門化されたAIシステム)が最終的に中心的なステージに登場する年として、多くの専門家に告げられました。ただし、ソーシャルネットワークXに関する最近のベンチャービートの世論調査によると、ほとんどのAIエージェントは、ある種の企業の範囲に巻き込まれた実験段階でまだ苦しんでいます。
しかし、地平線にはかすかな希望があります。ノースウェスタン大学、スタンフォード州マイクロソフト、ワシントン大学を含むワシントン大学を含むワシントン大学の研究者からの共同作業は、現在ノースウェスタンでコンピューターサイエンスの博士号を取得しているDeepseekの研究者であるRagenを導入しました。この新しいシステムは、AIエージェントをトレーニングおよび評価して、実際のエンタープライズの使用に対してより信頼性と適応性を高めることを目的としています。
Ragen:AIエージェントのトレーニングへの新しいアプローチ
数学解決やコード生成などの静的タスクとは異なり、Ragenは、不確実性の中でエージェントが適応、覚え、推論する必要がある動的なマルチターン相互作用に焦点を当てています。このシステムは、Starpo(State-Thinking-actions-Rewardポリシーの最適化)と呼ばれるカスタム強化学習(RL)フレームワークに基づいて構築されており、暗記ではなく経験を通じて学習を強調しています。 Starpoは、単一ステップの応答だけでなく、意思決定シーケンス全体を調べます。
STARPOは2つのフェーズで動作します。LLMが推論によってガイドされた完全なインタラクションシーケンスを生成するロールアウトステージと、正規化された累積報酬を使用してモデルが最適化される更新段階です。このアプローチは、従来の政策最適化方法と比較して、より安定した解釈可能な学習ループを提供します。
研究者たちは、AlibabaのQwenモデルの微調整バージョン、特にQwen 1.5とQwen 2.5の微調整されたバージョンを使用して、オープンウェイトと強力な指導中の能力のために選択されたこのフレームワークをテストしました。この選択により、象徴的なタスク全体で再現性と一貫したベースライン比較が促進されました。
エコートラップ:強化学習の課題
Zihan Wangは、広く共有されたXスレッドでのRLトレーニングにおける重要な問題を強調しました。 * RLトレーニングは常に崩壊するのか?
この回帰は、特定のフレーズまたは戦略が早い段階で高い報酬を獲得し、過剰使用と息苦しい探査を促進するフィードバックループによって促進されます。症状は明確です:報酬の分散崖、グラデーションスパイク、および消滅する推論の痕跡。
Ragenのテスト環境
制御された設定でこれらの行動を研究するために、Ragenは3つの象徴的な環境でエージェントを評価します。
- Bandit:シンボリックリスクの報酬推論をテストする一回ターン、確率的タスク。
- Sokoban:不可逆的な決定を含むマルチターン、決定論的パズル。
- 冷凍湖:適応計画を必要とする確率的でマルチターンタスク。
各環境は、実世界の事前を最小限に抑え、トレーニング中に開発された意思決定戦略のみに焦点を当てるように設計されています。たとえば、盗賊環境では、エージェントは、異なる報酬分布を表すドラゴンとフェニックスの武器について象徴的に推論し、結果を予測するための「強さ」および「希望」と解釈する必要があります。
STARPO-Sによる補強学習を安定化します
トレーニングの崩壊と戦うために、研究者は元のフレームワークの安定したバージョンであるStarpo-Sを導入しました。 STARPO-Sには3つの重要な介入が含まれています。
- 不確実性ベースのロールアウトフィルタリング:エージェントが結果の不確実性を示すロールアウトの優先順位付け。
- KLペナルティ削除:モデルが元のポリシーからより自由に逸脱し、新しい動作を探求できるようにします。
- 非対称PPOクリッピング:学習を促進するために、低報酬よりも高報酬の軌跡を増幅します。
これらの変更は、3つのタスクすべてにわたってトレーニングの崩壊を遅らせたり排除したり、パフォーマンスを向上させたりするのに役立ちます。 Wangが言ったように、「Starpo-Sは3つのタスクすべてにわたって機能します。崩壊を和らげます。より良い報酬。」
良いエージェントAIモデルを作るものは何ですか?
RLトレーニングの成功は、アーキテクチャだけでなく、エージェントによって生成されたデータの品質にも依存します。チームは、トレーニングに大きな影響を与える3つの重要な次元を特定しました。
- タスクの多様性:モデルを幅広い初期シナリオにさらすと、一般化が改善されます。
- 相互作用の粒度:ターンごとに複数のアクションを許可すると、より意味のある計画が可能になります。
- ロールアウトの新鮮さ:現在のモデルポリシーに合わせてトレーニングデータを維持すると、時代遅れの学習信号が回避されます。
これらの要因は、より安定した効果的なトレーニングプロセスに貢献しています。 GitHubのインタラクティブなデモサイトは、アクションだけでなく、それらに先行する段階的な思考プロセスを含む、完全な対話のターンとしてエージェントロールアウトを視覚化します。たとえば、数学の問題を解決する際に、エージェントは最初に「x = 5」のような回答を送信する前に変数を分離することについて「考える」ことができます。これらの中間の思考は目に見えるものであり、追跡可能であり、エージェントがどのように意思決定を行うかに透明性を加えます。
推論がなくなると
明示的な推論は、Banditのようなシンプルで1ターンのタスクでパフォーマンスを向上させますが、マルチターントレーニング中に崩壊する傾向があります。構造化されたプロンプトとトークンを使用しているにもかかわらず、推論トレースは直接報われない限り、しばしば縮小または消滅します。これは、報酬が通常設計される方法の制限を強調しています。タスクの完了に焦点を当てることで、その背後にあるプロセスの品質を無視する可能性があります。チームは、より良い構造化された推論を促進するためにフォーマットベースのペナルティを実験しましたが、より洗練された報酬形状が必要である可能性が高いことを認めています。
オープンツールと将来の方向
Ragenは、StarpoおよびStarpo-Sフレームワークとともに、 https://github.com/ragen-ai/ragenでオープンソースプロジェクトとして利用できるようになりました。ただし、執筆時点では、GitHubリポジトリに明示的なライセンスがリストされていないため、他の人による使用または再分配が制限される場合があります。
このシステムは、タスクを完了するだけでなく、考え、計画し、進化するAIエージェントの開発に関心のある人々に貴重な基盤を提供します。 AIがより大きな自律性に向かって移動すると、Ragenのようなプロジェクトは、自分の行動の結果から学ぶモデルを訓練するために必要なことを明らかにします。
現実世界のエンタープライズ採用に関する顕著な質問
Ragen Paperは詳細な技術的ロードマップを提供していますが、エンタープライズの設定でこれらの方法を適用しようとしている人にはいくつかの実用的な質問が残っています。たとえば、様式化された象徴的なタスクを超えて、Ragenのアプローチはどの程度転送可能ですか?企業は、まったく新しい環境を設計し、このシステムを請求書処理やカスタマーサポートなどのワークフローで使用する機能に報酬を与える必要がありますか?
Wangは、XのVentureBeatへの直接的なメッセージで、現在のゲームタスクには同様のグリッド表現しかないがセマンティック情報がないため、タスクの多様性を改善することが役立つと示唆しました。彼はまた、Ragenを使用してAIエージェント向けの独自のトレーニングエクササイズを設計する企業についての楽観主義を表明し、GitHubリンクが新しい環境を追加する簡単な紹介を提供していることに注目しました。
別の重要な領域はスケーラビリティです。 Starpo-Sが提供する機能強化があっても、この論文は、トレーニングが最終的に長い視野にわたって崩壊していることを認めています。これは疑問を提起します:自由または継続的に進化するタスクシーケンスよりも推論を維持するための理論的または実用的な道はありますか?
執筆時点では、Ragen Githubリポジトリまたはドキュメントに明示的なライセンスはリストされておらず、使用権に関する公開の質問を残しています。それにもかかわらず、Ragenは技術的な貢献としてだけでなく、より自律的で推論可能なAIエージェントへの概念的なステップとして際立っています。エンタープライズAIスタックの一部になるかどうかはまだわかりませんが、エージェント学習ダイナミクスに関する洞察は、LLMトレーニングのフロンティアの再定義を既に支援しています。




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀












