オプション
ニュース
元DeepseekerとCollaboratorsは、信頼できるAIエージェントをトレーニングするための新しい方法をリリースします:Ragen

元DeepseekerとCollaboratorsは、信頼できるAIエージェントをトレーニングするための新しい方法をリリースします:Ragen

2025年5月4日
203

元DeepseekerとCollaboratorsは、信頼できるAIエージェントをトレーニングするための新しい方法をリリースします:Ragen

AIエージェントの年:2025年の期待と現実を詳しく見る

多くの専門家が2025年を、OpenAI、Anthropic、Google、DeepSeekなどの企業による先進的な大規模言語モデルやマルチモーダルモデルによって駆動される特殊なAIシステムであるAIエージェントが、ついに中心的な役割を果たす年として歓迎していました。しかし、ソーシャルネットワークXでの最近のVentureBeatの世論調査によると、ほとんどのAIエージェントはまだ実験段階にとどまり、企業内での一種の中間状態に閉じ込められています。

しかし、希望の光が見えてきています。ノースウェスタン大学、マイクロソフト、スタンフォード大学、ワシントン大学の研究者たちによる共同研究、元DeepSeek研究者で現在ノースウェスタン大学でコンピュータサイエンスの博士号を取得中のZihan Wangを含むチームが、RAGENを導入しました。この新しいシステムは、AIエージェントを訓練し評価することで、実世界や企業での使用においてより信頼性と適応性を高めることを目指しています。

RAGEN:AIエージェント訓練の新しいアプローチ

数学問題の解決やコード生成といった静的なタスクとは異なり、RAGENはエージェントが適応し、記憶し、不確実性の中で推論する必要がある動的なマルチターン相互作用に焦点を当てています。このシステムは、StarPO(State-Thinking-Actions-Reward Policy Optimization)と呼ばれるカスタム強化学習(RL)フレームワークに基づいて構築されており、単なる暗記ではなく経験を通じた学習を重視します。StarPOは、単一のステップ応答だけでなく、意思決定のシーケンス全体を考慮します。

StarPOは2つのフェーズで動作します。LLMが推論によって導かれる完全な相互作用シーケンスを生成するロールアウト段階と、モデルが正規化された累積報酬を使用して最適化される更新段階です。このアプローチは、従来のポリシー最適化方法と比較して、より安定した解釈可能な学習ループを提供します。

研究者たちは、AlibabaのQwenモデル、具体的にはQwen 1.5およびQwen 2.5の微調整版を使用してこのフレームワークをテストしました。これらはオープンウェイトと強力な指示追従能力が選択理由で、シンボリックタスク間での再現性と一貫したベースライン比較を容易にしました。

エコートラップ:強化学習の課題

Zihan Wangは、広く共有されたXのスレッドで、RL訓練における重大な問題を強調しました:「なぜあなたのRL訓練は常に崩壊するのか?」チームは、LLMエージェントが最初は適切に推論された応答を生成する一方で、RLシステムがショートカットを報酬として与えるため、繰り返し行動がパフォーマンスを低下させる現象、すなわち「エコートラップ」を特定しました。

この退行は、特定のフレーズや戦略が早期に高い報酬を得ることで、過度に使用され、探索が抑制されるフィードバックループによって引き起こされます。症状は明らかです:報酬の分散の急落、勾配の急上昇、そして推論の痕跡の消失です。

RAGENのテスト環境

これらの行動を制御された環境で研究するため、RAGENは3つのシンボリック環境でエージェントを評価します:

  • Bandit: シンボリックなリスクと報酬の推論をテストするシングルターンの確率的タスク。
  • Sokoban: 不可逆的な決定を含むマルチターンの決定論的パズル。
  • Frozen Lake: 適応的な計画が必要な確率的マルチターンタスク。

各環境は、実世界の事前知識を最小限に抑え、訓練中に開発された意思決定戦略にのみ焦点を当てるように設計されています。たとえば、Bandit環境では、エージェントは異なる報酬分布を表すDragonとPhoenixのアームについてシンボリックに推論し、「強さ」と「希望」として解釈して結果を予測する必要があります。

StarPO-Sによる強化学習の安定化

訓練崩壊に対抗するため、研究者たちはオリジナルのフレームワークの安定化バージョンであるStarPO-Sを導入しました。StarPO-Sには3つの主要な介入が含まれます:

  1. 不確実性ベースのロールアウトフィルタリング: エージェントが結果の不確実性を示すロールアウトを優先します。
  2. KLペナルティの削除: モデルが元のポリシーからより自由に逸脱し、新しい行動を探索できるようにします。
  3. 非対称PPOクリッピング: 高報酬の軌跡を低報酬のものよりも増幅して学習を強化します。

これらの変更は、訓練崩壊を遅らせたり排除したりし、3つのタスクすべてでパフォーマンスを向上させます。Wangが述べたように、「StarPO-S…は3つのタスクすべてで機能します。崩壊を緩和し、より高い報酬を得ます。」

優れたエージェントAIモデルとは何か?

RL訓練の成功は、アーキテクチャだけでなく、エージェントが生成するデータの品質にも依存します。チームは、訓練に大きな影響を与える3つの重要な次元を特定しました:

  • タスクの多様性: モデルを多様な初期シナリオにさらすことで、一般化が向上します。
  • 相互作用の粒度: ターンごとの複数のアクションを許可することで、より意味のある計画が可能になります。
  • ロールアウトの新鮮さ: 訓練データを現在のモデルポリシーに合わせることで、時代遅れの学習シグナルを回避します。

これらの要因は、より安定かつ効果的な訓練プロセスに貢献します。Github上のインタラクティブなデモサイトは、エージェントのロールアウトを完全な対話ターンとして視覚化し、アクションだけでなくその前のステップごとの思考プロセスも含みます。たとえば、数学問題を解く際、エージェントはまず変数を分離することを「考える」かもしれず、その後に「x = 5」といった答えを提出します。これらの中間的な思考は可視化され、追跡可能であり、エージェントの意思決定の透明性を高めます。

推論が尽きるとき

明示的な推論は、Banditのようなシンプルなシングルターンタスクではパフォーマンスを向上させますが、マルチターン訓練中には衰退する傾向があります。構造化されたプロンプトやトークンを使用しても、推論の痕跡は直接報酬が与えられない限り縮小または消滅します。これは、報酬が通常どのように設計されているかの限界を浮き彫りにします:タスクの完了に焦点を当てることは、その背後にあるプロセスの質を無視する可能性があります。チームは、より構造化された推論を奨励するためにフォーマットベースのペナルティを試みましたが、より洗練された報酬形成が必要であると認めています。

オープンなツールと将来の方向性

RAGENとそのStarPOおよびStarPO-Sフレームワークは、https://github.com/RAGEN-AI/RAGENでオープンソースプロジェクトとして利用可能です。しかし、執筆時点では、GitHubリポジトリに明示的なライセンスが記載されておらず、これが他者による使用や再配布を制限する可能性があります。

このシステムは、タスクを完了するだけでなく、思考し、計画し、進化するAIエージェントを開発することに関心のある人々にとって貴重な基盤を提供します。AIがより高い自律性に向かう中、RAGENのようなプロジェクトは、モデルが自身の行動の結果から学ぶために必要なものを明らかにするのに役立ちます。

実世界の企業導入における未解決の質問

RAGENの論文は詳細な技術的ロードマップを提供していますが、企業環境でこれらの方法を適用しようとする人々にはいくつかの実際的な質問が残されています。たとえば、RAGENのアプローチは、様式化されたシンボリックタスクを超えてどの程度転用可能でしょうか?企業は、請求書処理やカスタマーサポートのようなワークフローでこのシステムを使用するために、完全に新しい環境や報酬関数を設計する必要があるでしょうか?

Wangは、VentureBeatへのXのダイレクトメッセージで、タスクの多様性を向上させることで助けになると示唆しました。現在のゲームタスクは類似したグリッド表現しか持たず、セマンティック情報が不足しているためです。彼はまた、企業がRAGENを使用して独自のAIエージェント訓練演習を設計することに楽観的で、GitHubリンクが新しい環境を追加する簡単な紹介を提供していると述べました。

もう一つの重要な領域はスケーラビリティです。StarPO-Sの改良にもかかわらず、論文は訓練が長期間にわたって最終的に崩壊することを認めています。これは、理論的または実際的に、オープンエンドまたは継続的に進化するタスクシーケンスで推論を維持する道があるかという疑問を投げかけます。

執筆時点で、RAGENのGitHubリポジトリやドキュメントには明示的なライセンスが記載されておらず、使用権に関する疑問が残されています。それでも、RAGENは技術的貢献だけでなく、より自律的で推論能力のあるAIエージェントに向けた概念的ステップとして際立っています。それが企業AIスタックの一部になるかどうかはまだわかりませんが、エージェント学習ダイナミクスに関するその洞察は、すでにLLM訓練の最前線を再定義するのに役立っています。

関連記事
DeepSeek、Frontier Systemsに匹敵するAIモデルを発表 DeepSeek、Frontier Systemsに匹敵するAIモデルを発表 中国のAI研究所DeepSeekは、最新の大型言語モデル「DeepSeek V4」のプレビュー版2種類を公開した。これは、昨年リリースされたV3.2モデルおよび、AIコミュニティに大きな影響を与えた付随する推論モデル「R1」に対する、待望のアップデートとなる。同社によると、「DeepSeek V4 Flash」と「V4 Pro」はいずれもミクスチャー・オブ・エキスパート(MOE)モデルであり、それ
マルチバース・コンピューティング、無料圧縮生成AIモデルを発表 マルチバース・コンピューティング、無料圧縮生成AIモデルを発表 大規模言語モデルは重大な課題に直面している:その膨大なサイズである。スペインのスタートアップMultiverse Computingは、最先端AIの能力と企業が実用的に導入できる範囲とのギャップを埋めるべく設計された圧縮モデルを開発することでこの問題に取り組んでいる。同社の革新的な技術「CompactifAI」は量子コンピューティング原理に着想を得た圧縮技術であり、バスク地方のこの企業はOpenA
AIがニュースコンテンツに潜む隠された意図を明らかにする AIがニュースコンテンツに潜む隠された意図を明らかにする ChatGPTスタイルのモデルは現在、ニュース記事の根底にある視点を解明するよう訓練されている——たとえその視点が引用文やフレームワーク、あるいは(時に不誠実な)中立性の覆いの下に隠されていても。見出し、リード文、引用文といったセグメントに記事を分割することで、新たなシステムは長文のプロフェッショナルなジャーナリズムにおいても偏りを識別することを学習する。 執筆者や発言者の真の立場を把握する能力—
関連特集おすすめ
仕事 おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化
おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化

XIX.AIで、2026年最新の評価の高いAI採用ツールをチェックしましょう。厳選されたリストには、履歴書のスクリーニングや候補者の面接スケジュール管理を自動化する、強力で画期的なソリューションが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版の比較が可能です。最適な採用アシスタントを見つけて、今すぐ採用業務を効率化しましょう!

10 ツール
xix.ai
生産性 AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上
AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス&集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール
xix.ai
チャットボット 高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く
高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール
xix.ai
教育と学習 最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう
最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール
xix.ai
チャットボット 最高のAIを使ったナンパ&会話トレーニング:社交的な魅力と自信をリアルタイムで高める
最高のAIを使ったナンパ&会話トレーニング:社交的な魅力と自信をリアルタイムで高める

XIX.AIで、2026年最高のAIを使った口説き術・会話トレーニングツールを発見しましょう。厳選された高評価のツールが、リアルタイムで社交的な魅力と自信を築くお手伝いをします。無料版と有料版の比較や毎週更新されるランキングを参考に、ぜひ試すべき画期的なツールを探してみてください。今すぐ、あなたの社交力を引き出しましょう。

10 ツール
xix.ai
コード 自動化ユニットテストに最適なAIツール:ワンクリックでJest、PyTest、JUnitのテストケースを生成する
自動化ユニットテストに最適なAIツール:ワンクリックでJest、PyTest、JUnitのテストケースを生成する

2026年に登場した、自動化ユニットテスト用の最高評価を受けたAIツールを発見してください。当社が厳選したこれらのツールは、Jest、PyTest、JUnitのテストケースを瞬時に生成するための強力で革新的なソリューションです。XIX.AIでは、無料オプションと有料オプションを実際のテストデータと共に比較し、毎週更新されるランキングもご覧いただけます。今すぐAIの力を活用して、開発生産性を向上させましょう。

10 ツール
xix.ai
コメント (10)
0/500
CharlesYoung
CharlesYoung 2026年4月9日 3:00:57 JST

Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.

JosephMartínez
JosephMartínez 2026年4月5日 1:00:41 JST

這方法聽起來滿有趣的,但訓練出真正可靠的AI代理還是有段距離吧?RAGEN這個方向不錯,但實務上遇到意外狀況時,它們真的能妥善應對嗎?先觀望一下實際應用案例再說...🤔

GregoryRodriguez
GregoryRodriguez 2025年10月12日 11:30:38 JST

RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?

ScottEvans
ScottEvans 2025年8月13日 20:00:59 JST

RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!

JimmyRamirez
JimmyRamirez 2025年7月23日 13:59:29 JST

This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

RalphWalker
RalphWalker 2025年5月6日 16:48:04 JST

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

OR