前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen

AI代理之年:深入探討2025年的期望與現實
許多專家預言2025年將是AI代理—由OpenAI、Anthropic、Google和DeepSeek等公司開發的先進大型語言和多模態模型驅動的專業AI系統—終於站上舞台中心的年份。然而,根據VentureBeat近期在社交網絡X上進行的民意調查,大多數AI代理仍停留在實驗階段,陷入某種企業困境。
但地平線上閃現一絲希望。來自西北大學、微軟、斯坦福大學和華盛頓大學的研究人員,包括曾任DeepSeek研究員、現於西北大學攻讀計算機科學博士的王梓涵,聯手推出RAGEN。此新系統旨在訓練和評估AI代理,使其在現實世界和企業應用中更可靠、更具適應性。
RAGEN:訓練AI代理的新方法
與數學求解或代碼生成等靜態任務不同,RAGEN專注於動態、多輪交互,代理需在不確定性中適應、記憶和推理。該系統基於名為StarPO(狀態-思考-行動-獎勵策略優化)的定制強化學習(RL)框架,強調通過經驗學習,而非死記硬背。StarPO審視整個決策序列,而非僅單一步驟響應。
StarPO分為兩個階段運行:展開階段,由大型語言模型生成完整的交互序列,引導以推理為基礎;更新階段,通過規範化累積獎勵優化模型。與傳統策略優化方法相比,此方法提供更穩定且可解釋的學習循環。
研究人員使用阿里巴巴Qwen模型的微調版本(特別是Qwen 1.5和Qwen 2.5)測試此框架,因其開放權重和強大的指令遵循能力而被選中。這一選擇便於在符號任務中實現可重現性和一致的基準比較。
回聲陷阱:強化學習中的挑戰
王梓涵在一則廣泛分享的X帖子中強調了強化學習訓練中的關鍵問題:*為何你的強化學習訓練總是崩潰?* 團隊發現,雖然大型語言模型代理最初能產生合理推理的響應,但強化學習系統常因獎勵捷徑而導致重複行為,降低性能—他們稱之為“回聲陷阱”。
這種退化由反饋循環驅動,某些短語或策略早期獲得高獎勵,鼓勵過度使用並抑制探索。症狀顯而易見:獎勵方差斷崖式下降、梯度激增和推理痕跡消失。
RAGEN的測試環境
為在控制環境中研究這些行為,RAGEN在三個符號環境中評估代理:
- Bandit: 單輪隨機任務,測試符號風險-獎勵推理。
- Sokoban: 多輪確定性益智遊戲,涉及不可逆決策。
- Frozen Lake: 隨機多輪任務,需要適應性規劃。
每個環境旨在最小化現實世界的先驗知識,僅專注於訓練期間發展的決策策略。例如,在Bandit環境中,代理必須對代表不同獎勵分佈的龍與鳳臂進行符號推理,將其解釋為“力量”和“希望”以預測結果。
以StarPO-S穩定強化學習
為應對訓練崩潰,研究人員推出了StarPO-S,原始框架的穩定版本。StarPO-S包括三項關鍵干預措施:
- 基於不確定性的展開篩選: 優先選擇代理顯示結果不確定性的展開。
- 移除KL懲罰: 允許模型更自由地偏離原始策略,探索新行為。
- 非對稱PPO裁剪: 放大高獎勵軌跡,超過低獎勵軌跡,以提升學習效果。
這些改變有助於延遲或消除訓練崩潰,並提升三項任務的性能。正如王梓涵所述,“StarPO-S…適用於所有3項任務。緩解崩潰。更高獎勵。”
什麼造就優秀的代理AI模型?
強化學習訓練的成功不僅取決於架構,還取決於代理生成的數據質量。團隊確定了三個顯著影響訓練的關鍵維度:
- 任務多樣性: 讓模型暴露於廣泛的初始場景可提升泛化能力。
- 交互粒度: 允許每輪多個行動,實現更有意義的規劃。
- 展開新鮮度: 保持訓練數據與當前模型策略一致,避免過時的學習信號。
這些因素有助於更穩定且有效的訓練過程。Github上的互動演示網站將代理展開視覺化為完整對話輪次,不僅包括行動,還包括行動前的逐步思考過程。例如,在解決數學問題時,代理可能首先“思考”隔離變量,然後提交答案如“x = 5”。這些中間思考過程可見且可追溯,增加代理決策的透明度。
當推理耗盡時
雖然顯性推理在Bandit等簡單單輪任務中提升性能,但在多輪訓練中往往退化。儘管使用結構化提示和標記,推理痕跡常會縮減或消失,除非直接獎勵。這突顯了獎勵設計的局限性:專注於任務完成可能忽略背後過程的質量。團隊嘗試基於格式的懲罰以鼓勵更好結構的推理,但承認可能需要更精細的獎勵塑造。
開放工具與未來方向
RAGEN及其StarPO和StarPO-S框架現已作為開源項目在https://github.com/RAGEN-AI/RAGEN上提供。然而,截至撰寫時,Github倉庫中未列明明確許可證,這可能限制其使用或分發。
該系統為開發不僅完成任務,還能思考、規劃和進化的AI代理提供了寶貴基礎。隨著AI走向更大自主性,像RAGEN這樣的項目有助於闡明訓練模型從自身行動後果中學習所需的條件。
企業應用的未解問題
雖然RAGEN論文提供了詳細的技術路線圖,但對於希望在企業環境中應用這些方法的用戶,仍有若干實際問題。例如,RAGEN的方法在風格化符號任務之外的轉移性如何?企業是否需要為發票處理或客戶支持等流程設計全新環境和獎勵函數?
王梓涵在對VentureBeat的X直接消息中建議,改善任務多樣性可能有所幫助,因為當前遊戲任務僅有相似的網格表示,缺乏語義信息。他也對企業使用RAGEN設計自己的AI代理訓練練習表示樂觀,指出Github鏈接提供了添加新環境的簡單介紹。
另一關鍵領域是可擴展性。即使有StarPO-S的增強,論文承認訓練在更長時間範圍內仍會崩潰。這引發了一個問題:是否存在理論或實際路徑來維持開放或持續演進任務序列的推理?
截至撰寫時,RAGEN的Github倉庫或文檔中未列明明確許可證,留下使用權的開放問題。儘管如此,RAGEN不僅作為技術貢獻脫穎而出,還作為邁向更自主、具推理能力的AI代理的概念性一步。是否成為企業AI堆棧的一部分尚待觀察,但其對代理學習動態的洞察已開始重新定義大型語言模型訓練的前沿。
相關文章
頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力
來自 OpenAI、Google DeepMind、Anthropic 和 Meta 的研究人員,史無前例地展現團結,擱置競爭分歧,就負責任的 AI 開發發出集體警告。來自這些典型競爭組織的 40 多位頂尖科學家共同撰寫了一份突破性的研究論文,強調確保 AI 決策過程透明化的窗口正在快速關閉。此次合作的重點在於現代人工智能系統的一項關鍵發展 - 在產生最終輸出之前,以人類可讀的語言闡明推理過程的新
Anthropic 的 AI 升級:Claude 現在可立即搜尋整個 Google 工作空間
Anthropic 今天的重大升級,將 Claude 從 AI 助理轉型為該公司所謂的「真正的虛擬協作員」,並引進突破性的自主研究功能和 Google Workspace 的無縫整合。這些進步讓 Claude 在日益擁擠的企業 AI 生產力領域中,成為 OpenAI 和 Microsoft 的有力競爭者。新的研究力量自主多重搜尋功能Claude 的增強研究功能代表著人工智能輔助調查的一大躍進 -
阿里巴巴的「ZeroSearch」AI 透過自主學習將訓練成本降低 88
阿里巴巴的 ZeroSearch:改變人工智能訓練效率的遊戲規則阿里巴巴集團的研究人員開創了一種突破性的方法,有可能徹底改變人工智能系統學習信息檢索的方式,完全繞過成本高昂的商業搜索引擎 API。他們的 ZeroSearch 技術可讓大型語言模型在訓練階段透過模擬環境培養複雜的搜尋能力,而非傳統的搜尋引擎互動。"研究人員在最新發表的 arXiv 論文中解釋說:「傳統的強化學習需要大量的搜尋要求,累
評論 (7)
0/200
ScottEvans
2025-08-13 19:00:59
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
0
JimmyRamirez
2025-07-23 12:59:29
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
2025-05-06 15:48:04
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
2025-05-06 06:45:54
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
2025-05-05 11:45:04
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
2025-05-05 04:00:48
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
AI代理之年:深入探討2025年的期望與現實
許多專家預言2025年將是AI代理—由OpenAI、Anthropic、Google和DeepSeek等公司開發的先進大型語言和多模態模型驅動的專業AI系統—終於站上舞台中心的年份。然而,根據VentureBeat近期在社交網絡X上進行的民意調查,大多數AI代理仍停留在實驗階段,陷入某種企業困境。
但地平線上閃現一絲希望。來自西北大學、微軟、斯坦福大學和華盛頓大學的研究人員,包括曾任DeepSeek研究員、現於西北大學攻讀計算機科學博士的王梓涵,聯手推出RAGEN。此新系統旨在訓練和評估AI代理,使其在現實世界和企業應用中更可靠、更具適應性。
RAGEN:訓練AI代理的新方法
與數學求解或代碼生成等靜態任務不同,RAGEN專注於動態、多輪交互,代理需在不確定性中適應、記憶和推理。該系統基於名為StarPO(狀態-思考-行動-獎勵策略優化)的定制強化學習(RL)框架,強調通過經驗學習,而非死記硬背。StarPO審視整個決策序列,而非僅單一步驟響應。
StarPO分為兩個階段運行:展開階段,由大型語言模型生成完整的交互序列,引導以推理為基礎;更新階段,通過規範化累積獎勵優化模型。與傳統策略優化方法相比,此方法提供更穩定且可解釋的學習循環。
研究人員使用阿里巴巴Qwen模型的微調版本(特別是Qwen 1.5和Qwen 2.5)測試此框架,因其開放權重和強大的指令遵循能力而被選中。這一選擇便於在符號任務中實現可重現性和一致的基準比較。
回聲陷阱:強化學習中的挑戰
王梓涵在一則廣泛分享的X帖子中強調了強化學習訓練中的關鍵問題:*為何你的強化學習訓練總是崩潰?* 團隊發現,雖然大型語言模型代理最初能產生合理推理的響應,但強化學習系統常因獎勵捷徑而導致重複行為,降低性能—他們稱之為“回聲陷阱”。
這種退化由反饋循環驅動,某些短語或策略早期獲得高獎勵,鼓勵過度使用並抑制探索。症狀顯而易見:獎勵方差斷崖式下降、梯度激增和推理痕跡消失。
RAGEN的測試環境
為在控制環境中研究這些行為,RAGEN在三個符號環境中評估代理:
- Bandit: 單輪隨機任務,測試符號風險-獎勵推理。
- Sokoban: 多輪確定性益智遊戲,涉及不可逆決策。
- Frozen Lake: 隨機多輪任務,需要適應性規劃。
每個環境旨在最小化現實世界的先驗知識,僅專注於訓練期間發展的決策策略。例如,在Bandit環境中,代理必須對代表不同獎勵分佈的龍與鳳臂進行符號推理,將其解釋為“力量”和“希望”以預測結果。
以StarPO-S穩定強化學習
為應對訓練崩潰,研究人員推出了StarPO-S,原始框架的穩定版本。StarPO-S包括三項關鍵干預措施:
- 基於不確定性的展開篩選: 優先選擇代理顯示結果不確定性的展開。
- 移除KL懲罰: 允許模型更自由地偏離原始策略,探索新行為。
- 非對稱PPO裁剪: 放大高獎勵軌跡,超過低獎勵軌跡,以提升學習效果。
這些改變有助於延遲或消除訓練崩潰,並提升三項任務的性能。正如王梓涵所述,“StarPO-S…適用於所有3項任務。緩解崩潰。更高獎勵。”
什麼造就優秀的代理AI模型?
強化學習訓練的成功不僅取決於架構,還取決於代理生成的數據質量。團隊確定了三個顯著影響訓練的關鍵維度:
- 任務多樣性: 讓模型暴露於廣泛的初始場景可提升泛化能力。
- 交互粒度: 允許每輪多個行動,實現更有意義的規劃。
- 展開新鮮度: 保持訓練數據與當前模型策略一致,避免過時的學習信號。
這些因素有助於更穩定且有效的訓練過程。Github上的互動演示網站將代理展開視覺化為完整對話輪次,不僅包括行動,還包括行動前的逐步思考過程。例如,在解決數學問題時,代理可能首先“思考”隔離變量,然後提交答案如“x = 5”。這些中間思考過程可見且可追溯,增加代理決策的透明度。
當推理耗盡時
雖然顯性推理在Bandit等簡單單輪任務中提升性能,但在多輪訓練中往往退化。儘管使用結構化提示和標記,推理痕跡常會縮減或消失,除非直接獎勵。這突顯了獎勵設計的局限性:專注於任務完成可能忽略背後過程的質量。團隊嘗試基於格式的懲罰以鼓勵更好結構的推理,但承認可能需要更精細的獎勵塑造。
開放工具與未來方向
RAGEN及其StarPO和StarPO-S框架現已作為開源項目在https://github.com/RAGEN-AI/RAGEN上提供。然而,截至撰寫時,Github倉庫中未列明明確許可證,這可能限制其使用或分發。
該系統為開發不僅完成任務,還能思考、規劃和進化的AI代理提供了寶貴基礎。隨著AI走向更大自主性,像RAGEN這樣的項目有助於闡明訓練模型從自身行動後果中學習所需的條件。
企業應用的未解問題
雖然RAGEN論文提供了詳細的技術路線圖,但對於希望在企業環境中應用這些方法的用戶,仍有若干實際問題。例如,RAGEN的方法在風格化符號任務之外的轉移性如何?企業是否需要為發票處理或客戶支持等流程設計全新環境和獎勵函數?
王梓涵在對VentureBeat的X直接消息中建議,改善任務多樣性可能有所幫助,因為當前遊戲任務僅有相似的網格表示,缺乏語義信息。他也對企業使用RAGEN設計自己的AI代理訓練練習表示樂觀,指出Github鏈接提供了添加新環境的簡單介紹。
另一關鍵領域是可擴展性。即使有StarPO-S的增強,論文承認訓練在更長時間範圍內仍會崩潰。這引發了一個問題:是否存在理論或實際路徑來維持開放或持續演進任務序列的推理?
截至撰寫時,RAGEN的Github倉庫或文檔中未列明明確許可證,留下使用權的開放問題。儘管如此,RAGEN不僅作為技術貢獻脫穎而出,還作為邁向更自主、具推理能力的AI代理的概念性一步。是否成為企業AI堆棧的一部分尚待觀察,但其對代理學習動態的洞察已開始重新定義大型語言模型訓練的前沿。




RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀












