前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen

AI代理之年:深入探討2025年的期望與現實
許多專家預言2025年將是AI代理—由OpenAI、Anthropic、Google和DeepSeek等公司開發的先進大型語言和多模態模型驅動的專業AI系統—終於站上舞台中心的年份。然而,根據VentureBeat近期在社交網絡X上進行的民意調查,大多數AI代理仍停留在實驗階段,陷入某種企業困境。
但地平線上閃現一絲希望。來自西北大學、微軟、斯坦福大學和華盛頓大學的研究人員,包括曾任DeepSeek研究員、現於西北大學攻讀計算機科學博士的王梓涵,聯手推出RAGEN。此新系統旨在訓練和評估AI代理,使其在現實世界和企業應用中更可靠、更具適應性。
RAGEN:訓練AI代理的新方法
與數學求解或代碼生成等靜態任務不同,RAGEN專注於動態、多輪交互,代理需在不確定性中適應、記憶和推理。該系統基於名為StarPO(狀態-思考-行動-獎勵策略優化)的定制強化學習(RL)框架,強調通過經驗學習,而非死記硬背。StarPO審視整個決策序列,而非僅單一步驟響應。
StarPO分為兩個階段運行:展開階段,由大型語言模型生成完整的交互序列,引導以推理為基礎;更新階段,通過規範化累積獎勵優化模型。與傳統策略優化方法相比,此方法提供更穩定且可解釋的學習循環。
研究人員使用阿里巴巴Qwen模型的微調版本(特別是Qwen 1.5和Qwen 2.5)測試此框架,因其開放權重和強大的指令遵循能力而被選中。這一選擇便於在符號任務中實現可重現性和一致的基準比較。
回聲陷阱:強化學習中的挑戰
王梓涵在一則廣泛分享的X帖子中強調了強化學習訓練中的關鍵問題:*為何你的強化學習訓練總是崩潰?* 團隊發現,雖然大型語言模型代理最初能產生合理推理的響應,但強化學習系統常因獎勵捷徑而導致重複行為,降低性能—他們稱之為“回聲陷阱”。
這種退化由反饋循環驅動,某些短語或策略早期獲得高獎勵,鼓勵過度使用並抑制探索。症狀顯而易見:獎勵方差斷崖式下降、梯度激增和推理痕跡消失。
RAGEN的測試環境
為在控制環境中研究這些行為,RAGEN在三個符號環境中評估代理:
- Bandit: 單輪隨機任務,測試符號風險-獎勵推理。
- Sokoban: 多輪確定性益智遊戲,涉及不可逆決策。
- Frozen Lake: 隨機多輪任務,需要適應性規劃。
每個環境旨在最小化現實世界的先驗知識,僅專注於訓練期間發展的決策策略。例如,在Bandit環境中,代理必須對代表不同獎勵分佈的龍與鳳臂進行符號推理,將其解釋為“力量”和“希望”以預測結果。
以StarPO-S穩定強化學習
為應對訓練崩潰,研究人員推出了StarPO-S,原始框架的穩定版本。StarPO-S包括三項關鍵干預措施:
- 基於不確定性的展開篩選: 優先選擇代理顯示結果不確定性的展開。
- 移除KL懲罰: 允許模型更自由地偏離原始策略,探索新行為。
- 非對稱PPO裁剪: 放大高獎勵軌跡,超過低獎勵軌跡,以提升學習效果。
這些改變有助於延遲或消除訓練崩潰,並提升三項任務的性能。正如王梓涵所述,“StarPO-S…適用於所有3項任務。緩解崩潰。更高獎勵。”
什麼造就優秀的代理AI模型?
強化學習訓練的成功不僅取決於架構,還取決於代理生成的數據質量。團隊確定了三個顯著影響訓練的關鍵維度:
- 任務多樣性: 讓模型暴露於廣泛的初始場景可提升泛化能力。
- 交互粒度: 允許每輪多個行動,實現更有意義的規劃。
- 展開新鮮度: 保持訓練數據與當前模型策略一致,避免過時的學習信號。
這些因素有助於更穩定且有效的訓練過程。Github上的互動演示網站將代理展開視覺化為完整對話輪次,不僅包括行動,還包括行動前的逐步思考過程。例如,在解決數學問題時,代理可能首先“思考”隔離變量,然後提交答案如“x = 5”。這些中間思考過程可見且可追溯,增加代理決策的透明度。
當推理耗盡時
雖然顯性推理在Bandit等簡單單輪任務中提升性能,但在多輪訓練中往往退化。儘管使用結構化提示和標記,推理痕跡常會縮減或消失,除非直接獎勵。這突顯了獎勵設計的局限性:專注於任務完成可能忽略背後過程的質量。團隊嘗試基於格式的懲罰以鼓勵更好結構的推理,但承認可能需要更精細的獎勵塑造。
開放工具與未來方向
RAGEN及其StarPO和StarPO-S框架現已作為開源項目在https://github.com/RAGEN-AI/RAGEN上提供。然而,截至撰寫時,Github倉庫中未列明明確許可證,這可能限制其使用或分發。
該系統為開發不僅完成任務,還能思考、規劃和進化的AI代理提供了寶貴基礎。隨著AI走向更大自主性,像RAGEN這樣的項目有助於闡明訓練模型從自身行動後果中學習所需的條件。
企業應用的未解問題
雖然RAGEN論文提供了詳細的技術路線圖,但對於希望在企業環境中應用這些方法的用戶,仍有若干實際問題。例如,RAGEN的方法在風格化符號任務之外的轉移性如何?企業是否需要為發票處理或客戶支持等流程設計全新環境和獎勵函數?
王梓涵在對VentureBeat的X直接消息中建議,改善任務多樣性可能有所幫助,因為當前遊戲任務僅有相似的網格表示,缺乏語義信息。他也對企業使用RAGEN設計自己的AI代理訓練練習表示樂觀,指出Github鏈接提供了添加新環境的簡單介紹。
另一關鍵領域是可擴展性。即使有StarPO-S的增強,論文承認訓練在更長時間範圍內仍會崩潰。這引發了一個問題:是否存在理論或實際路徑來維持開放或持續演進任務序列的推理?
截至撰寫時,RAGEN的Github倉庫或文檔中未列明明確許可證,留下使用權的開放問題。儘管如此,RAGEN不僅作為技術貢獻脫穎而出,還作為邁向更自主、具推理能力的AI代理的概念性一步。是否成為企業AI堆棧的一部分尚待觀察,但其對代理學習動態的洞察已開始重新定義大型語言模型訓練的前沿。
相關文章
DeepSeek 推出可與前沿系統匹敵的人工智慧模型
中國人工智慧實驗室 DeepSeek 已發布其最新大型語言模型 DeepSeek V4 的兩個預覽版本,這是對去年 V3.2 模型及其配套的 R1 推理模型的備受期待的更新,該模型曾在人工智慧界引起巨大迴響。該公司表示,DeepSeek V4 Flash 與 V4 Pro 均屬專家混合模型,各自具備 100 萬個標記的上下文視窗——足以處理提示語中的龐大程式碼庫或文件。此專家混合方法會針對每項任務
Multiverse Computing 推出免費壓縮生成式人工智慧模型
大型語言模型面臨著重大挑戰:其龐大的體積。西班牙新創公司Multiverse Computing正透過開發壓縮模型來解決此問題,旨在彌合尖端AI能力與企業實際可負擔部署方案之間的差距。其核心創新在於「CompactifAI」壓縮技術——這項受量子運算原理啟發的技術,已被這家巴斯克公司用於優化OpenAI的模型。即日起,開發者可在Hugging Face平台免費使用Multiverse增強版的Hyp
人工智慧揭露新聞內容中的隱藏議程
ChatGPT風格的模型現正接受訓練,以揭示新聞文章背後的潛在觀點——即使該觀點被隱藏在引語、框架或(有時虛偽的)中立表象之下。透過將文章拆解為標題、導語和引語等段落,新型系統能識別長篇專業新聞報導中的偏見。 這種掌握作者或發言者真實立場的能力——學術文獻中稱為立場檢測——正挑戰語言解讀中最複雜的難題之一:從可能刻意設計用以隱藏或模糊意圖的內容中辨識真實意圖。從喬納森·斯威夫特的《一個謙卑的建議》
相關專題推薦
評論 (10)
0/500
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

AI代理之年:深入探討2025年的期望與現實
許多專家預言2025年將是AI代理—由OpenAI、Anthropic、Google和DeepSeek等公司開發的先進大型語言和多模態模型驅動的專業AI系統—終於站上舞台中心的年份。然而,根據VentureBeat近期在社交網絡X上進行的民意調查,大多數AI代理仍停留在實驗階段,陷入某種企業困境。
但地平線上閃現一絲希望。來自西北大學、微軟、斯坦福大學和華盛頓大學的研究人員,包括曾任DeepSeek研究員、現於西北大學攻讀計算機科學博士的王梓涵,聯手推出RAGEN。此新系統旨在訓練和評估AI代理,使其在現實世界和企業應用中更可靠、更具適應性。
RAGEN:訓練AI代理的新方法
與數學求解或代碼生成等靜態任務不同,RAGEN專注於動態、多輪交互,代理需在不確定性中適應、記憶和推理。該系統基於名為StarPO(狀態-思考-行動-獎勵策略優化)的定制強化學習(RL)框架,強調通過經驗學習,而非死記硬背。StarPO審視整個決策序列,而非僅單一步驟響應。
StarPO分為兩個階段運行:展開階段,由大型語言模型生成完整的交互序列,引導以推理為基礎;更新階段,通過規範化累積獎勵優化模型。與傳統策略優化方法相比,此方法提供更穩定且可解釋的學習循環。
研究人員使用阿里巴巴Qwen模型的微調版本(特別是Qwen 1.5和Qwen 2.5)測試此框架,因其開放權重和強大的指令遵循能力而被選中。這一選擇便於在符號任務中實現可重現性和一致的基準比較。
回聲陷阱:強化學習中的挑戰
王梓涵在一則廣泛分享的X帖子中強調了強化學習訓練中的關鍵問題:*為何你的強化學習訓練總是崩潰?* 團隊發現,雖然大型語言模型代理最初能產生合理推理的響應,但強化學習系統常因獎勵捷徑而導致重複行為,降低性能—他們稱之為“回聲陷阱”。
這種退化由反饋循環驅動,某些短語或策略早期獲得高獎勵,鼓勵過度使用並抑制探索。症狀顯而易見:獎勵方差斷崖式下降、梯度激增和推理痕跡消失。
RAGEN的測試環境
為在控制環境中研究這些行為,RAGEN在三個符號環境中評估代理:
- Bandit: 單輪隨機任務,測試符號風險-獎勵推理。
- Sokoban: 多輪確定性益智遊戲,涉及不可逆決策。
- Frozen Lake: 隨機多輪任務,需要適應性規劃。
每個環境旨在最小化現實世界的先驗知識,僅專注於訓練期間發展的決策策略。例如,在Bandit環境中,代理必須對代表不同獎勵分佈的龍與鳳臂進行符號推理,將其解釋為“力量”和“希望”以預測結果。
以StarPO-S穩定強化學習
為應對訓練崩潰,研究人員推出了StarPO-S,原始框架的穩定版本。StarPO-S包括三項關鍵干預措施:
- 基於不確定性的展開篩選: 優先選擇代理顯示結果不確定性的展開。
- 移除KL懲罰: 允許模型更自由地偏離原始策略,探索新行為。
- 非對稱PPO裁剪: 放大高獎勵軌跡,超過低獎勵軌跡,以提升學習效果。
這些改變有助於延遲或消除訓練崩潰,並提升三項任務的性能。正如王梓涵所述,“StarPO-S…適用於所有3項任務。緩解崩潰。更高獎勵。”
什麼造就優秀的代理AI模型?
強化學習訓練的成功不僅取決於架構,還取決於代理生成的數據質量。團隊確定了三個顯著影響訓練的關鍵維度:
- 任務多樣性: 讓模型暴露於廣泛的初始場景可提升泛化能力。
- 交互粒度: 允許每輪多個行動,實現更有意義的規劃。
- 展開新鮮度: 保持訓練數據與當前模型策略一致,避免過時的學習信號。
這些因素有助於更穩定且有效的訓練過程。Github上的互動演示網站將代理展開視覺化為完整對話輪次,不僅包括行動,還包括行動前的逐步思考過程。例如,在解決數學問題時,代理可能首先“思考”隔離變量,然後提交答案如“x = 5”。這些中間思考過程可見且可追溯,增加代理決策的透明度。
當推理耗盡時
雖然顯性推理在Bandit等簡單單輪任務中提升性能,但在多輪訓練中往往退化。儘管使用結構化提示和標記,推理痕跡常會縮減或消失,除非直接獎勵。這突顯了獎勵設計的局限性:專注於任務完成可能忽略背後過程的質量。團隊嘗試基於格式的懲罰以鼓勵更好結構的推理,但承認可能需要更精細的獎勵塑造。
開放工具與未來方向
RAGEN及其StarPO和StarPO-S框架現已作為開源項目在https://github.com/RAGEN-AI/RAGEN上提供。然而,截至撰寫時,Github倉庫中未列明明確許可證,這可能限制其使用或分發。
該系統為開發不僅完成任務,還能思考、規劃和進化的AI代理提供了寶貴基礎。隨著AI走向更大自主性,像RAGEN這樣的項目有助於闡明訓練模型從自身行動後果中學習所需的條件。
企業應用的未解問題
雖然RAGEN論文提供了詳細的技術路線圖,但對於希望在企業環境中應用這些方法的用戶,仍有若干實際問題。例如,RAGEN的方法在風格化符號任務之外的轉移性如何?企業是否需要為發票處理或客戶支持等流程設計全新環境和獎勵函數?
王梓涵在對VentureBeat的X直接消息中建議,改善任務多樣性可能有所幫助,因為當前遊戲任務僅有相似的網格表示,缺乏語義信息。他也對企業使用RAGEN設計自己的AI代理訓練練習表示樂觀,指出Github鏈接提供了添加新環境的簡單介紹。
另一關鍵領域是可擴展性。即使有StarPO-S的增強,論文承認訓練在更長時間範圍內仍會崩潰。這引發了一個問題:是否存在理論或實際路徑來維持開放或持續演進任務序列的推理?
截至撰寫時,RAGEN的Github倉庫或文檔中未列明明確許可證,留下使用權的開放問題。儘管如此,RAGEN不僅作為技術貢獻脫穎而出,還作為邁向更自主、具推理能力的AI代理的概念性一步。是否成為企業AI堆棧的一部分尚待觀察,但其對代理學習動態的洞察已開始重新定義大型語言模型訓練的前沿。
DeepSeek 推出可與前沿系統匹敵的人工智慧模型
中國人工智慧實驗室 DeepSeek 已發布其最新大型語言模型 DeepSeek V4 的兩個預覽版本,這是對去年 V3.2 模型及其配套的 R1 推理模型的備受期待的更新,該模型曾在人工智慧界引起巨大迴響。該公司表示,DeepSeek V4 Flash 與 V4 Pro 均屬專家混合模型,各自具備 100 萬個標記的上下文視窗——足以處理提示語中的龐大程式碼庫或文件。此專家混合方法會針對每項任務
Multiverse Computing 推出免費壓縮生成式人工智慧模型
大型語言模型面臨著重大挑戰:其龐大的體積。西班牙新創公司Multiverse Computing正透過開發壓縮模型來解決此問題,旨在彌合尖端AI能力與企業實際可負擔部署方案之間的差距。其核心創新在於「CompactifAI」壓縮技術——這項受量子運算原理啟發的技術,已被這家巴斯克公司用於優化OpenAI的模型。即日起,開發者可在Hugging Face平台免費使用Multiverse增強版的Hyp
人工智慧揭露新聞內容中的隱藏議程
ChatGPT風格的模型現正接受訓練,以揭示新聞文章背後的潛在觀點——即使該觀點被隱藏在引語、框架或(有時虛偽的)中立表象之下。透過將文章拆解為標題、導語和引語等段落,新型系統能識別長篇專業新聞報導中的偏見。 這種掌握作者或發言者真實立場的能力——學術文獻中稱為立場檢測——正挑戰語言解讀中最複雜的難題之一:從可能刻意設計用以隱藏或模糊意圖的內容中辨識真實意圖。從喬納森·斯威夫特的《一個謙卑的建議》
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔





首頁






