選項
首頁
新聞
前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen

前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen

2025-05-04
203

前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen

AI代理之年:深入探討2025年的期望與現實

許多專家預言2025年將是AI代理—由OpenAI、Anthropic、Google和DeepSeek等公司開發的先進大型語言和多模態模型驅動的專業AI系統—終於站上舞台中心的年份。然而,根據VentureBeat近期在社交網絡X上進行的民意調查,大多數AI代理仍停留在實驗階段,陷入某種企業困境。

但地平線上閃現一絲希望。來自西北大學、微軟、斯坦福大學和華盛頓大學的研究人員,包括曾任DeepSeek研究員、現於西北大學攻讀計算機科學博士的王梓涵,聯手推出RAGEN。此新系統旨在訓練和評估AI代理,使其在現實世界和企業應用中更可靠、更具適應性。

RAGEN:訓練AI代理的新方法

與數學求解或代碼生成等靜態任務不同,RAGEN專注於動態、多輪交互,代理需在不確定性中適應、記憶和推理。該系統基於名為StarPO(狀態-思考-行動-獎勵策略優化)的定制強化學習(RL)框架,強調通過經驗學習,而非死記硬背。StarPO審視整個決策序列,而非僅單一步驟響應。

StarPO分為兩個階段運行:展開階段,由大型語言模型生成完整的交互序列,引導以推理為基礎;更新階段,通過規範化累積獎勵優化模型。與傳統策略優化方法相比,此方法提供更穩定且可解釋的學習循環。

研究人員使用阿里巴巴Qwen模型的微調版本(特別是Qwen 1.5和Qwen 2.5)測試此框架,因其開放權重和強大的指令遵循能力而被選中。這一選擇便於在符號任務中實現可重現性和一致的基準比較。

回聲陷阱:強化學習中的挑戰

王梓涵在一則廣泛分享的X帖子中強調了強化學習訓練中的關鍵問題:*為何你的強化學習訓練總是崩潰?* 團隊發現,雖然大型語言模型代理最初能產生合理推理的響應,但強化學習系統常因獎勵捷徑而導致重複行為,降低性能—他們稱之為“回聲陷阱”。

這種退化由反饋循環驅動,某些短語或策略早期獲得高獎勵,鼓勵過度使用並抑制探索。症狀顯而易見:獎勵方差斷崖式下降、梯度激增和推理痕跡消失。

RAGEN的測試環境

為在控制環境中研究這些行為,RAGEN在三個符號環境中評估代理:

  • Bandit: 單輪隨機任務,測試符號風險-獎勵推理。
  • Sokoban: 多輪確定性益智遊戲,涉及不可逆決策。
  • Frozen Lake: 隨機多輪任務,需要適應性規劃。

每個環境旨在最小化現實世界的先驗知識,僅專注於訓練期間發展的決策策略。例如,在Bandit環境中,代理必須對代表不同獎勵分佈的龍與鳳臂進行符號推理,將其解釋為“力量”和“希望”以預測結果。

以StarPO-S穩定強化學習

為應對訓練崩潰,研究人員推出了StarPO-S,原始框架的穩定版本。StarPO-S包括三項關鍵干預措施:

  1. 基於不確定性的展開篩選: 優先選擇代理顯示結果不確定性的展開。
  2. 移除KL懲罰: 允許模型更自由地偏離原始策略,探索新行為。
  3. 非對稱PPO裁剪: 放大高獎勵軌跡,超過低獎勵軌跡,以提升學習效果。

這些改變有助於延遲或消除訓練崩潰,並提升三項任務的性能。正如王梓涵所述,“StarPO-S…適用於所有3項任務。緩解崩潰。更高獎勵。”

什麼造就優秀的代理AI模型?

強化學習訓練的成功不僅取決於架構,還取決於代理生成的數據質量。團隊確定了三個顯著影響訓練的關鍵維度:

  • 任務多樣性: 讓模型暴露於廣泛的初始場景可提升泛化能力。
  • 交互粒度: 允許每輪多個行動,實現更有意義的規劃。
  • 展開新鮮度: 保持訓練數據與當前模型策略一致,避免過時的學習信號。

這些因素有助於更穩定且有效的訓練過程。Github上的互動演示網站將代理展開視覺化為完整對話輪次,不僅包括行動,還包括行動前的逐步思考過程。例如,在解決數學問題時,代理可能首先“思考”隔離變量,然後提交答案如“x = 5”。這些中間思考過程可見且可追溯,增加代理決策的透明度。

當推理耗盡時

雖然顯性推理在Bandit等簡單單輪任務中提升性能,但在多輪訓練中往往退化。儘管使用結構化提示和標記,推理痕跡常會縮減或消失,除非直接獎勵。這突顯了獎勵設計的局限性:專注於任務完成可能忽略背後過程的質量。團隊嘗試基於格式的懲罰以鼓勵更好結構的推理,但承認可能需要更精細的獎勵塑造。

開放工具與未來方向

RAGEN及其StarPO和StarPO-S框架現已作為開源項目在https://github.com/RAGEN-AI/RAGEN上提供。然而,截至撰寫時,Github倉庫中未列明明確許可證,這可能限制其使用或分發。

該系統為開發不僅完成任務,還能思考、規劃和進化的AI代理提供了寶貴基礎。隨著AI走向更大自主性,像RAGEN這樣的項目有助於闡明訓練模型從自身行動後果中學習所需的條件。

企業應用的未解問題

雖然RAGEN論文提供了詳細的技術路線圖,但對於希望在企業環境中應用這些方法的用戶,仍有若干實際問題。例如,RAGEN的方法在風格化符號任務之外的轉移性如何?企業是否需要為發票處理或客戶支持等流程設計全新環境和獎勵函數?

王梓涵在對VentureBeat的X直接消息中建議,改善任務多樣性可能有所幫助,因為當前遊戲任務僅有相似的網格表示,缺乏語義信息。他也對企業使用RAGEN設計自己的AI代理訓練練習表示樂觀,指出Github鏈接提供了添加新環境的簡單介紹。

另一關鍵領域是可擴展性。即使有StarPO-S的增強,論文承認訓練在更長時間範圍內仍會崩潰。這引發了一個問題:是否存在理論或實際路徑來維持開放或持續演進任務序列的推理?

截至撰寫時,RAGEN的Github倉庫或文檔中未列明明確許可證,留下使用權的開放問題。儘管如此,RAGEN不僅作為技術貢獻脫穎而出,還作為邁向更自主、具推理能力的AI代理的概念性一步。是否成為企業AI堆棧的一部分尚待觀察,但其對代理學習動態的洞察已開始重新定義大型語言模型訓練的前沿。

相關文章
DeepSeek 推出可與前沿系統匹敵的人工智慧模型 DeepSeek 推出可與前沿系統匹敵的人工智慧模型 中國人工智慧實驗室 DeepSeek 已發布其最新大型語言模型 DeepSeek V4 的兩個預覽版本,這是對去年 V3.2 模型及其配套的 R1 推理模型的備受期待的更新,該模型曾在人工智慧界引起巨大迴響。該公司表示,DeepSeek V4 Flash 與 V4 Pro 均屬專家混合模型,各自具備 100 萬個標記的上下文視窗——足以處理提示語中的龐大程式碼庫或文件。此專家混合方法會針對每項任務
Multiverse Computing 推出免費壓縮生成式人工智慧模型 Multiverse Computing 推出免費壓縮生成式人工智慧模型 大型語言模型面臨著重大挑戰:其龐大的體積。西班牙新創公司Multiverse Computing正透過開發壓縮模型來解決此問題,旨在彌合尖端AI能力與企業實際可負擔部署方案之間的差距。其核心創新在於「CompactifAI」壓縮技術——這項受量子運算原理啟發的技術,已被這家巴斯克公司用於優化OpenAI的模型。即日起,開發者可在Hugging Face平台免費使用Multiverse增強版的Hyp
人工智慧揭露新聞內容中的隱藏議程 人工智慧揭露新聞內容中的隱藏議程 ChatGPT風格的模型現正接受訓練,以揭示新聞文章背後的潛在觀點——即使該觀點被隱藏在引語、框架或(有時虛偽的)中立表象之下。透過將文章拆解為標題、導語和引語等段落,新型系統能識別長篇專業新聞報導中的偏見。 這種掌握作者或發言者真實立場的能力——學術文獻中稱為立場檢測——正挑戰語言解讀中最複雜的難題之一:從可能刻意設計用以隱藏或模糊意圖的內容中辨識真實意圖。從喬納森·斯威夫特的《一個謙卑的建議》
相關專題推薦
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
評論 (10)
0/500
CharlesYoung
CharlesYoung 2026-04-09 02:00:57

Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.

JosephMartínez
JosephMartínez 2026-04-05 00:00:41

這方法聽起來滿有趣的,但訓練出真正可靠的AI代理還是有段距離吧?RAGEN這個方向不錯,但實務上遇到意外狀況時,它們真的能妥善應對嗎?先觀望一下實際應用案例再說...🤔

GregoryRodriguez
GregoryRodriguez 2025-10-12 10:30:38

RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?

ScottEvans
ScottEvans 2025-08-13 19:00:59

RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!

JimmyRamirez
JimmyRamirez 2025-07-23 12:59:29

This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

RalphWalker
RalphWalker 2025-05-06 15:48:04

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

OR