前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen

AI代理年:仔細研究2025年的期望和現實
2025年被許多專家宣佈為AI代理商(由OpenAI,Anthropic,Google和DeepSeek等公司提供支持的AI代理商(由高級大語和多模型)提供支持的一年。但是,根據最近對社交網絡X的VentureBeat民意調查,大多數AI代理商仍在實驗階段中陷入困境,陷入了一種公司的困境。
但是,地平線有一線希望。西北大學,微軟,斯坦福大學和華盛頓大學的研究人員的合作努力,包括Zihan Wang,他是前DeepSeek研究員Zihan Wang,目前攻讀西北地區的計算機科學博士學位,引入了Ragen。這個新系統旨在培訓和評估AI代理,以使其對現實世界中的企業使用更可靠和適應。
拉根:一種新的培訓AI代理商的方法
與諸如數學求解或代碼生成之類的靜態任務不同,Ragen專注於動態的多轉交互作用,其中代理需要在不確定性中適應,記住和原因。該系統建立在稱為Starpo(狀態思維 - 獎勵政策優化)的自定義加固學習(RL)框架上,該框架強調通過經驗而不是死記硬背的記憶來學習。 Starpo著眼於整個決策序列,而不僅僅是單步響應。
StarPo分為兩個階段:LLM生成以推理為指導的完整交互序列的推出階段,以及使用歸一化累積獎勵優化模型的更新階段。與傳統的政策優化方法相比,這種方法提供了更穩定,更容易解釋的學習循環。
研究人員使用阿里巴巴QWEN模型的微調版本,特別是QWEN 1.5和QWEN 2.5測試了該框架,該框架是為了開放的重量和強大的指導性功能而選擇的。這種選擇促進了符號任務之間的可重複性和一致的基線比較。
迴聲陷阱:增強學習的挑戰
Zihan Wang在一個廣泛共享的X線程中強調了RL培訓中的一個關鍵問題: *為什麼您的RL培訓總是崩潰?
反饋循環為某些短語或策略提早獲得了很高的回報,從而鼓勵過度使用和扼殺探索,從而推動了這種回歸。症狀很明顯:獎勵差異懸崖,梯度尖峰和消失的推理痕跡。
拉根的測試環境
為了在受控的環境中研究這些行為,拉根評估了三個符號環境的代理:
- 強盜:一項單轉,隨機任務,測試符號風險獎勵推理。
- Sokoban:一個涉及不可逆轉決策的多轉彎,確定性的難題。
- 冷凍湖:一項需要自適應計劃的隨機,多轉彎任務。
每個環境旨在最大程度地減少現實世界的先驗,並僅專注於培訓期間制定的決策策略。例如,在強盜環境中,代理必須象徵性地推理代表不同獎勵分佈的龍和鳳凰臂,將它們解釋為“力量”和“希望”,以預測結果。
使用Starpo-S穩定增強學習
為了打擊訓練崩潰,研究人員介紹了STARPO-S,這是原始框架的穩定版本。 Starpo-S包括三個關鍵干預措施:
- 基於不確定性的推出過濾:優先級推廣,其中代理顯示結果不確定性。
- KL罰款:允許該模型更自由地偏離其原始政策並探索新行為。
- 不對稱的PPO剪輯:擴大高回報軌跡比低迴報的軌跡增加了學習。
這些更改有助於延遲或消除培訓崩潰並提高所有三個任務的性能。正如Wang所說,“ Starpo-S…在所有3個任務中都可以解決。緩解崩潰。更好的回報。”
是什麼使良好的代理AI模型?
RL培訓的成功不僅取決於體系結構,還取決於代理商生成的數據的質量。該團隊確定了三個重要影響培訓的重要方面:
- 任務多樣性:將模型暴露在廣泛的初始場景中可以改善概括。
- 互動粒度:允許每回合進行多次操作實現更有意義的計劃。
- 推出新鮮度:保持與當前模型策略一致的培訓數據避免過時的學習信號。
這些因素有助於更穩定,更有效的培訓過程。 GitHub上的一個交互式演示站點可視化代理在完整的對話轉彎時的推出,不僅包括動作,還包括在它們之前的逐步思考過程。例如,在解決數學問題時,代理商可能首先“思考”要在提交諸如'x = 5'之類的答案之前隔離變量。這些中間思想是可見和可追溯的,從而增加了代理如何做出決策的透明度。
當推理用完時
雖然明確的推理可以提高簡單,單轉的任務(例如強盜)的性能,但在多轉彎訓練期間它往往會衰減。儘管使用結構化提示和令牌,但除非直接獎勵,否則推理痕跡通常會收縮或消失。這突出了獎勵通常設計的限制:專注於任務完成可能會忽略其背後的過程質量。該團隊進行了基於格式的懲罰,以鼓勵更好的結構化推理,但承認可能需要更精緻的獎勵成型。
開放工具和未來的方向
Ragen及其Starpo和Starpo-S框架現在可以在https://github.com/ragen-ai/ragen上作為開源項目。但是,在撰寫本文時,GitHub存儲庫中沒有列出明確的許可證,這可能會限制其其他人的使用或重新分配。
該系統為那些有興趣開發AI代理的人提供了寶貴的基礎,這些AI代理不僅完成任務,而且考慮,計劃和發展。隨著AI朝著更大的自主權發展,像Ragen這樣的項目幫助闡明了訓練模型所需的內容,這些模型從自己的行動的後果中學習。
現實企業採用的傑出問題
儘管Ragen Paper提供了詳細的技術路線圖,但對於希望在企業設置中應用這些方法的人仍然存在一些實際問題。例如,拉根(Ragen)的方法超出了風格化的象徵性任務如何轉移?企業是否需要設計全新的環境和獎勵功能才能在發票處理或客戶支持等工作流程中使用此系統?
王在X上的VentureBeat的直接信息中建議,改善任務多樣性可以有所幫助,因為當前的遊戲任務只有類似的網格表示,但缺乏語義信息。他還對使用Ragen為AI代理設計自己的培訓練習的企業表示樂觀,並指出GitHub鏈接為添加新環境提供了簡單的介紹。
另一個關鍵領域是可伸縮性。即使使用Starpo-S提供的增強功能,該論文也承認培訓最終仍會倒在更長的視野上。這就提出了一個問題:是否有理論或實用的途徑來維持對開放式或不斷發展的任務序列的推理?
在撰寫本文時,Ragen Github存儲庫或文檔中沒有列出任何明確的許可證,而留下了有關使用權的公開問題。儘管如此,拉根(Ragen)不僅是技術貢獻,而且是邁向更自主,能夠推理的AI代理商的概念步驟。它是否成為企業AI堆棧的一部分還有待觀察,但其對代理學習動態的見解已經在幫助重新定義LLM培訓的前沿。
相關文章
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
評論 (5)
0/200
RalphWalker
2025-05-06 08:00:00
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
2025-05-06 08:00:00
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
MateoAdams
2025-05-04 08:00:00
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
GeorgeTaylor
2025-05-05 08:00:00
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
EricLewis
2025-05-05 08:00:00
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
AI代理年:仔細研究2025年的期望和現實
2025年被許多專家宣佈為AI代理商(由OpenAI,Anthropic,Google和DeepSeek等公司提供支持的AI代理商(由高級大語和多模型)提供支持的一年。但是,根據最近對社交網絡X的VentureBeat民意調查,大多數AI代理商仍在實驗階段中陷入困境,陷入了一種公司的困境。
但是,地平線有一線希望。西北大學,微軟,斯坦福大學和華盛頓大學的研究人員的合作努力,包括Zihan Wang,他是前DeepSeek研究員Zihan Wang,目前攻讀西北地區的計算機科學博士學位,引入了Ragen。這個新系統旨在培訓和評估AI代理,以使其對現實世界中的企業使用更可靠和適應。
拉根:一種新的培訓AI代理商的方法
與諸如數學求解或代碼生成之類的靜態任務不同,Ragen專注於動態的多轉交互作用,其中代理需要在不確定性中適應,記住和原因。該系統建立在稱為Starpo(狀態思維 - 獎勵政策優化)的自定義加固學習(RL)框架上,該框架強調通過經驗而不是死記硬背的記憶來學習。 Starpo著眼於整個決策序列,而不僅僅是單步響應。
StarPo分為兩個階段:LLM生成以推理為指導的完整交互序列的推出階段,以及使用歸一化累積獎勵優化模型的更新階段。與傳統的政策優化方法相比,這種方法提供了更穩定,更容易解釋的學習循環。
研究人員使用阿里巴巴QWEN模型的微調版本,特別是QWEN 1.5和QWEN 2.5測試了該框架,該框架是為了開放的重量和強大的指導性功能而選擇的。這種選擇促進了符號任務之間的可重複性和一致的基線比較。
迴聲陷阱:增強學習的挑戰
Zihan Wang在一個廣泛共享的X線程中強調了RL培訓中的一個關鍵問題: *為什麼您的RL培訓總是崩潰?
反饋循環為某些短語或策略提早獲得了很高的回報,從而鼓勵過度使用和扼殺探索,從而推動了這種回歸。症狀很明顯:獎勵差異懸崖,梯度尖峰和消失的推理痕跡。
拉根的測試環境
為了在受控的環境中研究這些行為,拉根評估了三個符號環境的代理:
- 強盜:一項單轉,隨機任務,測試符號風險獎勵推理。
- Sokoban:一個涉及不可逆轉決策的多轉彎,確定性的難題。
- 冷凍湖:一項需要自適應計劃的隨機,多轉彎任務。
每個環境旨在最大程度地減少現實世界的先驗,並僅專注於培訓期間制定的決策策略。例如,在強盜環境中,代理必須象徵性地推理代表不同獎勵分佈的龍和鳳凰臂,將它們解釋為“力量”和“希望”,以預測結果。
使用Starpo-S穩定增強學習
為了打擊訓練崩潰,研究人員介紹了STARPO-S,這是原始框架的穩定版本。 Starpo-S包括三個關鍵干預措施:
- 基於不確定性的推出過濾:優先級推廣,其中代理顯示結果不確定性。
- KL罰款:允許該模型更自由地偏離其原始政策並探索新行為。
- 不對稱的PPO剪輯:擴大高回報軌跡比低迴報的軌跡增加了學習。
這些更改有助於延遲或消除培訓崩潰並提高所有三個任務的性能。正如Wang所說,“ Starpo-S…在所有3個任務中都可以解決。緩解崩潰。更好的回報。”
是什麼使良好的代理AI模型?
RL培訓的成功不僅取決於體系結構,還取決於代理商生成的數據的質量。該團隊確定了三個重要影響培訓的重要方面:
- 任務多樣性:將模型暴露在廣泛的初始場景中可以改善概括。
- 互動粒度:允許每回合進行多次操作實現更有意義的計劃。
- 推出新鮮度:保持與當前模型策略一致的培訓數據避免過時的學習信號。
這些因素有助於更穩定,更有效的培訓過程。 GitHub上的一個交互式演示站點可視化代理在完整的對話轉彎時的推出,不僅包括動作,還包括在它們之前的逐步思考過程。例如,在解決數學問題時,代理商可能首先“思考”要在提交諸如'x = 5'之類的答案之前隔離變量。這些中間思想是可見和可追溯的,從而增加了代理如何做出決策的透明度。
當推理用完時
雖然明確的推理可以提高簡單,單轉的任務(例如強盜)的性能,但在多轉彎訓練期間它往往會衰減。儘管使用結構化提示和令牌,但除非直接獎勵,否則推理痕跡通常會收縮或消失。這突出了獎勵通常設計的限制:專注於任務完成可能會忽略其背後的過程質量。該團隊進行了基於格式的懲罰,以鼓勵更好的結構化推理,但承認可能需要更精緻的獎勵成型。
開放工具和未來的方向
Ragen及其Starpo和Starpo-S框架現在可以在https://github.com/ragen-ai/ragen上作為開源項目。但是,在撰寫本文時,GitHub存儲庫中沒有列出明確的許可證,這可能會限制其其他人的使用或重新分配。
該系統為那些有興趣開發AI代理的人提供了寶貴的基礎,這些AI代理不僅完成任務,而且考慮,計劃和發展。隨著AI朝著更大的自主權發展,像Ragen這樣的項目幫助闡明了訓練模型所需的內容,這些模型從自己的行動的後果中學習。
現實企業採用的傑出問題
儘管Ragen Paper提供了詳細的技術路線圖,但對於希望在企業設置中應用這些方法的人仍然存在一些實際問題。例如,拉根(Ragen)的方法超出了風格化的象徵性任務如何轉移?企業是否需要設計全新的環境和獎勵功能才能在發票處理或客戶支持等工作流程中使用此系統?
王在X上的VentureBeat的直接信息中建議,改善任務多樣性可以有所幫助,因為當前的遊戲任務只有類似的網格表示,但缺乏語義信息。他還對使用Ragen為AI代理設計自己的培訓練習的企業表示樂觀,並指出GitHub鏈接為添加新環境提供了簡單的介紹。
另一個關鍵領域是可伸縮性。即使使用Starpo-S提供的增強功能,該論文也承認培訓最終仍會倒在更長的視野上。這就提出了一個問題:是否有理論或實用的途徑來維持對開放式或不斷發展的任務序列的推理?
在撰寫本文時,Ragen Github存儲庫或文檔中沒有列出任何明確的許可證,而留下了有關使用權的公開問題。儘管如此,拉根(Ragen)不僅是技術貢獻,而且是邁向更自主,能夠推理的AI代理商的概念步驟。它是否成為企業AI堆棧的一部分還有待觀察,但其對代理學習動態的見解已經在幫助重新定義LLM培訓的前沿。




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀












