前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen

AI代理年:仔細研究2025年的期望和現實
2025年被許多專家宣佈為AI代理商(由OpenAI,Anthropic,Google和DeepSeek等公司提供支持的AI代理商(由高級大語和多模型)提供支持的一年。但是,根據最近對社交網絡X的VentureBeat民意調查,大多數AI代理商仍在實驗階段中陷入困境,陷入了一種公司的困境。
但是,地平線有一線希望。西北大學,微軟,斯坦福大學和華盛頓大學的研究人員的合作努力,包括Zihan Wang,他是前DeepSeek研究員Zihan Wang,目前攻讀西北地區的計算機科學博士學位,引入了Ragen。這個新系統旨在培訓和評估AI代理,以使其對現實世界中的企業使用更可靠和適應。
拉根:一種新的培訓AI代理商的方法
與諸如數學求解或代碼生成之類的靜態任務不同,Ragen專注於動態的多轉交互作用,其中代理需要在不確定性中適應,記住和原因。該系統建立在稱為Starpo(狀態思維 - 獎勵政策優化)的自定義加固學習(RL)框架上,該框架強調通過經驗而不是死記硬背的記憶來學習。 Starpo著眼於整個決策序列,而不僅僅是單步響應。
StarPo分為兩個階段:LLM生成以推理為指導的完整交互序列的推出階段,以及使用歸一化累積獎勵優化模型的更新階段。與傳統的政策優化方法相比,這種方法提供了更穩定,更容易解釋的學習循環。
研究人員使用阿里巴巴QWEN模型的微調版本,特別是QWEN 1.5和QWEN 2.5測試了該框架,該框架是為了開放的重量和強大的指導性功能而選擇的。這種選擇促進了符號任務之間的可重複性和一致的基線比較。
迴聲陷阱:增強學習的挑戰
Zihan Wang在一個廣泛共享的X線程中強調了RL培訓中的一個關鍵問題: *為什麼您的RL培訓總是崩潰?
反饋循環為某些短語或策略提早獲得了很高的回報,從而鼓勵過度使用和扼殺探索,從而推動了這種回歸。症狀很明顯:獎勵差異懸崖,梯度尖峰和消失的推理痕跡。
拉根的測試環境
為了在受控的環境中研究這些行為,拉根評估了三個符號環境的代理:
- 強盜:一項單轉,隨機任務,測試符號風險獎勵推理。
- Sokoban:一個涉及不可逆轉決策的多轉彎,確定性的難題。
- 冷凍湖:一項需要自適應計劃的隨機,多轉彎任務。
每個環境旨在最大程度地減少現實世界的先驗,並僅專注於培訓期間制定的決策策略。例如,在強盜環境中,代理必須象徵性地推理代表不同獎勵分佈的龍和鳳凰臂,將它們解釋為“力量”和“希望”,以預測結果。
使用Starpo-S穩定增強學習
為了打擊訓練崩潰,研究人員介紹了STARPO-S,這是原始框架的穩定版本。 Starpo-S包括三個關鍵干預措施:
- 基於不確定性的推出過濾:優先級推廣,其中代理顯示結果不確定性。
- KL罰款:允許該模型更自由地偏離其原始政策並探索新行為。
- 不對稱的PPO剪輯:擴大高回報軌跡比低迴報的軌跡增加了學習。
這些更改有助於延遲或消除培訓崩潰並提高所有三個任務的性能。正如Wang所說,“ Starpo-S…在所有3個任務中都可以解決。緩解崩潰。更好的回報。”
是什麼使良好的代理AI模型?
RL培訓的成功不僅取決於體系結構,還取決於代理商生成的數據的質量。該團隊確定了三個重要影響培訓的重要方面:
- 任務多樣性:將模型暴露在廣泛的初始場景中可以改善概括。
- 互動粒度:允許每回合進行多次操作實現更有意義的計劃。
- 推出新鮮度:保持與當前模型策略一致的培訓數據避免過時的學習信號。
這些因素有助於更穩定,更有效的培訓過程。 GitHub上的一個交互式演示站點可視化代理在完整的對話轉彎時的推出,不僅包括動作,還包括在它們之前的逐步思考過程。例如,在解決數學問題時,代理商可能首先“思考”要在提交諸如'x = 5'之類的答案之前隔離變量。這些中間思想是可見和可追溯的,從而增加了代理如何做出決策的透明度。
當推理用完時
雖然明確的推理可以提高簡單,單轉的任務(例如強盜)的性能,但在多轉彎訓練期間它往往會衰減。儘管使用結構化提示和令牌,但除非直接獎勵,否則推理痕跡通常會收縮或消失。這突出了獎勵通常設計的限制:專注於任務完成可能會忽略其背後的過程質量。該團隊進行了基於格式的懲罰,以鼓勵更好的結構化推理,但承認可能需要更精緻的獎勵成型。
開放工具和未來的方向
Ragen及其Starpo和Starpo-S框架現在可以在https://github.com/ragen-ai/ragen上作為開源項目。但是,在撰寫本文時,GitHub存儲庫中沒有列出明確的許可證,這可能會限制其其他人的使用或重新分配。
該系統為那些有興趣開發AI代理的人提供了寶貴的基礎,這些AI代理不僅完成任務,而且考慮,計劃和發展。隨著AI朝著更大的自主權發展,像Ragen這樣的項目幫助闡明了訓練模型所需的內容,這些模型從自己的行動的後果中學習。
現實企業採用的傑出問題
儘管Ragen Paper提供了詳細的技術路線圖,但對於希望在企業設置中應用這些方法的人仍然存在一些實際問題。例如,拉根(Ragen)的方法超出了風格化的象徵性任務如何轉移?企業是否需要設計全新的環境和獎勵功能才能在發票處理或客戶支持等工作流程中使用此系統?
王在X上的VentureBeat的直接信息中建議,改善任務多樣性可以有所幫助,因為當前的遊戲任務只有類似的網格表示,但缺乏語義信息。他還對使用Ragen為AI代理設計自己的培訓練習的企業表示樂觀,並指出GitHub鏈接為添加新環境提供了簡單的介紹。
另一個關鍵領域是可伸縮性。即使使用Starpo-S提供的增強功能,該論文也承認培訓最終仍會倒在更長的視野上。這就提出了一個問題:是否有理論或實用的途徑來維持對開放式或不斷發展的任務序列的推理?
在撰寫本文時,Ragen Github存儲庫或文檔中沒有列出任何明確的許可證,而留下了有關使用權的公開問題。儘管如此,拉根(Ragen)不僅是技術貢獻,而且是邁向更自主,能夠推理的AI代理商的概念步驟。它是否成為企業AI堆棧的一部分還有待觀察,但其對代理學習動態的見解已經在幫助重新定義LLM培訓的前沿。
相關文章
Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭
Google 於週一強化其 AI 策略,推出先進的 Gemini 2.5 模型供企業使用,並引入成本效益高的變體,以在價格與性能上競爭。Alphabet 旗下的公司將其旗艦 AI 模型—Gemini 2.5 Pro 與 Gemini 2.5 Flash—從測試階段提升至全面可用,展示其適用於關鍵業務應用的準備度。同時,Google 推出 Gemini 2.5 Flash-Lite,定位為高量任務中
阿里巴巴推出Wan2.1-VACE:開源AI視頻解決方案
阿里巴巴推出了Wan2.1-VACE,一款開源AI模型,旨在改變視頻創作與編輯流程。VACE是阿里巴巴Wan2.1視頻AI模型系列的關鍵組成部分,公司宣稱這是「業界首個為多樣化視頻生成與編輯任務提供全面解決方案的開源模型」。如果阿里巴巴能夠簡化視頻製作流程,將多種工具整合到單一平台,可能會重新定義行業標準。VACE能做什麼?它可以從多種輸入生成視頻,例如文字提示、靜態圖像或短視頻片段。除了視頻創作
AI驅動的零售實驗在Anthropic慘敗
想像一下,將一家小商店交給人工智慧,委託它處理從定價到客戶互動的一切。會出什麼問題呢?Anthropic最近的一項研究於週五發布,回答了這個問題:幾乎所有事情都出了問題。他們的AI助手Claude在舊金山辦公室經營了一個月的小商店,結果就像是為商學院學生寫下的警示故事,由一個毫無現實經驗的人撰寫——在這次實驗中,確實如此。Anthropic辦公室的「商店」是一個裝滿飲料和零食的小冰箱,搭配一個用於
評論 (6)
0/200
JimmyRamirez
2025-07-23 12:59:29
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
2025-05-06 15:48:04
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
2025-05-06 06:45:54
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
2025-05-05 11:45:04
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
2025-05-05 04:00:48
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
MateoAdams
2025-05-04 23:14:20
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
AI代理年:仔細研究2025年的期望和現實
2025年被許多專家宣佈為AI代理商(由OpenAI,Anthropic,Google和DeepSeek等公司提供支持的AI代理商(由高級大語和多模型)提供支持的一年。但是,根據最近對社交網絡X的VentureBeat民意調查,大多數AI代理商仍在實驗階段中陷入困境,陷入了一種公司的困境。
但是,地平線有一線希望。西北大學,微軟,斯坦福大學和華盛頓大學的研究人員的合作努力,包括Zihan Wang,他是前DeepSeek研究員Zihan Wang,目前攻讀西北地區的計算機科學博士學位,引入了Ragen。這個新系統旨在培訓和評估AI代理,以使其對現實世界中的企業使用更可靠和適應。
拉根:一種新的培訓AI代理商的方法
與諸如數學求解或代碼生成之類的靜態任務不同,Ragen專注於動態的多轉交互作用,其中代理需要在不確定性中適應,記住和原因。該系統建立在稱為Starpo(狀態思維 - 獎勵政策優化)的自定義加固學習(RL)框架上,該框架強調通過經驗而不是死記硬背的記憶來學習。 Starpo著眼於整個決策序列,而不僅僅是單步響應。
StarPo分為兩個階段:LLM生成以推理為指導的完整交互序列的推出階段,以及使用歸一化累積獎勵優化模型的更新階段。與傳統的政策優化方法相比,這種方法提供了更穩定,更容易解釋的學習循環。
研究人員使用阿里巴巴QWEN模型的微調版本,特別是QWEN 1.5和QWEN 2.5測試了該框架,該框架是為了開放的重量和強大的指導性功能而選擇的。這種選擇促進了符號任務之間的可重複性和一致的基線比較。
迴聲陷阱:增強學習的挑戰
Zihan Wang在一個廣泛共享的X線程中強調了RL培訓中的一個關鍵問題: *為什麼您的RL培訓總是崩潰?
反饋循環為某些短語或策略提早獲得了很高的回報,從而鼓勵過度使用和扼殺探索,從而推動了這種回歸。症狀很明顯:獎勵差異懸崖,梯度尖峰和消失的推理痕跡。
拉根的測試環境
為了在受控的環境中研究這些行為,拉根評估了三個符號環境的代理:
- 強盜:一項單轉,隨機任務,測試符號風險獎勵推理。
- Sokoban:一個涉及不可逆轉決策的多轉彎,確定性的難題。
- 冷凍湖:一項需要自適應計劃的隨機,多轉彎任務。
每個環境旨在最大程度地減少現實世界的先驗,並僅專注於培訓期間制定的決策策略。例如,在強盜環境中,代理必須象徵性地推理代表不同獎勵分佈的龍和鳳凰臂,將它們解釋為“力量”和“希望”,以預測結果。
使用Starpo-S穩定增強學習
為了打擊訓練崩潰,研究人員介紹了STARPO-S,這是原始框架的穩定版本。 Starpo-S包括三個關鍵干預措施:
- 基於不確定性的推出過濾:優先級推廣,其中代理顯示結果不確定性。
- KL罰款:允許該模型更自由地偏離其原始政策並探索新行為。
- 不對稱的PPO剪輯:擴大高回報軌跡比低迴報的軌跡增加了學習。
這些更改有助於延遲或消除培訓崩潰並提高所有三個任務的性能。正如Wang所說,“ Starpo-S…在所有3個任務中都可以解決。緩解崩潰。更好的回報。”
是什麼使良好的代理AI模型?
RL培訓的成功不僅取決於體系結構,還取決於代理商生成的數據的質量。該團隊確定了三個重要影響培訓的重要方面:
- 任務多樣性:將模型暴露在廣泛的初始場景中可以改善概括。
- 互動粒度:允許每回合進行多次操作實現更有意義的計劃。
- 推出新鮮度:保持與當前模型策略一致的培訓數據避免過時的學習信號。
這些因素有助於更穩定,更有效的培訓過程。 GitHub上的一個交互式演示站點可視化代理在完整的對話轉彎時的推出,不僅包括動作,還包括在它們之前的逐步思考過程。例如,在解決數學問題時,代理商可能首先“思考”要在提交諸如'x = 5'之類的答案之前隔離變量。這些中間思想是可見和可追溯的,從而增加了代理如何做出決策的透明度。
當推理用完時
雖然明確的推理可以提高簡單,單轉的任務(例如強盜)的性能,但在多轉彎訓練期間它往往會衰減。儘管使用結構化提示和令牌,但除非直接獎勵,否則推理痕跡通常會收縮或消失。這突出了獎勵通常設計的限制:專注於任務完成可能會忽略其背後的過程質量。該團隊進行了基於格式的懲罰,以鼓勵更好的結構化推理,但承認可能需要更精緻的獎勵成型。
開放工具和未來的方向
Ragen及其Starpo和Starpo-S框架現在可以在https://github.com/ragen-ai/ragen上作為開源項目。但是,在撰寫本文時,GitHub存儲庫中沒有列出明確的許可證,這可能會限制其其他人的使用或重新分配。
該系統為那些有興趣開發AI代理的人提供了寶貴的基礎,這些AI代理不僅完成任務,而且考慮,計劃和發展。隨著AI朝著更大的自主權發展,像Ragen這樣的項目幫助闡明了訓練模型所需的內容,這些模型從自己的行動的後果中學習。
現實企業採用的傑出問題
儘管Ragen Paper提供了詳細的技術路線圖,但對於希望在企業設置中應用這些方法的人仍然存在一些實際問題。例如,拉根(Ragen)的方法超出了風格化的象徵性任務如何轉移?企業是否需要設計全新的環境和獎勵功能才能在發票處理或客戶支持等工作流程中使用此系統?
王在X上的VentureBeat的直接信息中建議,改善任務多樣性可以有所幫助,因為當前的遊戲任務只有類似的網格表示,但缺乏語義信息。他還對使用Ragen為AI代理設計自己的培訓練習的企業表示樂觀,並指出GitHub鏈接為添加新環境提供了簡單的介紹。
另一個關鍵領域是可伸縮性。即使使用Starpo-S提供的增強功能,該論文也承認培訓最終仍會倒在更長的視野上。這就提出了一個問題:是否有理論或實用的途徑來維持對開放式或不斷發展的任務序列的推理?
在撰寫本文時,Ragen Github存儲庫或文檔中沒有列出任何明確的許可證,而留下了有關使用權的公開問題。儘管如此,拉根(Ragen)不僅是技術貢獻,而且是邁向更自主,能夠推理的AI代理商的概念步驟。它是否成為企業AI堆棧的一部分還有待觀察,但其對代理學習動態的見解已經在幫助重新定義LLM培訓的前沿。




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀












