首頁 消息 前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen

前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen

2025年05月04日
DavidMartínez
0

前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen

AI代理年:仔細研究2025年的期望和現實

2025年被許多專家宣佈為AI代理商(由OpenAI,Anthropic,Google和DeepSeek等公司提供支持的AI代理商(由高級大語和多模型)提供支持的一年。但是,根據最近對社交網絡X的VentureBeat民意調查,大多數AI代理商仍在實驗階段中陷入困境,陷入了一種公司的困境。

但是,地平線有一線希望。西北大學,微軟,斯坦福大學和華盛頓大學的研究人員的合作努力,包括Zihan Wang,他是前DeepSeek研究員Zihan Wang,目前攻讀西北地區的計算機科學博士學位,引入了Ragen。這個新系統旨在培訓和評估AI代理,以使其對現實世界中的企業使用更可靠和適應。

拉根:一種新的培訓AI代理商的方法

與諸如數學求解或代碼生成之類的靜態任務不同,Ragen專注於動態的多轉交互作用,其中代理需要在不確定性中適應,記住和原因。該系統建立在稱為Starpo(狀態思維 - 獎勵政策優化)的自定義加固學習(RL)框架上,該框架強調通過經驗而不是死記硬背的記憶來學習。 Starpo著眼於整個決策序列,而不僅僅是單步響應。

StarPo分為兩個階段:LLM生成以推理為指導的完整交互序列的推出階段,以及使用歸一化累積獎勵優化模型的更新階段。與傳統的政策優化方法相比,這種方法提供了更穩定,更容易解釋的學習循環。

研究人員使用阿里巴巴QWEN模型的微調版本,特別是QWEN 1.5和QWEN 2.5測試了該框架,該框架是為了開放的重量和強大的指導性功能而選擇的。這種選擇促進了符號任務之間的可重複性和一致的基線比較。

迴聲陷阱:增強學習的挑戰

Zihan Wang在一個廣泛共享的X線程中強調了RL培訓中的一個關鍵問題: *為什麼您的RL培訓總是崩潰?

反饋循環為某些短語或策略提早獲得了很高的回報,從而鼓勵過度使用和扼殺探索,從而推動了這種回歸。症狀很明顯:獎勵差異懸崖,梯度尖峰和消失的推理痕跡。

拉根的測試環境

為了在受控的環境中研究這些行為,拉根評估了三個符號環境的代理:

  • 強盜:一項單轉,隨機任務,測試符號風險獎勵推理。
  • Sokoban:一個涉及不可逆轉決策的多轉彎,確定性的難題。
  • 冷凍湖:一項需要自適應計劃的隨機,多轉彎任務。

每個環境旨在最大程度地減少現實世界的先驗,並僅專注於培訓期間制定的決策策略。例如,在強盜環境中,代理必須象徵性地推理代表不同獎勵分佈的龍和鳳凰臂,將它們解釋為“力量”和“希望”,以預測結果。

使用Starpo-S穩定增強學習

為了打擊訓練崩潰,研究人員介紹了STARPO-S,這是原始框架的穩定版本。 Starpo-S包括三個關鍵干預措施:

  1. 基於不確定性的推出過濾:優先級推廣,其中代理顯示結果不確定性。
  2. KL罰款:允許該模型更自由地偏離其原始政策並探索新行為。
  3. 不對稱的PPO剪輯:擴大高回報軌跡比低迴報的軌跡增加了學習。

這些更改有助於延遲或消除培訓崩潰並提高所有三個任務的性能。正如Wang所說,“ Starpo-S…在所有3個任務中都可以解決。緩解崩潰。更好的回報。”

是什麼使良好的代理AI模型?

RL培訓的成功不僅取決於體系結構,還取決於代理商生成的數據的質量。該團隊確定了三個重要影響培訓的重要方面:

  • 任務多樣性:將模型暴露在廣泛的初始場景中可以改善概括。
  • 互動粒度:允許每回合進行多次操作實現更有意義的計劃。
  • 推出新鮮度:保持與當前模型策略一致的培訓數據避免過時的學習信號。

這些因素有助於更穩定,更有效的培訓過程。 GitHub上的一個交互式演示站點可視化代理在完整的對話轉彎時的推出,不僅包括動作,還包括在它們之前的逐步思考過程。例如,在解決數學問題時,代理商可能首先“思考”要在提交諸如'x = 5'之類的答案之前隔離變量。這些中間思想是可見和可追溯的,從而增加了代理如何做出決策的透明度。

當推理用完時

雖然明確的推理可以提高簡單,單轉的任務(例如強盜)的性能,但在多轉彎訓練期間它往往會衰減。儘管使用結構化提示和令牌,但除非直接獎勵,否則推理痕跡通常會收縮或消失。這突出了獎勵通常設計的限制:專注於任務完成可能會忽略其背後的過程質量。該團隊進行了基於格式的懲罰,以鼓勵更好的結構化推理,但承認可能需要更精緻的獎勵成型。

開放工具和未來的方向

Ragen及其Starpo和Starpo-S框架現在可以在https://github.com/ragen-ai/ragen上作為開源項目。但是,在撰寫本文時,GitHub存儲庫中沒有列出明確的許可證,這可能會限制其其他人的使用或重新分配。

該系統為那些有興趣開發AI代理的人提供了寶貴的基礎,這些AI代理不僅完成任務,而且考慮,計劃和發展。隨著AI朝著更大的自主權發展,像Ragen這樣的項目幫助闡明了訓練模型所需的內容,這些模型從自己的行動的後果中學習。

現實企業採用的傑出問題

儘管Ragen Paper提供了詳細的技術路線圖,但對於希望在企業設置中應用這些方法的人仍然存在一些實際問題。例如,拉根(Ragen)的方法超出了風格化的象徵性任務如何轉移?企業是否需要設計全新的環境和獎勵功能才能在發票處理或客戶支持等工作流程中使用此系統?

王在X上的VentureBeat的直接信息中建議,改善任務多樣性可以有所幫助,因為當前的遊戲任務只有類似的網格表示,但缺乏語義信息。他還對使用Ragen為AI代理設計自己的培訓練習的企業表示樂觀,並指出GitHub鏈接為添加新環境提供了簡單的介紹。

另一個關鍵領域是可伸縮性。即使使用Starpo-S提供的增強功能,該論文也承認培訓最終仍會倒在更長的視野上。這就提出了一個問題:是否有理論或實用的途徑來維持對開放式或不斷發展的任務序列的推理?

在撰寫本文時,Ragen Github存儲庫或文檔中沒有列出任何明確的許可證,而留下了有關使用權的公開問題。儘管如此,拉根(Ragen)不僅是技術貢獻,而且是邁向更自主,能夠推理的AI代理商的概念步驟。它是否成為企業AI堆棧的一部分還有待觀察,但其對代理學習動態的見解已經在幫助重新定義LLM培訓的前沿。

相關文章
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
評論 (0)
0/200
Back to Top
OR