自學式 AI 代理改造網路體驗:準備指南

著名的人工智能研究人員 David Silver 和 Richard Sutton 在一篇新論文中提出,人工智能正在進入一個轉變性的 「體驗時代」。他們認為人工智能系統將逐漸超越對人類提供的資料的依賴,轉而透過與世界的直接互動和資料收集來取得進步。
儘管這篇論文是一篇概念性和前瞻性的文章,但其洞察力對於計劃開發和整合未來人工智能代理和系統的企業而言,具有直接的意義。
Silver 和 Sutton 都是受人尊敬的科學家,對於 AI 的發展軌跡有著精準的預測。他們的先見之明在當今最先進的 AI 系統中可見一斑。強化學習先驅 Sutton 在其 2019 年極具影響力的論文「The Bitter Lesson」中提出,最重大的長期 AI 突破始終來自於以大量計算擴展通用搜索和學習,而非主要來自於嵌入複雜的人類知識。
David Silver 是 DeepMind 的首席科學家,他在開發 AlphaGo、AlphaZero 和 AlphaStar(深度強化學習的重要里程碑)的過程中發揮了領導作用。他還與他人合作撰寫了一篇 2021 年的論文,宣稱強化學習結合精心設計的獎勵信號,最終可以產生高度先進的人工智能。
現今最精密的大型語言模型 (LLM) 就是這兩個概念的典範。自 GPT-3 以來的強大 LLM 浪潮,主要是依賴擴充計算能力和資料來吸收大量知識。最近的推理模型,例如 DeepSeek-R1,進一步證明了直接獎勵信號的強化學習足以獲取複雜的推理能力。
什麼是體驗時代?
經驗時代」是建立在 Sutton 和 Silver 所提倡的概念上,現在則是針對最近的人工智能進展而提出的。作者指出,「僅靠從人類資料中進行監督學習所驅動的進步步伐明顯放緩,這顯示需要一種新的方法」。
這種新方法需要一個新的資料來源,其產生方式可以隨著代理程式能力的增強而不斷改進。"Sutton 和 Silver 解釋說:「這可以透過允許代理從自身經驗中不斷學習來實現,也就是由代理與環境互動所產生的資料。他們認為,最終,「經驗將成為改進的主要媒介,並最終使今天系統中使用的人類數據規模相形見絀」。
根據作者的說法,未來的 AI 系統將「突破以人為中心的 AI 系統的限制」,不僅能從經驗資料中學習,還能從四個關鍵維度中學習:
- 流:AI 代理不是在孤立的事件中運作,而是「擁有自己的經驗流,像人類一樣,在長時間尺度上不斷進步」。這能夠實現長期規劃和行為的逐步適應。這方面的早期跡象出現在具有廣泛情境視窗和記憶體架構的人工智能系統中,這些情境視窗和記憶體架構可透過使用者互動進行持續更新。
- 行動與觀察:在經驗時代,代理將超越人類賦予的行動與觀察權限,在現實世界中自主運作。我們可以在代理系統中看到這一點,這些代理系統使用電腦控制和模型情境協定 (Model Context Protocol, MCP) 等工具與外部應用程式和資源進行介面連接。
- 獎勵:雖然目前的強化學習系統在很大程度上依賴於人類設計的獎勵功能,但未來的人工智能代理應該創建自己的動態獎勵功能。這些功能會隨著時間演進,將使用者的偏好與代理程式的行動和觀察所得的真實世界回饋相結合。早期的自我設計獎勵系統,例如 Nvidia 的 DrEureka,提供了這個未來的一瞥。
- 規劃與推理:目前的推理模型通常是模仿人類思考而設計的。作者提出:「更有效率的思考機制肯定存在,使用非人類語言,例如可能利用符號、分散、連續或可微分的計算」。AI 代理應該與世界接觸,使用觀察到的資料來測試、改良與更新他們的推理,同時建立一個內部世界模型。
人工智能代理程式透過強化學習進行適應的概念並不新鮮,但從歷史上來看,這類代理程式僅限於棋盤遊戲等受嚴格控制的環境。現在,能夠在複雜環境 (例如操作電腦) 中航行的代理程式,加上強化學習的進步,已經準備好克服這些限制,加速轉換到經驗時代。
這對企業意味著什麼?
在 Sutton 和 Silver 的論文中,有一項針對現實世界應用的重要觀點:"代理可以使用「人性化」的動作和觀察,例如使用者介面,自然地促進與使用者的溝通和協作。代理也可以採取「機器友善」的動作,執行程式碼和呼叫 API,讓代理自主地為其目標服務"。
體驗時代意味著開發人員必須同時為人類使用者和 AI 代理設計應用程式。機器友善的動作需要安全、可存取的 API,可直接使用或透過 MCP 等介面使用。這也涉及到建立可透過協定(如 Google 的 Agent2Agent)來發現的代理。設計 API 和代理介面,允許存取動作和觀察結果,可以讓代理從與軟體的互動中逐步推理和學習。
如果 Sutton 和 Silver 的願景得以實現,數十億個代理最終將在網路中運作,之後也會在物理世界中執行任務。他們的行為和需求將與人類使用者有很大的不同。建立代理友好的互動方法對於有效利用未來的人工智能系統和降低潛在風險至關重要。
"Sutton 和 Silver 總結道:「透過建基於 RL 的基礎,並調整其核心原則以因應新時代的挑戰,我們可以發揮自主學習的全部潛力,並為真正的超人智慧鋪路。
DeepMind 拒絕為本報導提供其他評論。
相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖
Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
相關專題推薦
評論 (0)
0/500

著名的人工智能研究人員 David Silver 和 Richard Sutton 在一篇新論文中提出,人工智能正在進入一個轉變性的 「體驗時代」。他們認為人工智能系統將逐漸超越對人類提供的資料的依賴,轉而透過與世界的直接互動和資料收集來取得進步。
儘管這篇論文是一篇概念性和前瞻性的文章,但其洞察力對於計劃開發和整合未來人工智能代理和系統的企業而言,具有直接的意義。
Silver 和 Sutton 都是受人尊敬的科學家,對於 AI 的發展軌跡有著精準的預測。他們的先見之明在當今最先進的 AI 系統中可見一斑。強化學習先驅 Sutton 在其 2019 年極具影響力的論文「The Bitter Lesson」中提出,最重大的長期 AI 突破始終來自於以大量計算擴展通用搜索和學習,而非主要來自於嵌入複雜的人類知識。
David Silver 是 DeepMind 的首席科學家,他在開發 AlphaGo、AlphaZero 和 AlphaStar(深度強化學習的重要里程碑)的過程中發揮了領導作用。他還與他人合作撰寫了一篇 2021 年的論文,宣稱強化學習結合精心設計的獎勵信號,最終可以產生高度先進的人工智能。
現今最精密的大型語言模型 (LLM) 就是這兩個概念的典範。自 GPT-3 以來的強大 LLM 浪潮,主要是依賴擴充計算能力和資料來吸收大量知識。最近的推理模型,例如 DeepSeek-R1,進一步證明了直接獎勵信號的強化學習足以獲取複雜的推理能力。
什麼是體驗時代?
經驗時代」是建立在 Sutton 和 Silver 所提倡的概念上,現在則是針對最近的人工智能進展而提出的。作者指出,「僅靠從人類資料中進行監督學習所驅動的進步步伐明顯放緩,這顯示需要一種新的方法」。
這種新方法需要一個新的資料來源,其產生方式可以隨著代理程式能力的增強而不斷改進。"Sutton 和 Silver 解釋說:「這可以透過允許代理從自身經驗中不斷學習來實現,也就是由代理與環境互動所產生的資料。他們認為,最終,「經驗將成為改進的主要媒介,並最終使今天系統中使用的人類數據規模相形見絀」。
根據作者的說法,未來的 AI 系統將「突破以人為中心的 AI 系統的限制」,不僅能從經驗資料中學習,還能從四個關鍵維度中學習:
- 流:AI 代理不是在孤立的事件中運作,而是「擁有自己的經驗流,像人類一樣,在長時間尺度上不斷進步」。這能夠實現長期規劃和行為的逐步適應。這方面的早期跡象出現在具有廣泛情境視窗和記憶體架構的人工智能系統中,這些情境視窗和記憶體架構可透過使用者互動進行持續更新。
- 行動與觀察:在經驗時代,代理將超越人類賦予的行動與觀察權限,在現實世界中自主運作。我們可以在代理系統中看到這一點,這些代理系統使用電腦控制和模型情境協定 (Model Context Protocol, MCP) 等工具與外部應用程式和資源進行介面連接。
- 獎勵:雖然目前的強化學習系統在很大程度上依賴於人類設計的獎勵功能,但未來的人工智能代理應該創建自己的動態獎勵功能。這些功能會隨著時間演進,將使用者的偏好與代理程式的行動和觀察所得的真實世界回饋相結合。早期的自我設計獎勵系統,例如 Nvidia 的 DrEureka,提供了這個未來的一瞥。
- 規劃與推理:目前的推理模型通常是模仿人類思考而設計的。作者提出:「更有效率的思考機制肯定存在,使用非人類語言,例如可能利用符號、分散、連續或可微分的計算」。AI 代理應該與世界接觸,使用觀察到的資料來測試、改良與更新他們的推理,同時建立一個內部世界模型。
人工智能代理程式透過強化學習進行適應的概念並不新鮮,但從歷史上來看,這類代理程式僅限於棋盤遊戲等受嚴格控制的環境。現在,能夠在複雜環境 (例如操作電腦) 中航行的代理程式,加上強化學習的進步,已經準備好克服這些限制,加速轉換到經驗時代。
這對企業意味著什麼?
在 Sutton 和 Silver 的論文中,有一項針對現實世界應用的重要觀點:"代理可以使用「人性化」的動作和觀察,例如使用者介面,自然地促進與使用者的溝通和協作。代理也可以採取「機器友善」的動作,執行程式碼和呼叫 API,讓代理自主地為其目標服務"。
體驗時代意味著開發人員必須同時為人類使用者和 AI 代理設計應用程式。機器友善的動作需要安全、可存取的 API,可直接使用或透過 MCP 等介面使用。這也涉及到建立可透過協定(如 Google 的 Agent2Agent)來發現的代理。設計 API 和代理介面,允許存取動作和觀察結果,可以讓代理從與軟體的互動中逐步推理和學習。
如果 Sutton 和 Silver 的願景得以實現,數十億個代理最終將在網路中運作,之後也會在物理世界中執行任務。他們的行為和需求將與人類使用者有很大的不同。建立代理友好的互動方法對於有效利用未來的人工智能系統和降低潛在風險至關重要。
"Sutton 和 Silver 總結道:「透過建基於 RL 的基礎,並調整其核心原則以因應新時代的挑戰,我們可以發揮自主學習的全部潛力,並為真正的超人智慧鋪路。
DeepMind 拒絕為本報導提供其他評論。
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理





首頁






