Google的DeepMind單位說,AI超出了人類知識的發展
2025年04月25日
JuanLewis
0
超越傳統測試的AI:體驗學習的興起
人工智能領域(AI)嗡嗡作響,努力將生成的AI推到傳統基準的範圍之外,例如圖靈測試,許多模型已經超過了。現在的重點轉向開發AI,不僅是為了賦予這些測試而設計的,而且還通過更具動態的過程來發展。
Google Deepmind的研究人員,包括大衛·西爾弗(David Silver)和理查德·薩頓(Richard Sutton)等傳奇人物,他們的論文歡迎經驗時代,即解鎖新的AI功能的關鍵不在於測試,而是對AI的培訓。他們認為目前使用的靜態數據集太過限制了,無法促進重大進步。
他們的解決方案? AI需要以更具體驗的方式與世界互動,從互動中學習並根據環境反饋設定目標。他們斷言:“一旦利用體驗式學習的全部潛力,就會出現令人難以置信的新能力。”以在Alphazero上的工作而聞名的Silver在國際象棋和GO中擊敗了人類,而Sutton是加強學習的先驅Sutton,他提出了一種稱為“流”的新方法,以超越當前大語言模型(LLMS)的局限性。

Google Deepmind
從增強學習到生成AI:轉變及其後果
在Alphazero和Alphago取得成功之後,AI社區看到了向像Chatgpt這樣的生成AI模型的轉變,該模型在很大程度上擺脫了強化學習。儘管這允許AI處理更廣泛的自發人類投入,但這也意味著失去強化學習的自我發現方面。
根據Silver和Sutton的說法,目前的LLM在迅速階段嚴重依賴人類的判斷,這限制了其潛力。他們解釋說:“代理人無法發現人類評估者所低估的更好策略。”此外,迅速互動的簡短,簡化的性質不允許AI超出簡單的問答交換之外的發展。
引入流:AI學習的新範式
擬議的“體驗年齡”涉及在連續互動的“流”中運行的AI代理,就像人類一生中學習一樣。 Silver和Sutton設想了AI代理商具有自己的長期經驗,使他們能夠追求直接任務的目標。
這種方法建立在強化學習的基礎上,其中AI代理與世界模型互動,以獎勵的形式獲得反饋。這些獎勵有助於AI了解哪些行動在不同的情況下具有價值。研究人員指出,從經濟指標到健康指標,世界上擁有可以作為獎勵的信號豐富。
建立具有長期目標的AI代理商
為了啟動此過程,AI開發人員可以使用“世界模型”模擬,從而使AI可以根據結果進行預測,在現實中進行測試並改進其模型。隨著AI繼續與世界互動,其理解會發展,適應新數據並糾正錯誤。
人類仍將在設定廣泛的目標(例如改善健身或學習新語言)方面發揮作用,而AI的獎勵功能與這些目標保持一致。這種設置可能會導致AI助手在長時間跟踪和建議健康或教育的建議,甚至實現雄心勃勃的科學目標,例如發現新材料或減少碳排放。
AI的未來:超越體驗學習的推理
研究人員認為,具有長期體驗式學習的AI代理可以超越當前的“推理” AI模型,例如Gemini和DeepSeek的R1。他們認為,推理模型經常模仿人類的思想,這可能會受到過時的假設的限制。相比之下,體驗式代理可以解鎖前所未有的功能,從而導致未來與我們所看到的截然不同。
但是,這種轉變也帶來了風險,例如工作流離失所以及控制可以在長期內自主運作的AI代理的挑戰。另一方面,適應性AI可以通過根據反饋來調整其行為來學會減輕對人類的負面影響。
Silver和Sutton充滿信心,體驗數據將遠遠超過人類生成數據的規模和質量,這可能導致人工通用智能或超級智能。這種範式轉變,再加上增強學習方面的進步,可以解鎖許多領域中人類範圍之外的新能力。
Silver在最近的DeepMind播客中進一步討論了這些想法,強調了將AI轉移到體驗時代的潛力和挑戰。
相關文章
預先生成的字符與桌面RPG中的自定義創建
將新玩家介紹給桌面角色扮演遊戲(TTRPG)可能是一個令人振奮的旅程,但這對遊戲大師(GMS)提出了一個關鍵問題:您應該分發預先生成的角色還是通過角色創建過程進行指導?這種選擇會深深影響他們的第一個經歷,
AI電子書生成器:輕鬆創建和出售電子書
在當今的數字世界中,創建和銷售電子書對於許多人來說都是一項有利可圖的努力。但是,它通常需要大量的時間和精力。得益於人工智能(AI),創建電子書的過程變得更加易於訪問和簡化。讓我們深入了解AI電子書的世界
AI驅動指南:以簡單的步驟創建令人驚嘆的數字藝術貼紙
您準備好潛入充滿活力的數字藝術貼紙創作世界嗎?讓我們探討如何使用Chatgpt和Dall-E之類的工具來利用AI的魔力,以使您的獨特貼紙想法栩栩如生。本指南將使您完成整個過程,從制定詳細提示到完善y
評論 (0)
0/200






超越傳統測試的AI:體驗學習的興起
人工智能領域(AI)嗡嗡作響,努力將生成的AI推到傳統基準的範圍之外,例如圖靈測試,許多模型已經超過了。現在的重點轉向開發AI,不僅是為了賦予這些測試而設計的,而且還通過更具動態的過程來發展。
Google Deepmind的研究人員,包括大衛·西爾弗(David Silver)和理查德·薩頓(Richard Sutton)等傳奇人物,他們的論文歡迎經驗時代,即解鎖新的AI功能的關鍵不在於測試,而是對AI的培訓。他們認為目前使用的靜態數據集太過限制了,無法促進重大進步。
他們的解決方案? AI需要以更具體驗的方式與世界互動,從互動中學習並根據環境反饋設定目標。他們斷言:“一旦利用體驗式學習的全部潛力,就會出現令人難以置信的新能力。”以在Alphazero上的工作而聞名的Silver在國際象棋和GO中擊敗了人類,而Sutton是加強學習的先驅Sutton,他提出了一種稱為“流”的新方法,以超越當前大語言模型(LLMS)的局限性。
從增強學習到生成AI:轉變及其後果
在Alphazero和Alphago取得成功之後,AI社區看到了向像Chatgpt這樣的生成AI模型的轉變,該模型在很大程度上擺脫了強化學習。儘管這允許AI處理更廣泛的自發人類投入,但這也意味著失去強化學習的自我發現方面。
根據Silver和Sutton的說法,目前的LLM在迅速階段嚴重依賴人類的判斷,這限制了其潛力。他們解釋說:“代理人無法發現人類評估者所低估的更好策略。”此外,迅速互動的簡短,簡化的性質不允許AI超出簡單的問答交換之外的發展。
引入流:AI學習的新範式
擬議的“體驗年齡”涉及在連續互動的“流”中運行的AI代理,就像人類一生中學習一樣。 Silver和Sutton設想了AI代理商具有自己的長期經驗,使他們能夠追求直接任務的目標。
這種方法建立在強化學習的基礎上,其中AI代理與世界模型互動,以獎勵的形式獲得反饋。這些獎勵有助於AI了解哪些行動在不同的情況下具有價值。研究人員指出,從經濟指標到健康指標,世界上擁有可以作為獎勵的信號豐富。
建立具有長期目標的AI代理商
為了啟動此過程,AI開發人員可以使用“世界模型”模擬,從而使AI可以根據結果進行預測,在現實中進行測試並改進其模型。隨著AI繼續與世界互動,其理解會發展,適應新數據並糾正錯誤。
人類仍將在設定廣泛的目標(例如改善健身或學習新語言)方面發揮作用,而AI的獎勵功能與這些目標保持一致。這種設置可能會導致AI助手在長時間跟踪和建議健康或教育的建議,甚至實現雄心勃勃的科學目標,例如發現新材料或減少碳排放。
AI的未來:超越體驗學習的推理
研究人員認為,具有長期體驗式學習的AI代理可以超越當前的“推理” AI模型,例如Gemini和DeepSeek的R1。他們認為,推理模型經常模仿人類的思想,這可能會受到過時的假設的限制。相比之下,體驗式代理可以解鎖前所未有的功能,從而導致未來與我們所看到的截然不同。
但是,這種轉變也帶來了風險,例如工作流離失所以及控制可以在長期內自主運作的AI代理的挑戰。另一方面,適應性AI可以通過根據反饋來調整其行為來學會減輕對人類的負面影響。
Silver和Sutton充滿信心,體驗數據將遠遠超過人類生成數據的規模和質量,這可能導致人工通用智能或超級智能。這種範式轉變,再加上增強學習方面的進步,可以解鎖許多領域中人類範圍之外的新能力。
Silver在最近的DeepMind播客中進一步討論了這些想法,強調了將AI轉移到體驗時代的潛力和挑戰。












