自学式人工智能代理改变网络体验:准备指南

著名人工智能研究人员戴维-西尔弗(David Silver)和理查德-萨顿(Richard Sutton)在一篇新论文中提出,人工智能正在进入一个变革性的 "体验时代"。他们认为,人工智能系统将越来越多地摆脱对人类提供的数据的依赖,转而通过与世界的直接互动和数据收集来取得进步。
虽然这篇论文是一篇概念性和前瞻性的文章,但其见解对计划开发和整合未来人工智能代理和系统的企业具有直接的现实意义。
西尔弗和萨顿都是受人尊敬的科学家,他们对人工智能的发展轨迹有着准确的预测。他们的远见卓识在当今最先进的人工智能系统中体现得淋漓尽致。强化学习先驱萨顿在 2019 年发表的一篇颇具影响力的文章《苦涩的一课》中认为,人工智能最重大的长期突破始终来自于利用大规模计算扩展通用搜索和学习,而不是主要来自于嵌入复杂的人类知识。
DeepMind 首席科学家戴维-西尔弗(David Silver)在开发 AlphaGo、AlphaZero 和 AlphaStar(深度强化学习的重要里程碑)的过程中发挥了主导作用。他还与他人合作撰写了一篇 2021 年的论文,断言强化学习与精心设计的奖励信号相结合,最终可以产生高度先进的人工智能。
当今最复杂的大型语言模型(LLM)就是这两个概念的典范。自 GPT-3 以来,功能强大的 LLMs 浪潮主要依靠扩展计算能力和数据来吸收大量知识。最近的推理模型,如 DeepSeek-R1,进一步证明了直接奖励信号的强化学习足以获得复杂的推理能力。
什么是体验时代?
经验时代 "建立在萨顿和西尔弗所倡导的概念之上,现在又结合了人工智能的最新进展。作者指出,"仅靠从人类数据中进行监督学习来推动进步的步伐明显放缓,这表明需要一种新的方法"。
这种新方法需要一个全新的数据源,随着代理能力的提高,数据源的生成方式也会不断改进。"萨顿和西尔弗解释说:"要做到这一点,就必须允许代理从自身的经验中不断学习,即代理与环境交互时产生的数据。他们认为,最终,"经验将成为改进的主要媒介,并最终使当今系统中使用的人类数据规模相形见绌"。
作者认为,未来的人工智能系统将 "突破以人为中心的人工智能系统的局限性",不仅要从经验数据中学习,还要从四个关键维度学习:
- 流:人工智能代理不是在孤立的事件中运行,而是 "拥有自己的经验流,像人类一样,在很长的时间尺度上不断进步"。这样就能进行长期规划并逐步调整行为。这方面的早期迹象出现在人工智能系统中,这些系统具有广泛的上下文窗口和记忆架构,可通过用户互动不断更新。
- 行动与观察:体验时代的代理系统将超越人类特权的行动和观察,在现实世界中自主运行。我们可以在使用计算机控制和模型上下文协议(MCP)等工具与外部应用程序和资源对接的代理系统中看到这一点。
- 奖励:虽然目前的强化学习系统在很大程度上依赖于人类设计的奖励功能,但未来的人工智能代理应该创建自己的动态奖励功能。这些功能将随着时间的推移而不断发展,使用户的偏好与来自代理行动和观察的真实反馈相一致。早期的自我设计奖励系统,如英伟达(Nvidia)的 DrEureka,提供了这种未来的曙光。
- 规划与推理:目前的推理模型通常是模仿人类思维设计的。作者提出:"肯定存在更高效的思维机制,可以使用非人类语言,例如利用符号计算、分布式计算、连续计算或可微分计算。人工智能代理应该与世界打交道,利用观察到的数据来测试、完善和更新其推理,同时建立一个内部世界模型。
人工智能代理通过强化学习进行调整的概念并不新鲜,但在历史上,这类代理仅限于棋盘游戏等严格控制的环境。现在,能够驾驭复杂环境(如操作计算机)的代理加上强化学习方面的进步,有望克服这些限制,加速向体验时代转变。
这对企业意味着什么?
萨顿和西尔弗的论文中针对实际应用提出了一个重要观点:"代理可以使用'人性化'的操作和观察,如用户界面,自然而然地促进与用户的沟通和协作。代理还可以采取'机器友好'的行动,执行代码和调用应用程序接口,使代理能够自主地为其目标服务"。
体验时代意味着开发人员必须同时为人类用户和人工智能代理设计应用程序。机器友好型操作需要安全、可访问的 API,可直接使用或通过 MCP 等接口使用。这还涉及创建可通过谷歌 Agent2Agent 等协议发现的代理。设计应用程序接口和代理接口,允许访问操作和观察结果,将使代理能够逐步推理并从与软件的交互中学习。
如果萨顿和西尔弗的设想得以实现,数十亿个代理最终将在网络上运行,随后在物理世界中执行任务。它们的行为和需求将与人类用户有本质区别。建立对代理友好的交互方法对于有效利用未来的人工智能系统和降低潜在风险至关重要。
"萨顿和西尔弗总结说:"通过建立在 RL 基础之上,并调整其核心原则以应对新时代的挑战,我们可以释放自主学习的全部潜能,并为实现真正的超人智能铺平道路。
DeepMind 拒绝为本新闻提供更多评论。
相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图
Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
相关专题推荐
评论 (0)
0/500

著名人工智能研究人员戴维-西尔弗(David Silver)和理查德-萨顿(Richard Sutton)在一篇新论文中提出,人工智能正在进入一个变革性的 "体验时代"。他们认为,人工智能系统将越来越多地摆脱对人类提供的数据的依赖,转而通过与世界的直接互动和数据收集来取得进步。
虽然这篇论文是一篇概念性和前瞻性的文章,但其见解对计划开发和整合未来人工智能代理和系统的企业具有直接的现实意义。
西尔弗和萨顿都是受人尊敬的科学家,他们对人工智能的发展轨迹有着准确的预测。他们的远见卓识在当今最先进的人工智能系统中体现得淋漓尽致。强化学习先驱萨顿在 2019 年发表的一篇颇具影响力的文章《苦涩的一课》中认为,人工智能最重大的长期突破始终来自于利用大规模计算扩展通用搜索和学习,而不是主要来自于嵌入复杂的人类知识。
DeepMind 首席科学家戴维-西尔弗(David Silver)在开发 AlphaGo、AlphaZero 和 AlphaStar(深度强化学习的重要里程碑)的过程中发挥了主导作用。他还与他人合作撰写了一篇 2021 年的论文,断言强化学习与精心设计的奖励信号相结合,最终可以产生高度先进的人工智能。
当今最复杂的大型语言模型(LLM)就是这两个概念的典范。自 GPT-3 以来,功能强大的 LLMs 浪潮主要依靠扩展计算能力和数据来吸收大量知识。最近的推理模型,如 DeepSeek-R1,进一步证明了直接奖励信号的强化学习足以获得复杂的推理能力。
什么是体验时代?
经验时代 "建立在萨顿和西尔弗所倡导的概念之上,现在又结合了人工智能的最新进展。作者指出,"仅靠从人类数据中进行监督学习来推动进步的步伐明显放缓,这表明需要一种新的方法"。
这种新方法需要一个全新的数据源,随着代理能力的提高,数据源的生成方式也会不断改进。"萨顿和西尔弗解释说:"要做到这一点,就必须允许代理从自身的经验中不断学习,即代理与环境交互时产生的数据。他们认为,最终,"经验将成为改进的主要媒介,并最终使当今系统中使用的人类数据规模相形见绌"。
作者认为,未来的人工智能系统将 "突破以人为中心的人工智能系统的局限性",不仅要从经验数据中学习,还要从四个关键维度学习:
- 流:人工智能代理不是在孤立的事件中运行,而是 "拥有自己的经验流,像人类一样,在很长的时间尺度上不断进步"。这样就能进行长期规划并逐步调整行为。这方面的早期迹象出现在人工智能系统中,这些系统具有广泛的上下文窗口和记忆架构,可通过用户互动不断更新。
- 行动与观察:体验时代的代理系统将超越人类特权的行动和观察,在现实世界中自主运行。我们可以在使用计算机控制和模型上下文协议(MCP)等工具与外部应用程序和资源对接的代理系统中看到这一点。
- 奖励:虽然目前的强化学习系统在很大程度上依赖于人类设计的奖励功能,但未来的人工智能代理应该创建自己的动态奖励功能。这些功能将随着时间的推移而不断发展,使用户的偏好与来自代理行动和观察的真实反馈相一致。早期的自我设计奖励系统,如英伟达(Nvidia)的 DrEureka,提供了这种未来的曙光。
- 规划与推理:目前的推理模型通常是模仿人类思维设计的。作者提出:"肯定存在更高效的思维机制,可以使用非人类语言,例如利用符号计算、分布式计算、连续计算或可微分计算。人工智能代理应该与世界打交道,利用观察到的数据来测试、完善和更新其推理,同时建立一个内部世界模型。
人工智能代理通过强化学习进行调整的概念并不新鲜,但在历史上,这类代理仅限于棋盘游戏等严格控制的环境。现在,能够驾驭复杂环境(如操作计算机)的代理加上强化学习方面的进步,有望克服这些限制,加速向体验时代转变。
这对企业意味着什么?
萨顿和西尔弗的论文中针对实际应用提出了一个重要观点:"代理可以使用'人性化'的操作和观察,如用户界面,自然而然地促进与用户的沟通和协作。代理还可以采取'机器友好'的行动,执行代码和调用应用程序接口,使代理能够自主地为其目标服务"。
体验时代意味着开发人员必须同时为人类用户和人工智能代理设计应用程序。机器友好型操作需要安全、可访问的 API,可直接使用或通过 MCP 等接口使用。这还涉及创建可通过谷歌 Agent2Agent 等协议发现的代理。设计应用程序接口和代理接口,允许访问操作和观察结果,将使代理能够逐步推理并从与软件的交互中学习。
如果萨顿和西尔弗的设想得以实现,数十亿个代理最终将在网络上运行,随后在物理世界中执行任务。它们的行为和需求将与人类用户有本质区别。建立对代理友好的交互方法对于有效利用未来的人工智能系统和降低潜在风险至关重要。
"萨顿和西尔弗总结说:"通过建立在 RL 基础之上,并调整其核心原则以应对新时代的挑战,我们可以释放自主学习的全部潜能,并为实现真正的超人智能铺平道路。
DeepMind 拒绝为本新闻提供更多评论。
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问





首页






