Google的DeepMind单位说,AI超出了人类知识的发展
2025年04月25日
JuanLewis
0
超越传统测试的AI:体验学习的兴起
人工智能领域(AI)嗡嗡作响,努力将生成的AI推到传统基准的范围之外,例如图灵测试,许多模型已经超过了。现在的重点转向开发AI,不仅是为了赋予这些测试而设计的,而且还通过更具动态的过程来发展。
Google Deepmind的研究人员,包括大卫·西尔弗(David Silver)和理查德·萨顿(Richard Sutton)等传奇人物,他们的论文欢迎经验时代,即解锁新的AI功能的关键不在于测试,而是对AI的培训。他们认为目前使用的静态数据集太过限制了,无法促进重大进步。
他们的解决方案? AI需要以更具体验的方式与世界互动,从互动中学习并根据环境反馈设定目标。他们断言:“一旦利用体验式学习的全部潜力,就会出现令人难以置信的新能力。”以在Alphazero上的工作而闻名的Silver在国际象棋和GO中击败了人类,而Sutton是加强学习的先驱Sutton,他提出了一种称为“流”的新方法,以超越当前大语言模型(LLMS)的局限性。

Google Deepmind
从增强学习到生成AI:转变及其后果
在Alphazero和Alphago取得成功之后,AI社区看到了向像Chatgpt这样的生成AI模型的转变,该模型在很大程度上摆脱了强化学习。尽管这允许AI处理更广泛的自发人类投入,但这也意味着失去强化学习的自我发现方面。
根据Silver和Sutton的说法,目前的LLM在迅速阶段严重依赖人类的判断,这限制了其潜力。他们解释说:“代理人无法发现人类评估者所低估的更好策略。”此外,迅速互动的简短,简化的性质不允许AI超出简单的问答交换之外的发展。
引入流:AI学习的新范式
拟议的“体验年龄”涉及在连续互动的“流”中运行的AI代理,就像人类一生中学习一样。 Silver和Sutton设想了AI代理商具有自己的长期经验,使他们能够追求直接任务的目标。
这种方法建立在强化学习的基础上,其中AI代理与世界模型互动,以奖励的形式获得反馈。这些奖励有助于AI了解哪些行动在不同的情况下具有价值。研究人员指出,从经济指标到健康指标,世界上拥有可以作为奖励的信号丰富。
建立具有长期目标的AI代理商
为了启动此过程,AI开发人员可以使用“世界模型”模拟,从而使AI可以根据结果进行预测,在现实中进行测试并改进其模型。随着AI继续与世界互动,其理解会发展,适应新数据并纠正错误。
人类仍将在设定广泛的目标(例如改善健身或学习新语言)方面发挥作用,而AI的奖励功能与这些目标保持一致。这种设置可能会导致AI助手在长时间跟踪和建议健康或教育的建议,甚至实现雄心勃勃的科学目标,例如发现新材料或减少碳排放。
AI的未来:超越体验学习的推理
研究人员认为,具有长期体验式学习的AI代理可以超越当前的“推理” AI模型,例如Gemini和DeepSeek的R1。他们认为,推理模型经常模仿人类的思想,这可能会受到过时的假设的限制。相比之下,体验式代理可以解锁前所未有的功能,从而导致未来与我们所看到的截然不同。
但是,这种转变也带来了风险,例如工作流离失所以及控制可以在长期内自主运作的AI代理的挑战。另一方面,适应性AI可以通过根据反馈来调整其行为来学会减轻对人类的负面影响。
Silver和Sutton充满信心,体验数据将远远超过人类生成数据的规模和质量,这可能导致人工通用智能或超级智能。这种范式转变,再加上增强学习方面的进步,可以解锁许多领域中人类范围之外的新能力。
Silver在最近的DeepMind播客中进一步讨论了这些想法,强调了将AI转移到体验时代的潜力和挑战。
相关文章
预先生成的字符与桌面RPG中的自定义创建
将新玩家介绍给桌面角色扮演游戏(TTRPG)可能是一个令人振奋的旅程,但这对游戏大师(GMS)提出了一个关键问题:您应该分发预先生成的角色还是通过角色创建过程进行指导?这种选择会深深影响他们的第一个经历,
AI电子书生成器:轻松创建和出售电子书
在当今的数字世界中,创建和销售电子书对于许多人来说都是一项有利可图的努力。但是,它通常需要大量的时间和精力。得益于人工智能(AI),创建电子书的过程变得更加易于访问和简化。让我们深入了解AI电子书的世界
AI驱动指南:以简单的步骤创建令人惊叹的数字艺术贴纸
您准备好潜入充满活力的数字艺术贴纸创作世界吗?让我们探讨如何使用Chatgpt和Dall-E之类的工具来利用AI的魔力,以使您的独特贴纸想法栩栩如生。本指南将使您完成整个过程,从制定详细提示到完善y
评论 (0)
0/200






超越传统测试的AI:体验学习的兴起
人工智能领域(AI)嗡嗡作响,努力将生成的AI推到传统基准的范围之外,例如图灵测试,许多模型已经超过了。现在的重点转向开发AI,不仅是为了赋予这些测试而设计的,而且还通过更具动态的过程来发展。
Google Deepmind的研究人员,包括大卫·西尔弗(David Silver)和理查德·萨顿(Richard Sutton)等传奇人物,他们的论文欢迎经验时代,即解锁新的AI功能的关键不在于测试,而是对AI的培训。他们认为目前使用的静态数据集太过限制了,无法促进重大进步。
他们的解决方案? AI需要以更具体验的方式与世界互动,从互动中学习并根据环境反馈设定目标。他们断言:“一旦利用体验式学习的全部潜力,就会出现令人难以置信的新能力。”以在Alphazero上的工作而闻名的Silver在国际象棋和GO中击败了人类,而Sutton是加强学习的先驱Sutton,他提出了一种称为“流”的新方法,以超越当前大语言模型(LLMS)的局限性。
从增强学习到生成AI:转变及其后果
在Alphazero和Alphago取得成功之后,AI社区看到了向像Chatgpt这样的生成AI模型的转变,该模型在很大程度上摆脱了强化学习。尽管这允许AI处理更广泛的自发人类投入,但这也意味着失去强化学习的自我发现方面。
根据Silver和Sutton的说法,目前的LLM在迅速阶段严重依赖人类的判断,这限制了其潜力。他们解释说:“代理人无法发现人类评估者所低估的更好策略。”此外,迅速互动的简短,简化的性质不允许AI超出简单的问答交换之外的发展。
引入流:AI学习的新范式
拟议的“体验年龄”涉及在连续互动的“流”中运行的AI代理,就像人类一生中学习一样。 Silver和Sutton设想了AI代理商具有自己的长期经验,使他们能够追求直接任务的目标。
这种方法建立在强化学习的基础上,其中AI代理与世界模型互动,以奖励的形式获得反馈。这些奖励有助于AI了解哪些行动在不同的情况下具有价值。研究人员指出,从经济指标到健康指标,世界上拥有可以作为奖励的信号丰富。
建立具有长期目标的AI代理商
为了启动此过程,AI开发人员可以使用“世界模型”模拟,从而使AI可以根据结果进行预测,在现实中进行测试并改进其模型。随着AI继续与世界互动,其理解会发展,适应新数据并纠正错误。
人类仍将在设定广泛的目标(例如改善健身或学习新语言)方面发挥作用,而AI的奖励功能与这些目标保持一致。这种设置可能会导致AI助手在长时间跟踪和建议健康或教育的建议,甚至实现雄心勃勃的科学目标,例如发现新材料或减少碳排放。
AI的未来:超越体验学习的推理
研究人员认为,具有长期体验式学习的AI代理可以超越当前的“推理” AI模型,例如Gemini和DeepSeek的R1。他们认为,推理模型经常模仿人类的思想,这可能会受到过时的假设的限制。相比之下,体验式代理可以解锁前所未有的功能,从而导致未来与我们所看到的截然不同。
但是,这种转变也带来了风险,例如工作流离失所以及控制可以在长期内自主运作的AI代理的挑战。另一方面,适应性AI可以通过根据反馈来调整其行为来学会减轻对人类的负面影响。
Silver和Sutton充满信心,体验数据将远远超过人类生成数据的规模和质量,这可能导致人工通用智能或超级智能。这种范式转变,再加上增强学习方面的进步,可以解锁许多领域中人类范围之外的新能力。
Silver在最近的DeepMind播客中进一步讨论了这些想法,强调了将AI转移到体验时代的潜力和挑战。












