AI学者在Alphago的国际象棋胜利背后获得了Turing奖的技术

在过去十年中,人工智能以其进步令人眼花缭乱,特别是在一种技术中,计算机通过随机选择并从结果中学习。这种方法,被称为强化学习,在实现人工智能的卓越成就中发挥了关键作用。
以谷歌DeepMind的AlphaZero程序为例,该程序在2016年启动,到2018年已掌握了国际象棋、将棋和围棋等复杂游戏。同样,AlphaStar使用这种方法在视频游戏《星际争霸II》中达到了“大师”级别。这些成就凸显了强化学习的强大力量。
周三,该领域庆祝了一个重要的里程碑,两位人工智能学者因其在推进强化学习方面的开创性工作而受到表彰。马萨诸塞大学阿默斯特分校名誉教授安德鲁·G·巴托和加拿大阿尔伯塔大学教授理查德·S·萨顿获得了计算机协会(ACM)颁发的2025年图灵奖。
强化学习先驱的认可
ACM赞扬巴托和萨顿为强化学习奠定了基础,称他们“提出了主要思想,构建了数学基础,并开发了重要算法”。这一殊荣伴随着100万美元的奖金,常被视为计算机行业的诺贝尔奖等价物。
强化学习可以比作老鼠在迷宫中寻找奶酪。老鼠学会哪些路径通向进步,哪些是死胡同。同样,神经科学家认为,智能生物,如老鼠,会发展出一种“内部世界模型”来指导其行动。
萨顿和巴托提出,计算机也可以发展这样的内部模型。在强化学习中,计算机收集关于其环境的数据——无论是迷宫还是棋盘——并最初随机行动。它以奖励或惩罚的形式接收反馈,这有助于它估计不同行动的结果。基于这些估计,程序会制定一个“策略”来指导未来的决策,平衡探索新行动与利用已知成功行动的关系。
探索与利用的角色
强化学习的核心在于探索新可能性与利用已知策略之间的微妙平衡。单一方法不足以成功。
对于希望深入研究的读者,萨顿和巴托2018年的教科书是宝贵的资源。
值得注意的是,“强化学习”一词有时被OpenAI等公司以不同方式使用,他们采用“基于人类反馈的强化学习”(RLHF)来优化大型语言模型如GPT的输出。然而,这与萨顿和巴托开发的方法有所不同。
强化学习作为一种思维理论
萨顿在2017年至2023年间担任DeepMind杰出研究科学家,他认为强化学习不仅仅是一种技术,而是一种“思维理论”。他表达了对人工智能缺乏计算理论的担忧,坚称“强化学习是智能的第一个计算理论”。
除了技术应用,强化学习还可能揭示创造力和自由玩耍作为智能表达的作用。萨顿和巴托强调了玩耍在学习中的作用,指出好奇心驱动探索。萨顿强调,玩耍可能涉及设定一些暂时无用的目标,但这些目标可能在未来证明有益。
“玩耍是一件大事,”萨顿评论道,指出其在学习和智能更广泛背景中的重要角色。
强化学习的旅程,从巴托和萨顿的奠基工作到其在游戏及更广泛领域的应用,继续推动人工智能所能实现的边界。
相关文章
解读新的ETSI人工智能安全标准
ETSI EN 304 223 确立了人工智能的基础安全要求,各组织应将其纳入其治理架构中。随着企业将机器学习融入核心工作流程,该欧洲标准为保护人工智能模型和系统提供了具体规定。这是首个适用于全球的人工智能网络安全欧洲标准,已获得各国国家标准化机构的正式批准,从而增强了其在国际市场上的公信力。作为《欧盟人工智能法案》的补充基准,该标准承认人工智能系统存在独特风险——包括数据中毒、模型混淆和间接提示
Gmail 推出个性化 AI 收件箱、搜索中的 AI 概览等功能
谷歌为Gmail推出了一款全新的AI智能收件箱,它能为您提供个性化的任务概览,并让您及时掌握重要更新。此外,Gmail还在搜索功能中推出了AI概览,并新增了一款类似Grammarly的校对工具。此前仅限付费用户使用的多项AI功能,现已向所有用户开放。新的“AI收件箱”标签页包含两个部分:“建议待办事项”和“待跟进主题”。 第一个部分显示需要采取行动的高优先级邮件摘要——例如,关于明天到期的账单提醒
首家百度AI影视剧创作基地在山东淄博正式启动
4月27日,山东省在数字文化创作领域迈出了重要一步,其首个百度AI漫画剧创作基地在淄博师范学院正式揭牌。该基地标志着校企合作开启了新篇章,旨在通过人工智能技术与文化创作教育的深度融合,探索培养数字文化创作人才的创新模式。在揭牌仪式上,校方代表强调,该基地将成为创新人才培养及深化政校企合作的重要平台。 展望未来,该校计划将真实项目案例引入课堂,摒弃传统教学方法,构建一个完整的项目化教学闭环,将“作业
相关专题推荐
评论 (12)
0/500
This reinforcement learning stuff is wild! AlphaGo beating chess champs? Mind blown 🤯. Makes me wonder how far AI can push human limits—scary but exciting!
Mind-blowing how reinforcement learning led to AlphaGo's chess win! 🤯 Makes me wonder what other games AI will conquer next.
The AI Scholars Awarded Turing Prize really blew my mind! The way they used reinforcement learning to make AlphaGo win at chess is just genius. It's like watching a sci-fi movie come to life. I wish I understood the tech better, but it's still super cool! 🤓
AlphaGoのチェス勝利の背後にある技術でAI Scholarsがチューリング賞を受賞したのは驚きです!強化学習がAIをこれほどの高みに押し上げたのを見るのは魅力的です。ただ、時々技術的な内容が難しすぎることがありますが、それでも人間の創意工夫の証です。境界を押し広げ続けてください!🧠
The AI Scholars winning the Turing Prize for the technique behind AlphaGo's chess victory is mind-blowing! It's fascinating to see how reinforcement learning has propelled AI to such heights. The only thing is, it's a bit too technical for me at times, but still, it's a testament to human ingenuity. Keep pushing the boundaries! 🧠

在过去十年中,人工智能以其进步令人眼花缭乱,特别是在一种技术中,计算机通过随机选择并从结果中学习。这种方法,被称为强化学习,在实现人工智能的卓越成就中发挥了关键作用。
以谷歌DeepMind的AlphaZero程序为例,该程序在2016年启动,到2018年已掌握了国际象棋、将棋和围棋等复杂游戏。同样,AlphaStar使用这种方法在视频游戏《星际争霸II》中达到了“大师”级别。这些成就凸显了强化学习的强大力量。
周三,该领域庆祝了一个重要的里程碑,两位人工智能学者因其在推进强化学习方面的开创性工作而受到表彰。马萨诸塞大学阿默斯特分校名誉教授安德鲁·G·巴托和加拿大阿尔伯塔大学教授理查德·S·萨顿获得了计算机协会(ACM)颁发的2025年图灵奖。
强化学习先驱的认可
ACM赞扬巴托和萨顿为强化学习奠定了基础,称他们“提出了主要思想,构建了数学基础,并开发了重要算法”。这一殊荣伴随着100万美元的奖金,常被视为计算机行业的诺贝尔奖等价物。
强化学习可以比作老鼠在迷宫中寻找奶酪。老鼠学会哪些路径通向进步,哪些是死胡同。同样,神经科学家认为,智能生物,如老鼠,会发展出一种“内部世界模型”来指导其行动。
萨顿和巴托提出,计算机也可以发展这样的内部模型。在强化学习中,计算机收集关于其环境的数据——无论是迷宫还是棋盘——并最初随机行动。它以奖励或惩罚的形式接收反馈,这有助于它估计不同行动的结果。基于这些估计,程序会制定一个“策略”来指导未来的决策,平衡探索新行动与利用已知成功行动的关系。
探索与利用的角色
强化学习的核心在于探索新可能性与利用已知策略之间的微妙平衡。单一方法不足以成功。
对于希望深入研究的读者,萨顿和巴托2018年的教科书是宝贵的资源。
值得注意的是,“强化学习”一词有时被OpenAI等公司以不同方式使用,他们采用“基于人类反馈的强化学习”(RLHF)来优化大型语言模型如GPT的输出。然而,这与萨顿和巴托开发的方法有所不同。
强化学习作为一种思维理论
萨顿在2017年至2023年间担任DeepMind杰出研究科学家,他认为强化学习不仅仅是一种技术,而是一种“思维理论”。他表达了对人工智能缺乏计算理论的担忧,坚称“强化学习是智能的第一个计算理论”。
除了技术应用,强化学习还可能揭示创造力和自由玩耍作为智能表达的作用。萨顿和巴托强调了玩耍在学习中的作用,指出好奇心驱动探索。萨顿强调,玩耍可能涉及设定一些暂时无用的目标,但这些目标可能在未来证明有益。
“玩耍是一件大事,”萨顿评论道,指出其在学习和智能更广泛背景中的重要角色。
强化学习的旅程,从巴托和萨顿的奠基工作到其在游戏及更广泛领域的应用,继续推动人工智能所能实现的边界。
解读新的ETSI人工智能安全标准
ETSI EN 304 223 确立了人工智能的基础安全要求,各组织应将其纳入其治理架构中。随着企业将机器学习融入核心工作流程,该欧洲标准为保护人工智能模型和系统提供了具体规定。这是首个适用于全球的人工智能网络安全欧洲标准,已获得各国国家标准化机构的正式批准,从而增强了其在国际市场上的公信力。作为《欧盟人工智能法案》的补充基准,该标准承认人工智能系统存在独特风险——包括数据中毒、模型混淆和间接提示
Gmail 推出个性化 AI 收件箱、搜索中的 AI 概览等功能
谷歌为Gmail推出了一款全新的AI智能收件箱,它能为您提供个性化的任务概览,并让您及时掌握重要更新。此外,Gmail还在搜索功能中推出了AI概览,并新增了一款类似Grammarly的校对工具。此前仅限付费用户使用的多项AI功能,现已向所有用户开放。新的“AI收件箱”标签页包含两个部分:“建议待办事项”和“待跟进主题”。 第一个部分显示需要采取行动的高优先级邮件摘要——例如,关于明天到期的账单提醒
首家百度AI影视剧创作基地在山东淄博正式启动
4月27日,山东省在数字文化创作领域迈出了重要一步,其首个百度AI漫画剧创作基地在淄博师范学院正式揭牌。该基地标志着校企合作开启了新篇章,旨在通过人工智能技术与文化创作教育的深度融合,探索培养数字文化创作人才的创新模式。在揭牌仪式上,校方代表强调,该基地将成为创新人才培养及深化政校企合作的重要平台。 展望未来,该校计划将真实项目案例引入课堂,摒弃传统教学方法,构建一个完整的项目化教学闭环,将“作业
This reinforcement learning stuff is wild! AlphaGo beating chess champs? Mind blown 🤯. Makes me wonder how far AI can push human limits—scary but exciting!
Mind-blowing how reinforcement learning led to AlphaGo's chess win! 🤯 Makes me wonder what other games AI will conquer next.
The AI Scholars Awarded Turing Prize really blew my mind! The way they used reinforcement learning to make AlphaGo win at chess is just genius. It's like watching a sci-fi movie come to life. I wish I understood the tech better, but it's still super cool! 🤓
AlphaGoのチェス勝利の背後にある技術でAI Scholarsがチューリング賞を受賞したのは驚きです!強化学習がAIをこれほどの高みに押し上げたのを見るのは魅力的です。ただ、時々技術的な内容が難しすぎることがありますが、それでも人間の創意工夫の証です。境界を押し広げ続けてください!🧠
The AI Scholars winning the Turing Prize for the technique behind AlphaGo's chess victory is mind-blowing! It's fascinating to see how reinforcement learning has propelled AI to such heights. The only thing is, it's a bit too technical for me at times, but still, it's a testament to human ingenuity. Keep pushing the boundaries! 🧠





首页






