AI学者在Alphago的国际象棋胜利背后获得了Turing奖的技术

在过去十年中,人工智能以其进步令人眼花缭乱,特别是在一种技术中,计算机通过随机选择并从结果中学习。这种方法,被称为强化学习,在实现人工智能的卓越成就中发挥了关键作用。
以谷歌DeepMind的AlphaZero程序为例,该程序在2016年启动,到2018年已掌握了国际象棋、将棋和围棋等复杂游戏。同样,AlphaStar使用这种方法在视频游戏《星际争霸II》中达到了“大师”级别。这些成就凸显了强化学习的强大力量。
周三,该领域庆祝了一个重要的里程碑,两位人工智能学者因其在推进强化学习方面的开创性工作而受到表彰。马萨诸塞大学阿默斯特分校名誉教授安德鲁·G·巴托和加拿大阿尔伯塔大学教授理查德·S·萨顿获得了计算机协会(ACM)颁发的2025年图灵奖。
强化学习先驱的认可
ACM赞扬巴托和萨顿为强化学习奠定了基础,称他们“提出了主要思想,构建了数学基础,并开发了重要算法”。这一殊荣伴随着100万美元的奖金,常被视为计算机行业的诺贝尔奖等价物。
强化学习可以比作老鼠在迷宫中寻找奶酪。老鼠学会哪些路径通向进步,哪些是死胡同。同样,神经科学家认为,智能生物,如老鼠,会发展出一种“内部世界模型”来指导其行动。
萨顿和巴托提出,计算机也可以发展这样的内部模型。在强化学习中,计算机收集关于其环境的数据——无论是迷宫还是棋盘——并最初随机行动。它以奖励或惩罚的形式接收反馈,这有助于它估计不同行动的结果。基于这些估计,程序会制定一个“策略”来指导未来的决策,平衡探索新行动与利用已知成功行动的关系。
探索与利用的角色
强化学习的核心在于探索新可能性与利用已知策略之间的微妙平衡。单一方法不足以成功。
对于希望深入研究的读者,萨顿和巴托2018年的教科书是宝贵的资源。
值得注意的是,“强化学习”一词有时被OpenAI等公司以不同方式使用,他们采用“基于人类反馈的强化学习”(RLHF)来优化大型语言模型如GPT的输出。然而,这与萨顿和巴托开发的方法有所不同。
强化学习作为一种思维理论
萨顿在2017年至2023年间担任DeepMind杰出研究科学家,他认为强化学习不仅仅是一种技术,而是一种“思维理论”。他表达了对人工智能缺乏计算理论的担忧,坚称“强化学习是智能的第一个计算理论”。
除了技术应用,强化学习还可能揭示创造力和自由玩耍作为智能表达的作用。萨顿和巴托强调了玩耍在学习中的作用,指出好奇心驱动探索。萨顿强调,玩耍可能涉及设定一些暂时无用的目标,但这些目标可能在未来证明有益。
“玩耍是一件大事,”萨顿评论道,指出其在学习和智能更广泛背景中的重要角色。
强化学习的旅程,从巴托和萨顿的奠基工作到其在游戏及更广泛领域的应用,继续推动人工智能所能实现的边界。
相关文章
Midjourney 推出用于创意内容的尖端人工智能视频生成器
Midjourney 的人工智能视频生成技术取得突破性进展Midjourney 发布了其首款人工智能视频生成工具,标志着其在著名的图像创建功能之外的重大扩展。最初的版本使用户能够将上传的图片和平台生成的作品转换成简短的 5 秒钟动画短片,并计划在未来进行增强。核心特点和功能直观的 "动画 "按钮,可将静态图像转换为动态图像根据文本提示生成 5 秒钟的基本视频通过手动提示编辑进行自定义动作控制视频扩
谷歌提前正式发布 Pixel 10 智能手机,遏制泄密行为
谷歌(Google)正在向粉丝们展示其即将推出的 Pixel 10 智能手机阵容,并在 8 月 20 日发布会前几周展示了官方设计。谷歌网站上的一段宣传视频展示了一款时尚的灰蓝色设备,它配备了三后置摄像头、LED 闪光灯和温度传感器--这是之前 Pro 机型独有的功能。虽然谷歌只是简单地将其命名为 "Pixel 10",但其设计与泄露的高端 Pro 机型的渲染图非常吻合。这已经不是谷歌第一次提前发
谷歌双子座应用新增实时人工智能视频、深度研究和新功能 (120 字符)
谷歌在 2025 年 I/O 开发者大会上发布了 Gemini AI 的重大增强功能,扩展了多模态功能,引入了下一代 AI 模型,并加强了整个产品组合的生态系统集成。Gemini Live 的主要推出谷歌已正式向所有 iOS 和 Android 用户推出 Gemini Live 的视觉识别功能。该更新由最先进的 Project Astra 技术提供支持,结合来自设备摄像头或屏幕共享的实时视频分析,
评论 (12)
0/200
NicholasAdams
2025-08-16 19:00:59
This reinforcement learning stuff is wild! AlphaGo beating chess champs? Mind blown 🤯. Makes me wonder how far AI can push human limits—scary but exciting!
0
GeorgeTaylor
2025-08-11 03:00:59
Mind-blowing how reinforcement learning led to AlphaGo's chess win! 🤯 Makes me wonder what other games AI will conquer next.
0
ArthurBrown
2025-04-22 06:39:03
The AI Scholars Awarded Turing Prize really blew my mind! The way they used reinforcement learning to make AlphaGo win at chess is just genius. It's like watching a sci-fi movie come to life. I wish I understood the tech better, but it's still super cool! 🤓
0
EdwardTaylor
2025-04-21 12:00:52
AlphaGoのチェス勝利の背後にある技術でAI Scholarsがチューリング賞を受賞したのは驚きです!強化学習がAIをこれほどの高みに押し上げたのを見るのは魅力的です。ただ、時々技術的な内容が難しすぎることがありますが、それでも人間の創意工夫の証です。境界を押し広げ続けてください!🧠
0
WalterSanchez
2025-04-21 09:09:05
The AI Scholars winning the Turing Prize for the technique behind AlphaGo's chess victory is mind-blowing! It's fascinating to see how reinforcement learning has propelled AI to such heights. The only thing is, it's a bit too technical for me at times, but still, it's a testament to human ingenuity. Keep pushing the boundaries! 🧠
0
WillieJackson
2025-04-20 17:42:21
¡Los académicos de IA que recibieron el Premio Turing por la técnica detrás de la victoria de AlphaGo en el ajedrez me dejaron asombrado! Usar el aprendizaje por refuerzo para ganar es genial. Me gustaría entender mejor la tecnología, pero aún así es muy cool! 🤓
0
在过去十年中,人工智能以其进步令人眼花缭乱,特别是在一种技术中,计算机通过随机选择并从结果中学习。这种方法,被称为强化学习,在实现人工智能的卓越成就中发挥了关键作用。
以谷歌DeepMind的AlphaZero程序为例,该程序在2016年启动,到2018年已掌握了国际象棋、将棋和围棋等复杂游戏。同样,AlphaStar使用这种方法在视频游戏《星际争霸II》中达到了“大师”级别。这些成就凸显了强化学习的强大力量。
周三,该领域庆祝了一个重要的里程碑,两位人工智能学者因其在推进强化学习方面的开创性工作而受到表彰。马萨诸塞大学阿默斯特分校名誉教授安德鲁·G·巴托和加拿大阿尔伯塔大学教授理查德·S·萨顿获得了计算机协会(ACM)颁发的2025年图灵奖。
强化学习先驱的认可
ACM赞扬巴托和萨顿为强化学习奠定了基础,称他们“提出了主要思想,构建了数学基础,并开发了重要算法”。这一殊荣伴随着100万美元的奖金,常被视为计算机行业的诺贝尔奖等价物。
强化学习可以比作老鼠在迷宫中寻找奶酪。老鼠学会哪些路径通向进步,哪些是死胡同。同样,神经科学家认为,智能生物,如老鼠,会发展出一种“内部世界模型”来指导其行动。
萨顿和巴托提出,计算机也可以发展这样的内部模型。在强化学习中,计算机收集关于其环境的数据——无论是迷宫还是棋盘——并最初随机行动。它以奖励或惩罚的形式接收反馈,这有助于它估计不同行动的结果。基于这些估计,程序会制定一个“策略”来指导未来的决策,平衡探索新行动与利用已知成功行动的关系。
探索与利用的角色
强化学习的核心在于探索新可能性与利用已知策略之间的微妙平衡。单一方法不足以成功。
对于希望深入研究的读者,萨顿和巴托2018年的教科书是宝贵的资源。
值得注意的是,“强化学习”一词有时被OpenAI等公司以不同方式使用,他们采用“基于人类反馈的强化学习”(RLHF)来优化大型语言模型如GPT的输出。然而,这与萨顿和巴托开发的方法有所不同。
强化学习作为一种思维理论
萨顿在2017年至2023年间担任DeepMind杰出研究科学家,他认为强化学习不仅仅是一种技术,而是一种“思维理论”。他表达了对人工智能缺乏计算理论的担忧,坚称“强化学习是智能的第一个计算理论”。
除了技术应用,强化学习还可能揭示创造力和自由玩耍作为智能表达的作用。萨顿和巴托强调了玩耍在学习中的作用,指出好奇心驱动探索。萨顿强调,玩耍可能涉及设定一些暂时无用的目标,但这些目标可能在未来证明有益。
“玩耍是一件大事,”萨顿评论道,指出其在学习和智能更广泛背景中的重要角色。
强化学习的旅程,从巴托和萨顿的奠基工作到其在游戏及更广泛领域的应用,继续推动人工智能所能实现的边界。



This reinforcement learning stuff is wild! AlphaGo beating chess champs? Mind blown 🤯. Makes me wonder how far AI can push human limits—scary but exciting!




Mind-blowing how reinforcement learning led to AlphaGo's chess win! 🤯 Makes me wonder what other games AI will conquer next.




The AI Scholars Awarded Turing Prize really blew my mind! The way they used reinforcement learning to make AlphaGo win at chess is just genius. It's like watching a sci-fi movie come to life. I wish I understood the tech better, but it's still super cool! 🤓




AlphaGoのチェス勝利の背後にある技術でAI Scholarsがチューリング賞を受賞したのは驚きです!強化学習がAIをこれほどの高みに押し上げたのを見るのは魅力的です。ただ、時々技術的な内容が難しすぎることがありますが、それでも人間の創意工夫の証です。境界を押し広げ続けてください!🧠




The AI Scholars winning the Turing Prize for the technique behind AlphaGo's chess victory is mind-blowing! It's fascinating to see how reinforcement learning has propelled AI to such heights. The only thing is, it's a bit too technical for me at times, but still, it's a testament to human ingenuity. Keep pushing the boundaries! 🧠




¡Los académicos de IA que recibieron el Premio Turing por la técnica detrás de la victoria de AlphaGo en el ajedrez me dejaron asombrado! Usar el aprendizaje por refuerzo para ganar es genial. Me gustaría entender mejor la tecnología, pero aún así es muy cool! 🤓












