DeepMind的AI在2025年数学奥林匹克获得金牌
DeepMind的AI在数学推理方面取得惊人飞跃,在2025年国际数学奥林匹克(IMO)中获得金牌,仅在2024年获得银牌一年后。这一突破凸显了AI在解决需要类人创意的复杂抽象问题方面的日益强大。本文探讨了DeepMind的转型之旅、关键技术进步及其里程碑的广泛影响。
为何IMO重要
自1959年以来,国际数学奥林匹克一直是全球顶尖的高中生数学竞赛。它以代数、几何、数论和组合数学的六个复杂问题挑战参赛者,要求卓越的创意、逻辑和优雅的证明。
对AI而言,IMO是一项艰巨的考验。与模式识别或围棋等策略游戏不同,奥林匹克数学需要抽象推理和创新理念综合——长期被认为独属于人类的技能。因此,IMO成为衡量AI向类人智能进步的基准。
2024年的银牌里程碑
2024年,DeepMind首次推出两款针对IMO问题的AI系统:AlphaProof和AlphaGeometry 2,二者均采用“神经-符号”AI,结合大型语言模型(LLMs)与符号逻辑。
AlphaProof使用形式化数学语言Lean证明命题。它整合了DeepMind的大型语言模型Gemini和以掌握棋盘游戏而闻名的强化学习系统AlphaZero。Gemini将问题翻译成Lean,生成逻辑步骤,而AlphaProof通过在数百万多样化数学问题上的训练,通过自我改进提升技能。
AlphaGeometry 2在几何学方面表现出色,Gemini预测辅助构造,符号引擎处理推导。这种混合方法使其能够解决复杂的几何问题。
这些系统解决了六道IMO问题中的四道——两道代数、一道数论、一道几何——得分28/42,获得银牌。这标志着AI的历史性成就,尽管依赖人工翻译和大量计算资源。
获得金牌的关键创新
DeepMind在2025年跃升至金牌源于重大技术进步。
1. 自然语言证明
关键转变是使用自然语言进行证明,消除了将问题翻译成形式语言的专家需求。升级后的Gemini具备Deep Think功能,直接处理问题,勾勒非正式证明,内部形式化关键步骤,并提供清晰的中文证明。通过人类反馈的强化学习(RLHF)确保了简洁、逻辑的解决方案。
Gemini Deep Think以更长的上下文窗口和更多计算令牌脱颖而出,支持多页推理。它采用并行推理,生成数百条解决方案路径,由监督者排名最佳,类似人类头脑风暴。
2. 高级训练技术
Gemini Deep Think在数学论坛、arXiv和大学问题集的10万解决方案语料库上进行微调,由人类导师过滤错误。通过对验证子引理的逐步奖励强化学习,引导模型生成简洁证明。训练历时三个月,使用2500万TPU小时。
3. 并行处理能力
并行化至关重要,同时探索多个推理分支。资源动态分配到有前景的路径,尤其对组合数学有效。这种方法由DeepMind的TPU v5集群支持,类似人类在完整证明前测试不等式的策略。
DeepMind的2025年IMO胜利
为确保公平,DeepMind在IMO前三周冻结模型权重,过滤未发布的问题解决方案。比赛期间,Gemini Deep Think在无网络访问的情况下处理六道纯文本问题,使用相当于笔记本电脑的计算能力。它在三小时内完成证明,五道问题获得满分,总分35/42——获得金牌。AI的证明被赞为严谨彻底,达到人类标准。
对AI和数学的影响
DeepMind的成功表明AI向通用人工智能(AGI)的进步,因为IMO问题需要高级推理。对数学而言,Gemini Deep Think等AI工具可协助探索新定理、验证猜想和简化证明,解放数学家从事概念性工作。然而,AI在教育和竞赛中的角色引发了关于未来结构的问题。
未来展望
尽管一些数学挑战仍存,DeepMind的快速发展表明AI可能很快能解决重大未解问题。2025年IMO的胜利凸显了AI在逻辑推理方面的进步,引发了关于其将补充还是重新定义数学中人类创意的讨论。
相关文章
贝恩预测代理式人工智能自动化领域的SaaS市场规模将达1000亿美元
贝恩公司预计,在美国,利用代理式人工智能的SaaS公司将拥有一个价值1000亿美元的市场。该公司表示,这一市场源于企业系统内部协调任务的自动化。这一估算数据来自贝恩公司关于“AI时代软件行业”五部曲系列的第二篇报告。该报告探讨了代理式AI可能开拓哪些新的软件市场,以及SaaS供应商如何抢占这些市场。企业系统中的协调工作贝恩指出,该市场的形成源于员工在不同企业应用程序间执行的手动任务。这些工作流程通
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增
继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote
4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
相关专题推荐
评论 (1)
0/500
DeepMind的AI在数学推理方面取得惊人飞跃,在2025年国际数学奥林匹克(IMO)中获得金牌,仅在2024年获得银牌一年后。这一突破凸显了AI在解决需要类人创意的复杂抽象问题方面的日益强大。本文探讨了DeepMind的转型之旅、关键技术进步及其里程碑的广泛影响。
为何IMO重要
自1959年以来,国际数学奥林匹克一直是全球顶尖的高中生数学竞赛。它以代数、几何、数论和组合数学的六个复杂问题挑战参赛者,要求卓越的创意、逻辑和优雅的证明。
对AI而言,IMO是一项艰巨的考验。与模式识别或围棋等策略游戏不同,奥林匹克数学需要抽象推理和创新理念综合——长期被认为独属于人类的技能。因此,IMO成为衡量AI向类人智能进步的基准。
2024年的银牌里程碑
2024年,DeepMind首次推出两款针对IMO问题的AI系统:AlphaProof和AlphaGeometry 2,二者均采用“神经-符号”AI,结合大型语言模型(LLMs)与符号逻辑。
AlphaProof使用形式化数学语言Lean证明命题。它整合了DeepMind的大型语言模型Gemini和以掌握棋盘游戏而闻名的强化学习系统AlphaZero。Gemini将问题翻译成Lean,生成逻辑步骤,而AlphaProof通过在数百万多样化数学问题上的训练,通过自我改进提升技能。
AlphaGeometry 2在几何学方面表现出色,Gemini预测辅助构造,符号引擎处理推导。这种混合方法使其能够解决复杂的几何问题。
这些系统解决了六道IMO问题中的四道——两道代数、一道数论、一道几何——得分28/42,获得银牌。这标志着AI的历史性成就,尽管依赖人工翻译和大量计算资源。
获得金牌的关键创新
DeepMind在2025年跃升至金牌源于重大技术进步。
1. 自然语言证明
关键转变是使用自然语言进行证明,消除了将问题翻译成形式语言的专家需求。升级后的Gemini具备Deep Think功能,直接处理问题,勾勒非正式证明,内部形式化关键步骤,并提供清晰的中文证明。通过人类反馈的强化学习(RLHF)确保了简洁、逻辑的解决方案。
Gemini Deep Think以更长的上下文窗口和更多计算令牌脱颖而出,支持多页推理。它采用并行推理,生成数百条解决方案路径,由监督者排名最佳,类似人类头脑风暴。
2. 高级训练技术
Gemini Deep Think在数学论坛、arXiv和大学问题集的10万解决方案语料库上进行微调,由人类导师过滤错误。通过对验证子引理的逐步奖励强化学习,引导模型生成简洁证明。训练历时三个月,使用2500万TPU小时。
3. 并行处理能力
并行化至关重要,同时探索多个推理分支。资源动态分配到有前景的路径,尤其对组合数学有效。这种方法由DeepMind的TPU v5集群支持,类似人类在完整证明前测试不等式的策略。
DeepMind的2025年IMO胜利
为确保公平,DeepMind在IMO前三周冻结模型权重,过滤未发布的问题解决方案。比赛期间,Gemini Deep Think在无网络访问的情况下处理六道纯文本问题,使用相当于笔记本电脑的计算能力。它在三小时内完成证明,五道问题获得满分,总分35/42——获得金牌。AI的证明被赞为严谨彻底,达到人类标准。
对AI和数学的影响
DeepMind的成功表明AI向通用人工智能(AGI)的进步,因为IMO问题需要高级推理。对数学而言,Gemini Deep Think等AI工具可协助探索新定理、验证猜想和简化证明,解放数学家从事概念性工作。然而,AI在教育和竞赛中的角色引发了关于未来结构的问题。
未来展望
尽管一些数学挑战仍存,DeepMind的快速发展表明AI可能很快能解决重大未解问题。2025年IMO的胜利凸显了AI在逻辑推理方面的进步,引发了关于其将补充还是重新定义数学中人类创意的讨论。
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增
继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote
4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将





首页






