选项
首页
新闻
DeepMind的AI在2025年数学奥林匹克获得金牌

DeepMind的AI在2025年数学奥林匹克获得金牌

2025-08-22
137

DeepMind的AI在数学推理方面取得惊人飞跃,在2025年国际数学奥林匹克(IMO)中获得金牌,仅在2024年获得银牌一年后。这一突破凸显了AI在解决需要类人创意的复杂抽象问题方面的日益强大。本文探讨了DeepMind的转型之旅、关键技术进步及其里程碑的广泛影响。

为何IMO重要

自1959年以来,国际数学奥林匹克一直是全球顶尖的高中生数学竞赛。它以代数、几何、数论和组合数学的六个复杂问题挑战参赛者,要求卓越的创意、逻辑和优雅的证明。

对AI而言,IMO是一项艰巨的考验。与模式识别或围棋等策略游戏不同,奥林匹克数学需要抽象推理和创新理念综合——长期被认为独属于人类的技能。因此,IMO成为衡量AI向类人智能进步的基准。

2024年的银牌里程碑

2024年,DeepMind首次推出两款针对IMO问题的AI系统:AlphaProof和AlphaGeometry 2,二者均采用“神经-符号”AI,结合大型语言模型(LLMs)与符号逻辑。

AlphaProof使用形式化数学语言Lean证明命题。它整合了DeepMind的大型语言模型Gemini和以掌握棋盘游戏而闻名的强化学习系统AlphaZero。Gemini将问题翻译成Lean,生成逻辑步骤,而AlphaProof通过在数百万多样化数学问题上的训练,通过自我改进提升技能。

AlphaGeometry 2在几何学方面表现出色,Gemini预测辅助构造,符号引擎处理推导。这种混合方法使其能够解决复杂的几何问题。

这些系统解决了六道IMO问题中的四道——两道代数、一道数论、一道几何——得分28/42,获得银牌。这标志着AI的历史性成就,尽管依赖人工翻译和大量计算资源。

获得金牌的关键创新

DeepMind在2025年跃升至金牌源于重大技术进步。

1. 自然语言证明

关键转变是使用自然语言进行证明,消除了将问题翻译成形式语言的专家需求。升级后的Gemini具备Deep Think功能,直接处理问题,勾勒非正式证明,内部形式化关键步骤,并提供清晰的中文证明。通过人类反馈的强化学习(RLHF)确保了简洁、逻辑的解决方案。

Gemini Deep Think以更长的上下文窗口和更多计算令牌脱颖而出,支持多页推理。它采用并行推理,生成数百条解决方案路径,由监督者排名最佳,类似人类头脑风暴。

2. 高级训练技术

Gemini Deep Think在数学论坛、arXiv和大学问题集的10万解决方案语料库上进行微调,由人类导师过滤错误。通过对验证子引理的逐步奖励强化学习,引导模型生成简洁证明。训练历时三个月,使用2500万TPU小时。

3. 并行处理能力

并行化至关重要,同时探索多个推理分支。资源动态分配到有前景的路径,尤其对组合数学有效。这种方法由DeepMind的TPU v5集群支持,类似人类在完整证明前测试不等式的策略。

DeepMind的2025年IMO胜利

为确保公平,DeepMind在IMO前三周冻结模型权重,过滤未发布的问题解决方案。比赛期间,Gemini Deep Think在无网络访问的情况下处理六道纯文本问题,使用相当于笔记本电脑的计算能力。它在三小时内完成证明,五道问题获得满分,总分35/42——获得金牌。AI的证明被赞为严谨彻底,达到人类标准。

对AI和数学的影响

DeepMind的成功表明AI向通用人工智能(AGI)的进步,因为IMO问题需要高级推理。对数学而言,Gemini Deep Think等AI工具可协助探索新定理、验证猜想和简化证明,解放数学家从事概念性工作。然而,AI在教育和竞赛中的角色引发了关于未来结构的问题。

未来展望

尽管一些数学挑战仍存,DeepMind的快速发展表明AI可能很快能解决重大未解问题。2025年IMO的胜利凸显了AI在逻辑推理方面的进步,引发了关于其将补充还是重新定义数学中人类创意的讨论。

相关文章
贝恩预测代理式人工智能自动化领域的SaaS市场规模将达1000亿美元 贝恩预测代理式人工智能自动化领域的SaaS市场规模将达1000亿美元 贝恩公司预计,在美国,利用代理式人工智能的SaaS公司将拥有一个价值1000亿美元的市场。该公司表示,这一市场源于企业系统内部协调任务的自动化。这一估算数据来自贝恩公司关于“AI时代软件行业”五部曲系列的第二篇报告。该报告探讨了代理式AI可能开拓哪些新的软件市场,以及SaaS供应商如何抢占这些市场。企业系统中的协调工作贝恩指出,该市场的形成源于员工在不同企业应用程序间执行的手动任务。这些工作流程通
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增 AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增 继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote 小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote 4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
相关专题推荐
文字转语音 专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率
专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成(TTS)应用,专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具,重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案,释放学生的潜能。立即访问XIX.AI,开启您的探索之旅。

10 个工具
xix.ai
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
评论 (1)
0/500
StevenGreen
StevenGreen 2026-02-23 12:00:40

¿Un AI ganando oro en la IMO? 😳 Esto es increíble, pero también me preocupa un poco. Si ya supera a los mejores matemáticos humanos, ¿qué pasará con la educación? ¿Deberíamos replantearnos cómo enseñamos matemáticas en el futuro? Al mismo tiempo, es fascinante ver hasta dónde puede llegar la IA.

OR