DeepMind的AI在2025年数学奥林匹克获得金牌

首页

新闻

2025-08-22

ChristopherBrown

137

DeepMind的AI在数学推理方面取得惊人飞跃，在2025年国际数学奥林匹克（IMO）中获得金牌，仅在2024年获得银牌一年后。这一突破凸显了AI在解决需要类人创意的复杂抽象问题方面的日益强大。本文探讨了DeepMind的转型之旅、关键技术进步及其里程碑的广泛影响。

为何IMO重要

自1959年以来，国际数学奥林匹克一直是全球顶尖的高中生数学竞赛。它以代数、几何、数论和组合数学的六个复杂问题挑战参赛者，要求卓越的创意、逻辑和优雅的证明。

对AI而言，IMO是一项艰巨的考验。与模式识别或围棋等策略游戏不同，奥林匹克数学需要抽象推理和创新理念综合——长期被认为独属于人类的技能。因此，IMO成为衡量AI向类人智能进步的基准。

2024年的银牌里程碑

2024年，DeepMind首次推出两款针对IMO问题的AI系统：AlphaProof和AlphaGeometry 2，二者均采用“神经-符号”AI，结合大型语言模型（LLMs）与符号逻辑。

AlphaProof使用形式化数学语言Lean证明命题。它整合了DeepMind的大型语言模型Gemini和以掌握棋盘游戏而闻名的强化学习系统AlphaZero。Gemini将问题翻译成Lean，生成逻辑步骤，而AlphaProof通过在数百万多样化数学问题上的训练，通过自我改进提升技能。

AlphaGeometry 2在几何学方面表现出色，Gemini预测辅助构造，符号引擎处理推导。这种混合方法使其能够解决复杂的几何问题。

这些系统解决了六道IMO问题中的四道——两道代数、一道数论、一道几何——得分28/42，获得银牌。这标志着AI的历史性成就，尽管依赖人工翻译和大量计算资源。

获得金牌的关键创新

DeepMind在2025年跃升至金牌源于重大技术进步。

1. 自然语言证明

关键转变是使用自然语言进行证明，消除了将问题翻译成形式语言的专家需求。升级后的Gemini具备Deep Think功能，直接处理问题，勾勒非正式证明，内部形式化关键步骤，并提供清晰的中文证明。通过人类反馈的强化学习（RLHF）确保了简洁、逻辑的解决方案。

Gemini Deep Think以更长的上下文窗口和更多计算令牌脱颖而出，支持多页推理。它采用并行推理，生成数百条解决方案路径，由监督者排名最佳，类似人类头脑风暴。

2. 高级训练技术

Gemini Deep Think在数学论坛、arXiv和大学问题集的10万解决方案语料库上进行微调，由人类导师过滤错误。通过对验证子引理的逐步奖励强化学习，引导模型生成简洁证明。训练历时三个月，使用2500万TPU小时。

3. 并行处理能力

并行化至关重要，同时探索多个推理分支。资源动态分配到有前景的路径，尤其对组合数学有效。这种方法由DeepMind的TPU v5集群支持，类似人类在完整证明前测试不等式的策略。

DeepMind的2025年IMO胜利

为确保公平，DeepMind在IMO前三周冻结模型权重，过滤未发布的问题解决方案。比赛期间，Gemini Deep Think在无网络访问的情况下处理六道纯文本问题，使用相当于笔记本电脑的计算能力。它在三小时内完成证明，五道问题获得满分，总分35/42——获得金牌。AI的证明被赞为严谨彻底，达到人类标准。

对AI和数学的影响

DeepMind的成功表明AI向通用人工智能（AGI）的进步，因为IMO问题需要高级推理。对数学而言，Gemini Deep Think等AI工具可协助探索新定理、验证猜想和简化证明，解放数学家从事概念性工作。然而，AI在教育和竞赛中的角色引发了关于未来结构的问题。

未来展望

尽管一些数学挑战仍存，DeepMind的快速发展表明AI可能很快能解决重大未解问题。2025年IMO的胜利凸显了AI在逻辑推理方面的进步，引发了关于其将补充还是重新定义数学中人类创意的讨论。

贝恩预测代理式人工智能自动化领域的SaaS市场规模将达1000亿美元贝恩公司预计，在美国，利用代理式人工智能的SaaS公司将拥有一个价值1000亿美元的市场。该公司表示，这一市场源于企业系统内部协调任务的自动化。这一估算数据来自贝恩公司关于“AI时代软件行业”五部曲系列的第二篇报告。该报告探讨了代理式AI可能开拓哪些新的软件市场，以及SaaS供应商如何抢占这些市场。企业系统中的协调工作贝恩指出，该市场的形成源于员工在不同企业应用程序间执行的手动任务。这些工作流程通

AI搜索强制政策引发用户出走潮，DuckDuckGo用户激增继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后，由于没有简单的“一键禁用”功能来关闭AI功能，许多用户开始寻找更具可控性的替代方案。以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移，已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票：安装量激增根据DuckDuckGo分享的数据，随着用户对谷歌AI更新的不满情绪加剧，该平台在5月20日至2

小红书进行组织架构调整：柯南出任总裁，新设AI主营部门Dots及海外业务部门Rednote 4月30日，小红书向全体员工发布内部通告，宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。公司新设了名为“Dots”的AI优先部门，这标志着小红书已正式将AI提升为最高战略优先级，旨在使其从工具性功能转变为核心生产力。在人事任命方面，南（丁玲）被任命为小红书总裁，负责公司核心业务运营，并直接向CEO邢宇汇报。各业务板块负责人也已明确：智恒将

相关专题推荐

文字转语音

专为阅读障碍设计的顶级AI语音合成应用：助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成（TTS）应用，专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具，重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案，释放学生的潜能。立即访问XIX.AI，开启您的探索之旅。

10 个工具

xix.ai

漫画创作

少年漫画顶级AI生成器：打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具，助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能，立即开始创作史诗级漫画吧！

15 个工具

xix.ai

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

0/500

请登录后再操作

StevenGreen

2026-02-23 12:00:40

¿Un AI ganando oro en la IMO? 😳 Esto es increíble, pero también me preocupa un poco. Si ya supera a los mejores matemáticos humanos, ¿qué pasará con la educación? ¿Deberíamos replantearnos cómo enseñamos matemáticas en el futuro? Al mismo tiempo, es fascinante ver hasta dónde puede llegar la IA.

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选