DeepMind的AI优于IMO金牌得主
谷歌DeepMind的最新AI,AlphaGeometry2,通过在国际数学奥林匹克(IMO)几何问题解决中超越平均金牌得主而引起轰动。这一于去年1月推出的AlphaGeometry升级版,据报道解决了过去25年IMO竞赛中84%的几何问题。
你可能好奇为什么DeepMind聚焦于高中数学竞赛。他们认为,破解这些具有挑战性的欧几里得几何问题可能是开发更高级AI的踏板。解决这些问题需要逻辑推理和探索多种解法路径的能力,这些技能对未来通用AI系统至关重要。
今年夏天,DeepMind展示了结合AlphaGeometry2与AlphaProof(另一款为形式数学推理设计的AI模型)的系统。它们共同解决了2024年IMO六道题目中的四道。这种方法可能扩展到数学和科学的其他领域,如复杂工程计算。
AlphaGeometry2由谷歌Gemini家族的语言模型和“符号引擎”驱动。Gemini模型协助符号引擎应用数学规则寻找解法,为几何定理创建可行证明。

IMO考试中的典型几何问题图。图片来源:谷歌(在新窗口打开) 在IMO中,几何问题常需在图中添加“构造”,如点、线或圆,然后解决。AlphaGeometry2的Gemini模型预测哪些构造可能有用,引导符号引擎进行推导。
工作原理如下:Gemini模型以形式数学语言建议步骤和构造,引擎检查其逻辑一致性。AlphaGeometry2使用搜索算法同时探索多条解法路径,并将潜在有用发现存储在共享知识库中。
当AlphaGeometry2结合Gemini模型的建议与符号引擎的已知原理形成完整证明时,问题被视为“解决”。
由于可用几何训练数据稀缺,DeepMind创建了合成数据,生成超过3亿个复杂度各异的定理和证明,训练AlphaGeometry2的语言模型。
DeepMind团队在2000至2024年IMO竞赛的45道几何问题(扩展为50道)上测试AlphaGeometry2,解决了42道,超过平均金牌得主分数40.9。
然而,AlphaGeometry2有局限性。它在涉及变点数、非线性方程和不等式的问题上表现不佳。虽然它不是首个达到金牌水平的几何AI,但它是首个在如此大问题集上做到这一点的AI。
面对29道尚未在竞赛中出现的IMO提名难题,AlphaGeometry2仅解决了20道。
研究结果可能引发关于构建AI系统最佳方法的进一步争论。我们应专注于符号操作(AI使用规则操作代表知识的符号),还是神经网络(模仿人脑结构并从数据学习)?
AlphaGeometry2采用混合方法,结合Gemini模型的神经网络架构与基于规则的符号引擎。
神经网络支持者认为智能行为可从海量数据和计算能力中涌现。相反,符号AI支持者认为它更适合编码知识、推理复杂场景和解释解法。
卡内基梅隆大学计算机科学教授Vince Conitzer评论了IMO基准测试的惊人进展与语言模型在简单常识问题上的持续挣扎之间的对比。他强调需要更好地理解这些系统及其风险。
AlphaGeometry2表明,结合符号操作和神经网络可能是追求可泛化AI的潜在方向。有趣的是,DeepMind团队发现AlphaGeometry2的语言模型无需符号引擎帮助即可生成部分解法,暗示语言模型未来可能实现自给自足。
然而,团队指出,在语言模型速度提升和幻觉问题解决之前,符号引擎等工具在数学应用中仍不可或缺。
相关文章
微软在新的人工智能合作中托管 xAI 先进的 Grok 3 模型
本月早些时候,我的*记事本*调查新闻报道揭露了微软整合埃隆-马斯克(Elon Musk)的Grok人工智能模型的计划--这一消息现已得到官方证实。今天,在微软年度Build开发者大会上,公司高管透露,Azure AI Foundry将整合马斯克xAI初创公司的Grok-3及其紧凑型同胞兄弟Grok-3 mini。微软不断扩展的人工智能生态系统"微软发言人证实:"这些尖端模型将满足微软客户对我们云服
苹果公司与 Anthropic 合作为 Xcode 开发人工智能编码工具
苹果与 Anthropic 合作开发人工智能编码助手据彭博社报道,苹果公司正在开发一款先进的人工智能编码助手,将直接集成到其旗舰开发环境 Xcode 中。此次与 Anthropic 的合作将采用 Claude Sonnet 模型,协助开发人员编写、完善和测试代码。新工具目前正在进行内部测试,苹果尚未确定公开发布的计划。据报道,该系统采用对话式界面来处理开发人员的请求,并具备 UI 测试和自
Midjourney 推出用于创意内容的尖端人工智能视频生成器
Midjourney 的人工智能视频生成技术取得突破性进展Midjourney 发布了其首款人工智能视频生成工具,标志着其在著名的图像创建功能之外的重大扩展。最初的版本使用户能够将上传的图片和平台生成的作品转换成简短的 5 秒钟动画短片,并计划在未来进行增强。核心特点和功能直观的 "动画 "按钮,可将静态图像转换为动态图像根据文本提示生成 5 秒钟的基本视频通过手动提示编辑进行自定义动作控制视频扩
评论 (31)
0/200
KevinBrown
2025-09-03 20:30:33
Impressionnant mais un peu flippant... Si une IA peut battre des médaillés d'or aux Olympiades, qu'est-ce qui nous reste comme domaines où les humains sont encore les meilleurs ? 😅 J'espère qu'on va pas tous devenir obsolètes !
0
GregoryWalker
2025-08-21 01:01:20
This AI beating IMO champs is wild! 🧠 Geometry’s tough, but AlphaGeometry2’s out here crushing it. Makes me wonder if it’ll start tutoring kids soon! 😄
0
AnthonyMoore
2025-08-20 03:01:23
Incroyable, AlphaGeometry2 dépasse les médaillés d'or de l'IMO en géométrie ! 😲 Ça montre à quel point l'IA avance vite, mais je me demande si elle pourrait un jour résoudre des problèmes plus... humains, comme gérer mes impôts !
0
GaryThomas
2025-08-14 09:00:59
This AI beating IMO gold medalists is wild! 🤯 Geometry’s tough, but AlphaGeometry2’s out here making it look easy. Wonder how far it’ll go in other math fields?
0
AlbertSmith
2025-08-10 05:00:59
Wow, AlphaGeometry2 is killing it at IMO geometry problems! Beating gold medalists is wild—makes me wonder if AI will soon design math contests instead of just solving them. 😮
0
JackCarter
2025-07-28 10:13:31
This AI beating IMO champs is wild! 🤯 Makes me wonder if it could tutor me in math or just take over the world one proof at a time.
0
谷歌DeepMind的最新AI,AlphaGeometry2,通过在国际数学奥林匹克(IMO)几何问题解决中超越平均金牌得主而引起轰动。这一于去年1月推出的AlphaGeometry升级版,据报道解决了过去25年IMO竞赛中84%的几何问题。
你可能好奇为什么DeepMind聚焦于高中数学竞赛。他们认为,破解这些具有挑战性的欧几里得几何问题可能是开发更高级AI的踏板。解决这些问题需要逻辑推理和探索多种解法路径的能力,这些技能对未来通用AI系统至关重要。
今年夏天,DeepMind展示了结合AlphaGeometry2与AlphaProof(另一款为形式数学推理设计的AI模型)的系统。它们共同解决了2024年IMO六道题目中的四道。这种方法可能扩展到数学和科学的其他领域,如复杂工程计算。
AlphaGeometry2由谷歌Gemini家族的语言模型和“符号引擎”驱动。Gemini模型协助符号引擎应用数学规则寻找解法,为几何定理创建可行证明。
在IMO中,几何问题常需在图中添加“构造”,如点、线或圆,然后解决。AlphaGeometry2的Gemini模型预测哪些构造可能有用,引导符号引擎进行推导。
工作原理如下:Gemini模型以形式数学语言建议步骤和构造,引擎检查其逻辑一致性。AlphaGeometry2使用搜索算法同时探索多条解法路径,并将潜在有用发现存储在共享知识库中。
当AlphaGeometry2结合Gemini模型的建议与符号引擎的已知原理形成完整证明时,问题被视为“解决”。
由于可用几何训练数据稀缺,DeepMind创建了合成数据,生成超过3亿个复杂度各异的定理和证明,训练AlphaGeometry2的语言模型。
DeepMind团队在2000至2024年IMO竞赛的45道几何问题(扩展为50道)上测试AlphaGeometry2,解决了42道,超过平均金牌得主分数40.9。
然而,AlphaGeometry2有局限性。它在涉及变点数、非线性方程和不等式的问题上表现不佳。虽然它不是首个达到金牌水平的几何AI,但它是首个在如此大问题集上做到这一点的AI。
面对29道尚未在竞赛中出现的IMO提名难题,AlphaGeometry2仅解决了20道。
研究结果可能引发关于构建AI系统最佳方法的进一步争论。我们应专注于符号操作(AI使用规则操作代表知识的符号),还是神经网络(模仿人脑结构并从数据学习)?
AlphaGeometry2采用混合方法,结合Gemini模型的神经网络架构与基于规则的符号引擎。
神经网络支持者认为智能行为可从海量数据和计算能力中涌现。相反,符号AI支持者认为它更适合编码知识、推理复杂场景和解释解法。
卡内基梅隆大学计算机科学教授Vince Conitzer评论了IMO基准测试的惊人进展与语言模型在简单常识问题上的持续挣扎之间的对比。他强调需要更好地理解这些系统及其风险。
AlphaGeometry2表明,结合符号操作和神经网络可能是追求可泛化AI的潜在方向。有趣的是,DeepMind团队发现AlphaGeometry2的语言模型无需符号引擎帮助即可生成部分解法,暗示语言模型未来可能实现自给自足。
然而,团队指出,在语言模型速度提升和幻觉问题解决之前,符号引擎等工具在数学应用中仍不可或缺。




Impressionnant mais un peu flippant... Si une IA peut battre des médaillés d'or aux Olympiades, qu'est-ce qui nous reste comme domaines où les humains sont encore les meilleurs ? 😅 J'espère qu'on va pas tous devenir obsolètes !




This AI beating IMO champs is wild! 🧠 Geometry’s tough, but AlphaGeometry2’s out here crushing it. Makes me wonder if it’ll start tutoring kids soon! 😄




Incroyable, AlphaGeometry2 dépasse les médaillés d'or de l'IMO en géométrie ! 😲 Ça montre à quel point l'IA avance vite, mais je me demande si elle pourrait un jour résoudre des problèmes plus... humains, comme gérer mes impôts !




This AI beating IMO gold medalists is wild! 🤯 Geometry’s tough, but AlphaGeometry2’s out here making it look easy. Wonder how far it’ll go in other math fields?




Wow, AlphaGeometry2 is killing it at IMO geometry problems! Beating gold medalists is wild—makes me wonder if AI will soon design math contests instead of just solving them. 😮




This AI beating IMO champs is wild! 🤯 Makes me wonder if it could tutor me in math or just take over the world one proof at a time.












