选项
首页
新闻
DeepMind的AI优于IMO金牌得主

DeepMind的AI优于IMO金牌得主

2025-04-10
60

Google DeepMind的最新AI Alphageometry2通过在解决国际数学奥林匹克(IMO)上解决几何问题方面的平均金牌获得者,从而引起了波浪。据报道,该先前发布的字母计量法的先前版本是在去年1月推出的,该版本已解决了IMO比赛的最后25年中的84%的几何问题。

您可能想知道为什么DeepMind专注于高中数学比赛。好吧,他们认为破解这些具有挑战性的欧几里得几何问题可能是发展更先进的AI的垫脚石。解决这些问题需要逻辑推理和浏览各种解决方案路径的能力,这对于未来的通用AI系统可能至关重要。

今年夏天,DeepMind展示了一个系统,该系统将Alphageometry2与Alphaproof结合使用,这是另一种用于正式数学推理的AI模型。他们一起解决了2024年IMO的六个问题中的四个。这种方法可能会超越几何形状到数学和科学的其他领域,例如复杂的工程计算。

Alphageometry2由一些关键组件提供动力,包括Google的双子座家族的语言模型和“象征性引擎”。双子座模型有助于符号引擎,该引擎应用数学规则来找到解决方案,并为几何定理创建可行的证据。

IMO中的典型几何图。

IMO考试中的典型几何问题图。图片学分:Google(在新窗口中打开)

在IMO中,几何问题通常需要在求解之前添加“构造”,例如点,线或圆圈。 Alphageometry2的双子座模型预测,哪些构造可能会有所帮助,从而指导符号引擎进行扣除。

它的工作方式如下:双子座模型在形式数学语言中提出了步骤和构造,然后发动机检查逻辑一致性。 Alphageometry2使用搜索算法同时探索多个解决方案路径,并将潜在有用的发现存储在共享知识库中。

当Alphageometry2将双子座模型的建议与符号引擎的已知原理结合起来以形成完整证明时,将考虑一个问题。

由于缺乏可用的几何训练数据,DeepMind创建了综合数据来训练Alphageometry2的语言模型,产生了超过3亿个定理和变化复杂性的证据。

DeepMind团队在IMO竞争中跨越2000年至2024年的45个几何问题测试了Alphageometry2,并将其扩展为50个问题。 Alphageometry2解决了其中的42个,超过了40.9的平均金牌得主得分。

但是,Alphageometry2具有其局限性。它在涉及可变数量的点,非线性方程和不平等的问题上挣扎。虽然这不是第一个在几何形状中达到金色级别性能的AI,但它是第一个使用如此大的问题进行的AI。

面对尚未在比赛中尚未出现的29个IMO提名问题的艰难集时,Alphageometry2只能解决20。

该研究的结果可能会引发有关建立AI系统的最佳方法的进一步辩论。我们是否应该专注于符号操纵,在其中AI使用规则来操纵代表知识的符号,或者是模仿人类大脑结构并从数据中学习的神经网络?

Alphageometry2采用了混合方法,将双子座模型的神经网络结构与基于规则的符号引擎相结合。

神经网络的支持者认为,智能行为可以从大量的数据和计算能力中出现。相反,符号AI支持者认为,它更适合编码知识,通过复杂的场景和解释解决方案。

Carnegie Mellon大学计算机科学教授Vince Conitzer专门研究AI,他评论了IMO等基准的令人印象深刻的进展与具有简单常识性问题的语言模型的持续斗争之间的对比。他强调有必要更好地了解这些系统及其构成的风险。

Alphageometry2表明,将符号操纵和神经网络结合起来可能是寻求可推广AI的前进方式。有趣的是,DeepMind团队发现,如果没有符号引擎的帮助,Alphageometry2的语言模型可以为问题提供部分解决方案,这暗示了语言模型将来变得自给自足的潜力。

但是,团队指出,直到语言速度提高并解决了幻觉之前,符号引擎等工具对于数学应用程序至关重要。

相关文章
亿万富翁讨论在本周AI更新中自动化取代工作 亿万富翁讨论在本周AI更新中自动化取代工作 大家好,欢迎回到TechCrunch的AI通讯!如果您尚未订阅,可以在这里注册,每周三直接送达您的收件箱。我们上周稍作休息,但原因充分——AI新闻周期火爆,很大程度上归功于中国AI公司DeepSeek的突然崛起。这段时间真是旋风般忙碌,但我们现在回来了,正好为您带来OpenAI的最新动态。周末,OpenAI首席执行官Sam Altman在东京停留,与SoftBank掌门人孙正义会面。SoftBan
NotebookLM应用上线:AI驱动的知识工具 NotebookLM应用上线:AI驱动的知识工具 NotebookLM移动端上线:您的人工智能研究助手现已登陆安卓和iOS平台 NotebookLM的受欢迎程度令我们惊叹不已——数百万用户已将其作为处理复杂信息的首选工具。但有一个问题被反复提及:"我们什么时候能在移动端使用NotebookLM?" 现在,等待结束了!🎉 NotebookLM移动应用现已登陆安卓和iOS平台,将AI辅助学习的强大功能装进您
Imagen 4:谷歌最新AI图像生成器 Imagen 4:谷歌最新AI图像生成器 谷歌近日发布了最新图像生成AI模型Imagen 4,承诺为用户带来比前代Imagen 3更出色的视觉体验。这款在本周谷歌I/O 2025大会上亮相的新模型,在画质表现和风格多样性方面实现了重大突破。官方介绍称,Imagen 4能精准呈现织物纹理、水珠飞溅和动物毛发等复杂细节,同时轻松驾驭写实与抽象两种风格。其输出分辨率最高可达2K,并支持多种画幅比例,适配各
评论 (25)
0/200
HarryPerez
HarryPerez 2025-04-12 08:00:00

DeepMind's AlphaGeometry2 beating IMO gold medalists is mind-blowing! It's amazing to see AI tackling such complex problems. But, does it really understand geometry, or is it just pattern matching? Either way, it's a huge step forward for AI in education!

JackSanchez
JackSanchez 2025-04-12 08:00:00

DeepMindのAlphaGeometry2がIMOの金メダリストを上回るなんて驚きです!AIがこんなに複雑な問題に取り組むのを見るのは素晴らしいです。でも、本当に幾何学を理解しているのか、それともただのパターンマッチングなのか?どちらにしても、教育におけるAIの大きな一歩ですね!

HenryJackson
HenryJackson 2025-04-11 08:00:00

DeepMind의 AlphaGeometry2가 IMO 금메달리스트를 능가하다니 놀랍네요! AI가 이렇게 복잡한 문제를 다루는 걸 보는 건 정말 멋져요. 하지만 정말 기하학을 이해하는 건지, 아니면 단순히 패턴 매칭을 하는 건지 궁금해요. 어쨌든 교육에서의 AI 발전에 큰 걸음이에요!

HarryRoberts
HarryRoberts 2025-04-11 08:00:00

O AlphaGeometry2 da DeepMind superar os medalhistas de ouro do IMO é impressionante! É incrível ver a IA lidando com problemas tão complexos. Mas, será que ela realmente entende geometria, ou é apenas correspondência de padrões? De qualquer forma, é um grande avanço para a IA na educação!

BillyRoberts
BillyRoberts 2025-04-10 08:00:00

¡Que AlphaGeometry2 de DeepMind supere a los medallistas de oro del IMO es alucinante! Es increíble ver a la IA abordando problemas tan complejos. Pero, ¿realmente entiende la geometría, o solo está haciendo coincidencia de patrones? De cualquier manera, es un gran paso adelante para la IA en la educación!

AlbertHarris
AlbertHarris 2025-04-14 08:00:00

DeepMind's AlphaGeometry2 is mind-blowing! It's solving geometry problems better than IMO gold medalists. I used it to help with my math homework and it was spot on! The only thing is, it's a bit too advanced for casual users like me. Still, it's a solid 4 out of 5. 📚

返回顶部
OR