美团LongCat发布开源定理证明器模型LongCat-Flash-Prover

首页

新闻

2026-05-14

FrankSmith

2026年3月24日，美团LongCat团队正式开源了一个专用于数学形式化和定理证明的深度学习模型：LongCat-Flash-Prover。该模型通过将形式推理分解为三大核心能力——自动形式化、证明草图生成和最终证明——从而克服了大型语言模型在严谨逻辑推理方面的局限性。这标志着从“概率性答案预测”向“可验证逻辑证明”的范式转变。

通过采用工具集成推理（TIR）策略，该模型在MiniF2F-Test基准测试中仅用72步推理就实现了97.1%的通过率，创下了开源定理证明器的最新纪录。在MathOlympiad-Bench和PutnamBench等高难度竞赛级基准测试中，其表现也显著超越了现有开源模型。

从技术层面看，LongCat-Flash-Prover采用基于TIR的“混合专家迭代”框架。通过集成Lean4Server验证、语义与定理一致性检查，以及针对九类作弊行为的合法性验证，该模型有效解决了逻辑漏洞和代码欺骗问题。在训练过程中，团队引入了分层掩码策略和令牌级过时控制，极大提升了混合专家（MoE）架构下强化学习的稳定性。

随着AI推理从处理自然语言的模糊性演进到处理可验证的形式语言，此类定理证明器已超越了简单的算法基准测试范畴，正逐渐成为核心科学研究的基石。这一突破标志着一个加速发展的时代——AI将深度参与前沿数学探索与自动化文档验证。

GitHub：

https://github.com/meituan-longcat/LongCat-Flash-Prover

Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Prover

报告：

https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf

Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易随着人工智能的飞速发展，Anthropic上周五悄然启动了一项名为“Project Deal”的内部实验，展示了人工智能在电子商务领域的潜力。该实验让其人工智能模型Claude在封闭的市场环境中自主处理买卖及价格谈判，并涉及真实的金融交易。实验的核心是一个基于Slack构建的内部市场，Claude在其中同时担任买卖双方的谈判代表。它首先对69名员工进行了访谈，收集了他们的买卖意向及个性化指示，随后

DeepSeek Code 即将发布随着人工智能技术的加速发展，DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露，已获得超过700亿元的融资。公司管理层强调，将致力于开创性的人工智能研究，而非追求眼前的商业利益。这一战略转型表明，DeepSeek将全力投入新产品的开发，尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形，公司招聘页面上已发布多个相关职位，例如“Agent Ha

马斯克的Grok：1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势？埃隆·马斯克终于开始行动了。在人工智能编程竞赛中，OpenAI和Anthropic正加速前进，而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下，尽管Grok4.X系列已多次更新，但其成果在理论上看似不错，实际应用中却未能达到预期，双方的差距几乎未见缩小。不过，这次他手中握有一张新牌。马斯克在X平台确认，Grok的新版本即将问世。这款基础模型第九版的内部代号已确定，参数规模高达1.5

相关专题推荐

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

教育与学习

最佳AI数据科学导师：精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师，帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单，获得强大而具有变革性的指导。通过对比免费和付费选项，并结合实际应用案例进行了解，今天就开启你的数据科学精通之路吧。

10 个工具

xix.ai

聊天机器人

最佳AI调情与对话训练工具：实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具，查看免费版与付费版的对比，并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具

xix.ai

代码

最适合自动化单元测试的最佳AI工具：一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具，这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具，它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上，您可以免费查看各种选项，并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具，提升您的开发效率吧！

10 个工具

xix.ai