美团LongCat发布开源定理证明器模型LongCat-Flash-Prover
2026年3月24日,美团LongCat团队正式开源了一个专用于数学形式化和定理证明的深度学习模型:LongCat-Flash-Prover。该模型通过将形式推理分解为三大核心能力——自动形式化、证明草图生成和最终证明——从而克服了大型语言模型在严谨逻辑推理方面的局限性。 这标志着从“概率性答案预测”向“可验证逻辑证明”的范式转变。

通过采用工具集成推理(TIR)策略,该模型在MiniF2F-Test基准测试中仅用72步推理就实现了97.1%的通过率,创下了开源定理证明器的最新纪录。在MathOlympiad-Bench和PutnamBench等高难度竞赛级基准测试中,其表现也显著超越了现有开源模型。

从技术层面看,LongCat-Flash-Prover采用基于TIR的“混合专家迭代”框架。通过集成Lean4Server验证、语义与定理一致性检查,以及针对九类作弊行为的合法性验证,该模型有效解决了逻辑漏洞和代码欺骗问题。 在训练过程中,团队引入了分层掩码策略和令牌级过时控制,极大提升了混合专家(MoE)架构下强化学习的稳定性。
随着AI推理从处理自然语言的模糊性演进到处理可验证的形式语言,此类定理证明器已超越了简单的算法基准测试范畴,正逐渐成为核心科学研究的基石。这一突破标志着一个加速发展的时代——AI将深度参与前沿数学探索与自动化文档验证。
GitHub:
https://github.com/meituan-longcat/LongCat-Flash-Prover
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
报告:
https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf
相关文章
Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易
随着人工智能的飞速发展,Anthropic上周五悄然启动了一项名为“Project Deal”的内部实验,展示了人工智能在电子商务领域的潜力。该实验让其人工智能模型Claude在封闭的市场环境中自主处理买卖及价格谈判,并涉及真实的金融交易。实验的核心是一个基于Slack构建的内部市场,Claude在其中同时担任买卖双方的谈判代表。它首先对69名员工进行了访谈,收集了他们的买卖意向及个性化指示,随后
DeepSeek Code 即将发布
随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势?
埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
相关专题推荐
评论 (1)
0/500
2026年3月24日,美团LongCat团队正式开源了一个专用于数学形式化和定理证明的深度学习模型:LongCat-Flash-Prover。该模型通过将形式推理分解为三大核心能力——自动形式化、证明草图生成和最终证明——从而克服了大型语言模型在严谨逻辑推理方面的局限性。 这标志着从“概率性答案预测”向“可验证逻辑证明”的范式转变。

通过采用工具集成推理(TIR)策略,该模型在MiniF2F-Test基准测试中仅用72步推理就实现了97.1%的通过率,创下了开源定理证明器的最新纪录。在MathOlympiad-Bench和PutnamBench等高难度竞赛级基准测试中,其表现也显著超越了现有开源模型。

从技术层面看,LongCat-Flash-Prover采用基于TIR的“混合专家迭代”框架。通过集成Lean4Server验证、语义与定理一致性检查,以及针对九类作弊行为的合法性验证,该模型有效解决了逻辑漏洞和代码欺骗问题。 在训练过程中,团队引入了分层掩码策略和令牌级过时控制,极大提升了混合专家(MoE)架构下强化学习的稳定性。
随着AI推理从处理自然语言的模糊性演进到处理可验证的形式语言,此类定理证明器已超越了简单的算法基准测试范畴,正逐渐成为核心科学研究的基石。这一突破标志着一个加速发展的时代——AI将深度参与前沿数学探索与自动化文档验证。
GitHub:
https://github.com/meituan-longcat/LongCat-Flash-Prover
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
报告:
https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf
Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易
随着人工智能的飞速发展,Anthropic上周五悄然启动了一项名为“Project Deal”的内部实验,展示了人工智能在电子商务领域的潜力。该实验让其人工智能模型Claude在封闭的市场环境中自主处理买卖及价格谈判,并涉及真实的金融交易。实验的核心是一个基于Slack构建的内部市场,Claude在其中同时担任买卖双方的谈判代表。它首先对69名员工进行了访谈,收集了他们的买卖意向及个性化指示,随后
DeepSeek Code 即将发布
随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势?
埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5





首页






