选项
首页
新闻
Deep Cogito发布四款开源混合推理模型,具备自我提升的直觉能力

Deep Cogito发布四款开源混合推理模型,具备自我提升的直觉能力

2026-02-21
102

由前谷歌工程师创立的旧金山人工智能初创公司Deep Cogito,近日发布了四款新型"半开放式"大型语言模型(LLMs)。这些模型致力于攻克关键挑战:在持续学习过程中提升推理效率,并逐步实现自主能力增强。

该系列模型统称为Cogito v2家族,参数规模从700亿至6710亿不等。开发者和企业可通过混合许可协议获取这些模型,包含宽松许可与完全开放许可两种形式。本次发布的模型包括:

  • Cogito v2-70B(密集型)
  • Cogito v2-109B(专家混合模型)
  • Cogito v2-405B(全连接网络)
  • Cogito v2-671B(专家混合模型)

密集型与专家混合型模型各具特色。密集型变体(70B和405B)对每个输入激活全部参数,确保预测结果可预测且易于在不同硬件环境部署。

它们适用于低延迟任务、微调场景及GPU资源受限的环境。相比之下,MoE模型(109B和671B)采用稀疏路由机制,每次查询仅激活特定子集的"专家"子网络。这种设计支持大幅扩展模型规模,同时避免计算成本的线性增长。

因此,MoE模型在高性能推理和复杂推理研究中表现卓越,以更低的运行成本实现顶级准确率。在Cogito v2系列中,671B MoE模型作为旗舰产品,凭借其规模和高效路由能力,在基准测试中与领先的开源模型持平或超越——且推理链通常更短。

企业用户现可通过Hugging Face获取模型,本地部署则支持Unsloth平台。无法自建服务器的用户可通过Together AI、Baseten及RunPod获取API接口。

671B模型还提供FP8量化版本(8位浮点精度)。通过将参数精度从16位降至8位,该版本实现了更快速、更经济且更易部署的硬件支持,通常能保持95%至99%的原始性能。但在需要高精度的任务(如特定数学或推理问题)中,准确率可能略有下降。

所有四款Cogito v2模型均为混合推理系统:既能即时作答,亦可在必要时进行内部反思后再作回应。

这种反思不仅是推理时的特性——它本身就是训练过程的组成部分。

模型经过训练能够内化推理路径。它们得出解决方案的步骤——即内部"思维过程"——会被提炼回模型的基础权重中。

随着时间推移,它们学会了区分有效的推理路径与无关的推理路径。

正如 Deep Cogito 博客所述,研究人员不鼓励模型通过"更多地徘徊"来寻找答案。相反,他们鼓励模型培养对最高效推理路径的更强直觉。

Deep Cogito 指出,其成果是实现更快速、更高效的推理,即使在标准操作模式下也能带来广泛的性能提升。

通往自我进化AI之路

尽管在更广泛的人工智能领域相对较新,Deep Cogito 其实已研发其技术一年有余。

该公司于2025年4月以开源形式推出基于Meta Llama 3.2的模型。这些初始模型在2024年11月获得Benchmark领投的1300万美元种子轮融资后,展现出令人鼓舞的成果。Benchmark合伙人Eric Vishria随后加入公司董事会。

据VentureBeat此前报道,Cogito v1系列最小规模模型(30亿和80亿参数)在多项基准测试中持续超越同类Llama 3模型,优势往往显著。

Deep Cogito首席执行官兼联合创始人德里尚·阿罗拉(前谷歌大型语言模型首席工程师)阐述公司愿景:构建能通过迭代精进推理能力的模型,其进化机制类似AlphaGo通过自我对弈实现的自我提升。

该方法的核心是迭代蒸馏与增强(IDA),通过模型自身不断进化的洞察力取代静态训练提示。

理解机器直觉

Cogito v2版本大幅扩展了这种自我改进循环。其基础理念很简单:推理能力应融入模型核心智能,而非仅在推理阶段激活。

为此,该公司构建了模型在训练过程中生成推理链,并从自身中间思维过程学习的系统。

内部基准测试证实了显著提升:旗舰级671B MoE模型在推理任务上超越DeepSeek R1,其推理链平均长度缩短60%,却能匹敌甚至超越后者最新的0528模型。

在MMLU、GSM8K和MGSM等基准测试中,Cogito 671B MoE模型与Qwen1.5-72B、DeepSeek v3等顶尖开源模型表现相当,其性能已逼近Claude 4 Opus和o3等闭源模型。

关键发现包括:

  • 推理模式下,Cogito 671B MoE在多语言问答和常识领域与DeepSeek R1 0528持平,并在策略规划与逻辑演绎方面实现超越。
  • 在标准(非推理)模式下,其性能超越DeepSeek v3 0324,证明即使不进行扩展推理步骤,蒸馏出的直觉仍能显著提升性能。
  • 更少的推理步骤带来实际效益:复杂查询的推理成本降低,响应速度加快。

阿罗拉将此比喻为"盲目搜索目的地与已知方向"的差异。

他在X平台发文解释道:"由于Cogito模型在推理过程中能更精准地把握搜索轨迹,其推理链比DeepSeek R1缩短了60%。"

Deep Cogito模型的卓越之处:机器直觉的实践

Cogito v2内部测试案例印证了该能力。某数学题中,用户询问时速80英里的列车能否在2.5小时内行驶240英里。

多数模型会进行繁琐的分步计算且易出错,而Cogito 671B仅通过简短的内部推演,计算出240÷80=3小时,准确得出列车无法准时抵达的结论。其内部处理令牌数不足100个,远低于DeepSeek R1处理相同问题的200多个令牌。

在关于美国最高法院判例适用性的法律推理案例中,Cogito的推理模式采用清晰的两步逻辑:首先判定假设案例是否符合先例,随后论证结论依据。这种精细的解释性推理仍是多数大型语言模型面临的挑战。

该模型在处理模糊性方面也表现出进步。面对多跳问题(如确定亲属关系:"爱丽丝是鲍勃的母亲,鲍勃是查理的父亲。爱丽丝与查理是什么关系?"),Cogito v2模型能准确识别"祖母"——即使措辞稍有变化,其他开源模型常在此处出错。

实现规模化效率

值得注意的是,Deep Cogito报告称其八个Cogito模型(含v1系列)的总训练成本低于350万美元——仅为某些前沿模型九位数预算的零头。

该预算涵盖了大量数据生成、合成强化、基础设施以及 1,000 多次训练实验。

阿罗拉将这种成本效益归功于一个核心原则:构建更智能的模型取决于更强的基础理解("先验知识"),而非简单地喂给它们更多数据。

通过教导模型规避冗余或误导性的推理路径,Cogito v2在不增加推理时间或成本的前提下实现了强健性能——这对以延迟和成本为关键考量因素的API服务或边缘设备部署具有决定性优势。

展望未来:Deep Cogito的发展路线图

Cogito v2是迭代进程中的阶段性成果,而非终极产品。阿罗拉将公司方法比作"爬坡式进化":运行模型→学习推理过程→提炼经验→循环迭代。每次模型发布都基于前代成果持续进化。

Deep Cogito 坚持将所有现有及未来模型开源。其工作已获得 Benchmark 投资人 Eric Vishria 和 South Park Commons 投资人 Aditya Agarwal 等投资者的支持。

基础设施合作伙伴包括Hugging Face、Together AI、RunPod、Baseten、Meta旗下Llama团队及Unsloth。

开发者、研究人员及企业用户现可获取这些模型,用于本地部署、多模态对比及领域特定的微调。

对开源人工智能社区而言,Cogito v2不仅是基准测试的里程碑,更开创了智能构建的新范式:其核心不在于更努力地思考,而在于学习如何更高效地思考。

相关文章
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增 AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增 继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote 小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote 4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
腾讯旗下“小龙虾”表现远超预期,团队将运力扩大10倍,并致歉及提供补偿 腾讯旗下“小龙虾”表现远超预期,团队将运力扩大10倍,并致歉及提供补偿 腾讯正式推出全场景AI智能助手“WorkBuddy”,凭借高度集成和低部署门槛,标志着大型模型应用层竞争进入新阶段。该产品在发布当天便引发了业界广泛关注。 用户流量远超预期,导致相关产品腾讯云代码助手(CodeBuddy)出现登录故障及服务不稳定。腾讯云团队随后发布致歉声明,表示技术团队已紧急将容量扩容十倍,目前服务已全面恢复。受影响用户获得了5,000腾讯云代金券作为补偿。业界观察人士将Work
相关专题推荐
文字转语音 专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率
专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成(TTS)应用,专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具,重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案,释放学生的潜能。立即访问XIX.AI,开启您的探索之旅。

10 个工具
xix.ai
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
评论 (2)
0/500
JamesCarter
JamesCarter 2026-05-03 22:01:06

Interesting approach, but 'open-ish' sounds like a marketing gimmick. If the weights aren't fully open, how can the community truly verify their 'self-improving' claims? Feels like another startup trying to have its cake and eat it too. The intuition part is fascinating, though. 🤔

WillieJones
WillieJones 2026-04-09 00:00:50

¿Modelos auto-mejorables? Parece prometedor, pero siempre me pregunto: ¿cómo verifican que la intuición emergente no genere sesgos peligrosos o alucinaciones más sofisticadas? 🤔 Sería bueno ver más transparencia en los datos de entrenamiento.

OR