Deep Cogito发布四款开源混合推理模型，具备自我提升的直觉能力

首页

新闻

2026-02-21

AnthonyRoberts

102

由前谷歌工程师创立的旧金山人工智能初创公司Deep Cogito，近日发布了四款新型"半开放式"大型语言模型（LLMs）。这些模型致力于攻克关键挑战：在持续学习过程中提升推理效率，并逐步实现自主能力增强。

该系列模型统称为Cogito v2家族，参数规模从700亿至6710亿不等。开发者和企业可通过混合许可协议获取这些模型，包含宽松许可与完全开放许可两种形式。本次发布的模型包括：

Cogito v2-70B（密集型）
Cogito v2-109B（专家混合模型）
Cogito v2-405B（全连接网络）
Cogito v2-671B（专家混合模型）

密集型与专家混合型模型各具特色。密集型变体（70B和405B）对每个输入激活全部参数，确保预测结果可预测且易于在不同硬件环境部署。

它们适用于低延迟任务、微调场景及GPU资源受限的环境。相比之下，MoE模型（109B和671B）采用稀疏路由机制，每次查询仅激活特定子集的"专家"子网络。这种设计支持大幅扩展模型规模，同时避免计算成本的线性增长。

因此，MoE模型在高性能推理和复杂推理研究中表现卓越，以更低的运行成本实现顶级准确率。在Cogito v2系列中，671B MoE模型作为旗舰产品，凭借其规模和高效路由能力，在基准测试中与领先的开源模型持平或超越——且推理链通常更短。

企业用户现可通过Hugging Face获取模型，本地部署则支持Unsloth平台。无法自建服务器的用户可通过Together AI、Baseten及RunPod获取API接口。

671B模型还提供FP8量化版本（8位浮点精度）。通过将参数精度从16位降至8位，该版本实现了更快速、更经济且更易部署的硬件支持，通常能保持95%至99%的原始性能。但在需要高精度的任务（如特定数学或推理问题）中，准确率可能略有下降。

所有四款Cogito v2模型均为混合推理系统：既能即时作答，亦可在必要时进行内部反思后再作回应。

这种反思不仅是推理时的特性——它本身就是训练过程的组成部分。

模型经过训练能够内化推理路径。它们得出解决方案的步骤——即内部"思维过程"——会被提炼回模型的基础权重中。

随着时间推移，它们学会了区分有效的推理路径与无关的推理路径。

正如 Deep Cogito 博客所述，研究人员不鼓励模型通过"更多地徘徊"来寻找答案。相反，他们鼓励模型培养对最高效推理路径的更强直觉。

Deep Cogito 指出，其成果是实现更快速、更高效的推理，即使在标准操作模式下也能带来广泛的性能提升。

通往自我进化AI之路

尽管在更广泛的人工智能领域相对较新，Deep Cogito 其实已研发其技术一年有余。

该公司于2025年4月以开源形式推出基于Meta Llama 3.2的模型。这些初始模型在2024年11月获得Benchmark领投的1300万美元种子轮融资后，展现出令人鼓舞的成果。Benchmark合伙人Eric Vishria随后加入公司董事会。

据VentureBeat此前报道，Cogito v1系列最小规模模型（30亿和80亿参数）在多项基准测试中持续超越同类Llama 3模型，优势往往显著。

Deep Cogito首席执行官兼联合创始人德里尚·阿罗拉（前谷歌大型语言模型首席工程师）阐述公司愿景：构建能通过迭代精进推理能力的模型，其进化机制类似AlphaGo通过自我对弈实现的自我提升。

该方法的核心是迭代蒸馏与增强（IDA），通过模型自身不断进化的洞察力取代静态训练提示。

理解机器直觉

Cogito v2版本大幅扩展了这种自我改进循环。其基础理念很简单：推理能力应融入模型核心智能，而非仅在推理阶段激活。

为此，该公司构建了模型在训练过程中生成推理链，并从自身中间思维过程学习的系统。

内部基准测试证实了显著提升：旗舰级671B MoE模型在推理任务上超越DeepSeek R1，其推理链平均长度缩短60%，却能匹敌甚至超越后者最新的0528模型。

在MMLU、GSM8K和MGSM等基准测试中，Cogito 671B MoE模型与Qwen1.5-72B、DeepSeek v3等顶尖开源模型表现相当，其性能已逼近Claude 4 Opus和o3等闭源模型。

关键发现包括：

推理模式下，Cogito 671B MoE在多语言问答和常识领域与DeepSeek R1 0528持平，并在策略规划与逻辑演绎方面实现超越。
在标准（非推理）模式下，其性能超越DeepSeek v3 0324，证明即使不进行扩展推理步骤，蒸馏出的直觉仍能显著提升性能。
更少的推理步骤带来实际效益：复杂查询的推理成本降低，响应速度加快。

阿罗拉将此比喻为"盲目搜索目的地与已知方向"的差异。

他在X平台发文解释道："由于Cogito模型在推理过程中能更精准地把握搜索轨迹，其推理链比DeepSeek R1缩短了60%。"

Deep Cogito模型的卓越之处：机器直觉的实践

Cogito v2内部测试案例印证了该能力。某数学题中，用户询问时速80英里的列车能否在2.5小时内行驶240英里。

多数模型会进行繁琐的分步计算且易出错，而Cogito 671B仅通过简短的内部推演，计算出240÷80=3小时，准确得出列车无法准时抵达的结论。其内部处理令牌数不足100个，远低于DeepSeek R1处理相同问题的200多个令牌。

在关于美国最高法院判例适用性的法律推理案例中，Cogito的推理模式采用清晰的两步逻辑：首先判定假设案例是否符合先例，随后论证结论依据。这种精细的解释性推理仍是多数大型语言模型面临的挑战。

该模型在处理模糊性方面也表现出进步。面对多跳问题（如确定亲属关系："爱丽丝是鲍勃的母亲，鲍勃是查理的父亲。爱丽丝与查理是什么关系？"），Cogito v2模型能准确识别"祖母"——即使措辞稍有变化，其他开源模型常在此处出错。

实现规模化效率

值得注意的是，Deep Cogito报告称其八个Cogito模型（含v1系列）的总训练成本低于350万美元——仅为某些前沿模型九位数预算的零头。

该预算涵盖了大量数据生成、合成强化、基础设施以及 1,000 多次训练实验。

阿罗拉将这种成本效益归功于一个核心原则：构建更智能的模型取决于更强的基础理解（"先验知识"），而非简单地喂给它们更多数据。

通过教导模型规避冗余或误导性的推理路径，Cogito v2在不增加推理时间或成本的前提下实现了强健性能——这对以延迟和成本为关键考量因素的API服务或边缘设备部署具有决定性优势。

展望未来：Deep Cogito的发展路线图

Cogito v2是迭代进程中的阶段性成果，而非终极产品。阿罗拉将公司方法比作"爬坡式进化"：运行模型→学习推理过程→提炼经验→循环迭代。每次模型发布都基于前代成果持续进化。

Deep Cogito 坚持将所有现有及未来模型开源。其工作已获得 Benchmark 投资人 Eric Vishria 和 South Park Commons 投资人 Aditya Agarwal 等投资者的支持。

基础设施合作伙伴包括Hugging Face、Together AI、RunPod、Baseten、Meta旗下Llama团队及Unsloth。

开发者、研究人员及企业用户现可获取这些模型，用于本地部署、多模态对比及领域特定的微调。

对开源人工智能社区而言，Cogito v2不仅是基准测试的里程碑，更开创了智能构建的新范式：其核心不在于更努力地思考，而在于学习如何更高效地思考。

AI搜索强制政策引发用户出走潮，DuckDuckGo用户激增继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后，由于没有简单的“一键禁用”功能来关闭AI功能，许多用户开始寻找更具可控性的替代方案。以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移，已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票：安装量激增根据DuckDuckGo分享的数据，随着用户对谷歌AI更新的不满情绪加剧，该平台在5月20日至2

小红书进行组织架构调整：柯南出任总裁，新设AI主营部门Dots及海外业务部门Rednote 4月30日，小红书向全体员工发布内部通告，宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。公司新设了名为“Dots”的AI优先部门，这标志着小红书已正式将AI提升为最高战略优先级，旨在使其从工具性功能转变为核心生产力。在人事任命方面，南（丁玲）被任命为小红书总裁，负责公司核心业务运营，并直接向CEO邢宇汇报。各业务板块负责人也已明确：智恒将

腾讯旗下“小龙虾”表现远超预期，团队将运力扩大10倍，并致歉及提供补偿腾讯正式推出全场景AI智能助手“WorkBuddy”，凭借高度集成和低部署门槛，标志着大型模型应用层竞争进入新阶段。该产品在发布当天便引发了业界广泛关注。用户流量远超预期，导致相关产品腾讯云代码助手（CodeBuddy）出现登录故障及服务不稳定。腾讯云团队随后发布致歉声明，表示技术团队已紧急将容量扩容十倍，目前服务已全面恢复。受影响用户获得了5,000腾讯云代金券作为补偿。业界观察人士将Work

相关专题推荐

文字转语音

专为阅读障碍设计的顶级AI语音合成应用：助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成（TTS）应用，专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具，重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案，释放学生的潜能。立即访问XIX.AI，开启您的探索之旅。

10 个工具

xix.ai

漫画创作

少年漫画顶级AI生成器：打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具，助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能，立即开始创作史诗级漫画吧！

15 个工具

xix.ai

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

0/500

请登录后再操作

JamesCarter

2026-05-03 22:01:06

Interesting approach, but 'open-ish' sounds like a marketing gimmick. If the weights aren't fully open, how can the community truly verify their 'self-improving' claims? Feels like another startup trying to have its cake and eat it too. The intuition part is fascinating, though. 🤔

WillieJones

2026-04-09 00:00:50

¿Modelos auto-mejorables? Parece prometedor, pero siempre me pregunto: ¿cómo verifican que la intuición emergente no genere sesgos peligrosos o alucinaciones más sofisticadas? 🤔 Sería bueno ver más transparencia en los datos de entrenamiento.

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选