深度認知發布開源AI模型,已名列前茅

深度思睿推出革命性的人工智能模型
旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。
深度思睿旨在通过在其模型中促进迭代自我改进,突破传统人类监督的限制,推动人工智能的发展。其最终目标是开发超智能——即在所有领域超越人类能力的人工智能。然而,该公司保证所有模型将保持开源。
深度思睿首席执行官兼联合创始人德里尚·阿罗拉(Drishan Arora)曾在谷歌担任高级软件工程师,领导谷歌生成式搜索产品的大型语言模型开发。他在X平台上自信地表示,这些模型是同类规模中最强大的开源模型之一,优于竞争对手如LLaMA、DeepSeek和Qwen。
模型阵容
初始版本包括五个基础尺寸——30亿、80亿、140亿、320亿和700亿参数,并且已经在Hugging Face、Ollama以及Fireworks和Together AI提供的API上可用。这些模型遵循Llama许可条款,在每月用户不超过7亿的情况下允许商业使用,超过此数量后需要从Meta获得付费许可。
深度思睿计划在未来推出更大的模型,潜在参数规模可达6710亿。
训练方法:迭代蒸馏与放大(IDA)
阿罗拉介绍了IDA,这是一种不同于传统基于人类反馈的强化学习(RLHF)或教师模型蒸馏的新方法。IDA专注于分配额外的计算资源以生成更优的解决方案,随后将这种增强的推理能力嵌入模型本身——这是一个持续的反馈循环,旨在提升能力。这种方法类似于Google AlphaGo在自然语言处理中的自我对弈策略。
基准测试与评估
深度思睿展示了综合评估结果,比较了思睿模型与开源同行在通用知识、数学推理和多语言任务等领域的表现。关键发现包括:
- 思睿3B(标准版): 在MMLU上的表现比Llama 3.2 3B高出6.7个百分点(65.4% vs. 58.7%),在Hellaswag上的表现高出18.8个百分点(81.1% vs. 62.3%)。
- 思睿3B(推理模式): 在MMLU上得分为72.6%,在ARC上得分为84.2%。
- 思睿8B(标准版): 在MMLU上达到80.5%,比Llama 3.1 8B高出12.8个百分点。
- 思睿8B(推理模式): 在MMLU上得分为83.1%,在ARC上得分为92.0%。
- 思睿70B(标准版): 在MMLU上比Llama 3.3 70B高出6.4个百分点(91.7% vs. 85.3%),在综合基准测试中超越Llama 4 Scout 109B(54.5% vs. 53.3%)。
尽管思睿模型在推理模式下的表现优异,但在数学任务中存在某些权衡。
原生工具调用
深度思睿还评估了其模型的原生工具调用性能,这对代理和API集成系统至关重要。
- 思睿3B: 支持四种工具调用任务,在简单和多重工具调用方面表现出色。
- 思睿8B: 在所有工具调用类型上表现强劲,显著优于Llama 3.1 8B。
未来计划
展望未来,深度思睿计划引入更大规模的模型,包括参数规模为1090亿、4000亿和6710亿的专家混合变体,同时对现有检查点进行持续更新。公司视IDA为可持续迈向可扩展自我改进的道路,减少对人类或静态教师模型的依赖。
阿罗拉强调,现实世界的实用性和适应性是成功的终极衡量标准,这仅仅是充满希望旅程的开端。深度思睿与Hugging Face、RunPod、Fireworks AI、Together AI和Ollama等知名实体合作,确保所有模型保持开源并自由获取。
相關文章
Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭
Google 於週一強化其 AI 策略,推出先進的 Gemini 2.5 模型供企業使用,並引入成本效益高的變體,以在價格與性能上競爭。Alphabet 旗下的公司將其旗艦 AI 模型—Gemini 2.5 Pro 與 Gemini 2.5 Flash—從測試階段提升至全面可用,展示其適用於關鍵業務應用的準備度。同時,Google 推出 Gemini 2.5 Flash-Lite,定位為高量任務中
Meta增強AI安全以先進Llama工具
Meta已發布全新Llama安全工具,以強化AI開發並防範新興威脅。這些升級的Llama AI模型安全工具與Meta的新資源搭配,旨在賦能網路安全團隊利用AI進行防禦,提升所有AI利益相關者的安全性。使用Llama模型的開發者現可直接在Meta的Llama Protections頁面、Hugging Face及GitHub上獲得增強工具。Llama Guard 4引入多模態功能,支持文字與圖像的安
NotebookLM推出頂尖出版物與專家精選筆記本
Google正在增強其AI驅動的研究與筆記工具NotebookLM,使其成為一個全面的知識中心。週一,該公司推出了一個由知名作者、出版物、研究人員和非營利組織提供的精選筆記本集合,讓使用者能夠探索健康、旅遊、財經等多樣化主題。首批內容包括來自《經濟學人》、《大西洋月刊》、知名教授、作者,甚至莎士比亞作品的貢獻,展示NotebookLM在深入主題探索中的實際應用。Google解釋說,使用者可以存取原
評論 (7)
0/200
EricMartin
2025-07-28 09:20:21
Wow, Deep Cogito’s models are killing it! Beating the charts right out the gate is wild. Curious how they stack up against Grok in real-world tasks. 🚀
0
WilliamRamirez
2025-07-28 09:19:30
Wow, Deep Cogito’s open-source models are killing it! Fine-tuning Llama 3.2 to top the charts is no small feat. I’m curious how they’ll stack up against the big players in real-world apps. Exciting times for AI! 🚀
0
BrianWalker
2025-06-07 21:03:53
Wow, Deep Cogito's models are already topping the charts? That's insane! 🤯 I love how open-source AI is advancing so quickly. Can't wait to try these out for some personal projects. Hope they keep up the good work! #AIFuture
0
WalterWalker
2025-06-07 19:30:11
Deep Cogitoのモデルがもうチャートトップとは...速すぎる!🔥 オープンソースの進化が楽しみです。自分でも試してみたいな~。これからも応援してます! #AI革命
0
RaymondBaker
2025-06-07 15:25:31
Deep Cogitos Modelle schon an der Spitze? Wahnsinn! 🤩 Open-Source-IA entwickelt sich rasend schnell. Bin gespannt, was als Nächstes kommt. Weiter so! #KIZukunft
0
JonathanKing
2025-06-07 11:19:30
¡Increíble que los modelos de Deep Cogito ya estén liderando! 🚀 El código abierto está cambiando el juego en IA. Ojalá puedan mantener este ritmo. ¡A ver qué más nos sorprenderán! #IAForAll
0
深度思睿推出革命性的人工智能模型
旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。
深度思睿旨在通过在其模型中促进迭代自我改进,突破传统人类监督的限制,推动人工智能的发展。其最终目标是开发超智能——即在所有领域超越人类能力的人工智能。然而,该公司保证所有模型将保持开源。
深度思睿首席执行官兼联合创始人德里尚·阿罗拉(Drishan Arora)曾在谷歌担任高级软件工程师,领导谷歌生成式搜索产品的大型语言模型开发。他在X平台上自信地表示,这些模型是同类规模中最强大的开源模型之一,优于竞争对手如LLaMA、DeepSeek和Qwen。
模型阵容
初始版本包括五个基础尺寸——30亿、80亿、140亿、320亿和700亿参数,并且已经在Hugging Face、Ollama以及Fireworks和Together AI提供的API上可用。这些模型遵循Llama许可条款,在每月用户不超过7亿的情况下允许商业使用,超过此数量后需要从Meta获得付费许可。
深度思睿计划在未来推出更大的模型,潜在参数规模可达6710亿。
训练方法:迭代蒸馏与放大(IDA)
阿罗拉介绍了IDA,这是一种不同于传统基于人类反馈的强化学习(RLHF)或教师模型蒸馏的新方法。IDA专注于分配额外的计算资源以生成更优的解决方案,随后将这种增强的推理能力嵌入模型本身——这是一个持续的反馈循环,旨在提升能力。这种方法类似于Google AlphaGo在自然语言处理中的自我对弈策略。
基准测试与评估
深度思睿展示了综合评估结果,比较了思睿模型与开源同行在通用知识、数学推理和多语言任务等领域的表现。关键发现包括:
- 思睿3B(标准版): 在MMLU上的表现比Llama 3.2 3B高出6.7个百分点(65.4% vs. 58.7%),在Hellaswag上的表现高出18.8个百分点(81.1% vs. 62.3%)。
- 思睿3B(推理模式): 在MMLU上得分为72.6%,在ARC上得分为84.2%。
- 思睿8B(标准版): 在MMLU上达到80.5%,比Llama 3.1 8B高出12.8个百分点。
- 思睿8B(推理模式): 在MMLU上得分为83.1%,在ARC上得分为92.0%。
- 思睿70B(标准版): 在MMLU上比Llama 3.3 70B高出6.4个百分点(91.7% vs. 85.3%),在综合基准测试中超越Llama 4 Scout 109B(54.5% vs. 53.3%)。
尽管思睿模型在推理模式下的表现优异,但在数学任务中存在某些权衡。
原生工具调用
深度思睿还评估了其模型的原生工具调用性能,这对代理和API集成系统至关重要。
- 思睿3B: 支持四种工具调用任务,在简单和多重工具调用方面表现出色。
- 思睿8B: 在所有工具调用类型上表现强劲,显著优于Llama 3.1 8B。
未来计划
展望未来,深度思睿计划引入更大规模的模型,包括参数规模为1090亿、4000亿和6710亿的专家混合变体,同时对现有检查点进行持续更新。公司视IDA为可持续迈向可扩展自我改进的道路,减少对人类或静态教师模型的依赖。
阿罗拉强调,现实世界的实用性和适应性是成功的终极衡量标准,这仅仅是充满希望旅程的开端。深度思睿与Hugging Face、RunPod、Fireworks AI、Together AI和Ollama等知名实体合作,确保所有模型保持开源并自由获取。


Wow, Deep Cogito’s models are killing it! Beating the charts right out the gate is wild. Curious how they stack up against Grok in real-world tasks. 🚀




Wow, Deep Cogito’s open-source models are killing it! Fine-tuning Llama 3.2 to top the charts is no small feat. I’m curious how they’ll stack up against the big players in real-world apps. Exciting times for AI! 🚀




Wow, Deep Cogito's models are already topping the charts? That's insane! 🤯 I love how open-source AI is advancing so quickly. Can't wait to try these out for some personal projects. Hope they keep up the good work! #AIFuture




Deep Cogitoのモデルがもうチャートトップとは...速すぎる!🔥 オープンソースの進化が楽しみです。自分でも試してみたいな~。これからも応援してます! #AI革命




Deep Cogitos Modelle schon an der Spitze? Wahnsinn! 🤩 Open-Source-IA entwickelt sich rasend schnell. Bin gespannt, was als Nächstes kommt. Weiter so! #KIZukunft




¡Increíble que los modelos de Deep Cogito ya estén liderando! 🚀 El código abierto está cambiando el juego en IA. Ojalá puedan mantener este ritmo. ¡A ver qué más nos sorprenderán! #IAForAll












