深度認知發布開源AI模型,已名列前茅

深度思睿推出革命性的人工智能模型
旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。
深度思睿旨在通过在其模型中促进迭代自我改进,突破传统人类监督的限制,推动人工智能的发展。其最终目标是开发超智能——即在所有领域超越人类能力的人工智能。然而,该公司保证所有模型将保持开源。
深度思睿首席执行官兼联合创始人德里尚·阿罗拉(Drishan Arora)曾在谷歌担任高级软件工程师,领导谷歌生成式搜索产品的大型语言模型开发。他在X平台上自信地表示,这些模型是同类规模中最强大的开源模型之一,优于竞争对手如LLaMA、DeepSeek和Qwen。
模型阵容
初始版本包括五个基础尺寸——30亿、80亿、140亿、320亿和700亿参数,并且已经在Hugging Face、Ollama以及Fireworks和Together AI提供的API上可用。这些模型遵循Llama许可条款,在每月用户不超过7亿的情况下允许商业使用,超过此数量后需要从Meta获得付费许可。
深度思睿计划在未来推出更大的模型,潜在参数规模可达6710亿。
训练方法:迭代蒸馏与放大(IDA)
阿罗拉介绍了IDA,这是一种不同于传统基于人类反馈的强化学习(RLHF)或教师模型蒸馏的新方法。IDA专注于分配额外的计算资源以生成更优的解决方案,随后将这种增强的推理能力嵌入模型本身——这是一个持续的反馈循环,旨在提升能力。这种方法类似于Google AlphaGo在自然语言处理中的自我对弈策略。
基准测试与评估
深度思睿展示了综合评估结果,比较了思睿模型与开源同行在通用知识、数学推理和多语言任务等领域的表现。关键发现包括:
- 思睿3B(标准版): 在MMLU上的表现比Llama 3.2 3B高出6.7个百分点(65.4% vs. 58.7%),在Hellaswag上的表现高出18.8个百分点(81.1% vs. 62.3%)。
- 思睿3B(推理模式): 在MMLU上得分为72.6%,在ARC上得分为84.2%。
- 思睿8B(标准版): 在MMLU上达到80.5%,比Llama 3.1 8B高出12.8个百分点。
- 思睿8B(推理模式): 在MMLU上得分为83.1%,在ARC上得分为92.0%。
- 思睿70B(标准版): 在MMLU上比Llama 3.3 70B高出6.4个百分点(91.7% vs. 85.3%),在综合基准测试中超越Llama 4 Scout 109B(54.5% vs. 53.3%)。
尽管思睿模型在推理模式下的表现优异,但在数学任务中存在某些权衡。
原生工具调用
深度思睿还评估了其模型的原生工具调用性能,这对代理和API集成系统至关重要。
- 思睿3B: 支持四种工具调用任务,在简单和多重工具调用方面表现出色。
- 思睿8B: 在所有工具调用类型上表现强劲,显著优于Llama 3.1 8B。
未来计划
展望未来,深度思睿计划引入更大规模的模型,包括参数规模为1090亿、4000亿和6710亿的专家混合变体,同时对现有检查点进行持续更新。公司视IDA为可持续迈向可扩展自我改进的道路,减少对人类或静态教师模型的依赖。
阿罗拉强调,现实世界的实用性和适应性是成功的终极衡量标准,这仅仅是充满希望旅程的开端。深度思睿与Hugging Face、RunPod、Fireworks AI、Together AI和Ollama等知名实体合作,确保所有模型保持开源并自由获取。
相關文章
Фонд будущего ИИ Google, возможно, должен действовать осторожно
Инвестиционная инициатива Google в области ИИ: стратегический поворот на фоне регуляторного вниманияОбъявление Google о создании фонда AI Futures Fund является смелым шагом в стрем
Внутри скачка ИИ Google: Gemini 2.5 думает глубже, говорит умнее и кодирует быстрее
Google приближается к своей цели создания универсального ассистента на основе ИИНа мероприятии Google I/O этого года компания представила значительные обновления серии Gemini 2.5,
Oura добавляет трекинг уровня глюкозы и журнал питания на основе ИИ
Oura укрепляет своё обязательство в области метаболического здоровья двумя захватывающими новыми функциями.Oura повышает ставки в мире метаболического здоровья с двумя передовыми,
評論 (0)
0/200
深度思睿推出革命性的人工智能模型
旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。
深度思睿旨在通过在其模型中促进迭代自我改进,突破传统人类监督的限制,推动人工智能的发展。其最终目标是开发超智能——即在所有领域超越人类能力的人工智能。然而,该公司保证所有模型将保持开源。
深度思睿首席执行官兼联合创始人德里尚·阿罗拉(Drishan Arora)曾在谷歌担任高级软件工程师,领导谷歌生成式搜索产品的大型语言模型开发。他在X平台上自信地表示,这些模型是同类规模中最强大的开源模型之一,优于竞争对手如LLaMA、DeepSeek和Qwen。
模型阵容
初始版本包括五个基础尺寸——30亿、80亿、140亿、320亿和700亿参数,并且已经在Hugging Face、Ollama以及Fireworks和Together AI提供的API上可用。这些模型遵循Llama许可条款,在每月用户不超过7亿的情况下允许商业使用,超过此数量后需要从Meta获得付费许可。
深度思睿计划在未来推出更大的模型,潜在参数规模可达6710亿。
训练方法:迭代蒸馏与放大(IDA)
阿罗拉介绍了IDA,这是一种不同于传统基于人类反馈的强化学习(RLHF)或教师模型蒸馏的新方法。IDA专注于分配额外的计算资源以生成更优的解决方案,随后将这种增强的推理能力嵌入模型本身——这是一个持续的反馈循环,旨在提升能力。这种方法类似于Google AlphaGo在自然语言处理中的自我对弈策略。
基准测试与评估
深度思睿展示了综合评估结果,比较了思睿模型与开源同行在通用知识、数学推理和多语言任务等领域的表现。关键发现包括:
- 思睿3B(标准版): 在MMLU上的表现比Llama 3.2 3B高出6.7个百分点(65.4% vs. 58.7%),在Hellaswag上的表现高出18.8个百分点(81.1% vs. 62.3%)。
- 思睿3B(推理模式): 在MMLU上得分为72.6%,在ARC上得分为84.2%。
- 思睿8B(标准版): 在MMLU上达到80.5%,比Llama 3.1 8B高出12.8个百分点。
- 思睿8B(推理模式): 在MMLU上得分为83.1%,在ARC上得分为92.0%。
- 思睿70B(标准版): 在MMLU上比Llama 3.3 70B高出6.4个百分点(91.7% vs. 85.3%),在综合基准测试中超越Llama 4 Scout 109B(54.5% vs. 53.3%)。
尽管思睿模型在推理模式下的表现优异,但在数学任务中存在某些权衡。
原生工具调用
深度思睿还评估了其模型的原生工具调用性能,这对代理和API集成系统至关重要。
- 思睿3B: 支持四种工具调用任务,在简单和多重工具调用方面表现出色。
- 思睿8B: 在所有工具调用类型上表现强劲,显著优于Llama 3.1 8B。
未来计划
展望未来,深度思睿计划引入更大规模的模型,包括参数规模为1090亿、4000亿和6710亿的专家混合变体,同时对现有检查点进行持续更新。公司视IDA为可持续迈向可扩展自我改进的道路,减少对人类或静态教师模型的依赖。
阿罗拉强调,现实世界的实用性和适应性是成功的终极衡量标准,这仅仅是充满希望旅程的开端。深度思睿与Hugging Face、RunPod、Fireworks AI、Together AI和Ollama等知名实体合作,确保所有模型保持开源并自由获取。











