Deep Cogito的LLMS使用IDA优于类似大小的模型

首页

新闻

2025-04-18

JoseAdams

169

# ai # models # llm

Deep Cogito，一家总部位于旧金山的公司，以其最新发布的开源大型语言模型（LLMs）在AI社区中掀起了波澜。这些模型拥有从30亿到700亿个参数的多种规模，不仅仅是另一组AI工具；它们是公司所称的“通用超智能”的大胆一步。Deep Cogito声称，其每个模型在大多数标准基准测试中都超越了同等规模的领先开源模型，包括来自LLAMA、DeepSeek和Qwen的模型。这是一个相当大胆的声明，但更令人印象深刻的是，他们的700亿参数模型据报道超过了最近发布的Llama 4 109亿参数混合专家（MoE）模型。

迭代蒸馏与放大（IDA）

Deep Cogito突破的核心是一种他们称之为迭代蒸馏与放大（IDA）的新训练方法。这种方法被描述为“一种通过迭代自我改进实现通用超智能的可扩展且高效的Alignment策略”。它旨在突破传统LLM训练的限制，在传统训练中，模型的智能往往受到更大“监督者”模型或人类策展者的上限限制。

IDA过程围绕两个关键步骤反复进行：

放大：这一步骤利用更多的计算能力帮助模型提出更好的解决方案或能力，类似于高级推理技术。
蒸馏：在此，模型内化这些改进的能力，优化其参数。

Deep Cogito认为，这创造了一个“正反馈循环”，使模型的智能能够更直接地随计算资源和IDA过程本身的效率而增长，而不是受限于监督者的智能。

公司指出像AlphaGo这样的历史成功案例，强调“高级推理和迭代自我改进”至关重要。他们声称IDA将这些元素引入了LLM训练。他们还强调了IDA的效率，指出他们的小团队仅用大约75天就开发出了这些模型。与其他方法如基于人类反馈的强化学习（RLHF）或从更大模型的标准蒸馏相比，IDA据说提供了更好的可扩展性。

作为证明，Deep Cogito强调他们的700亿参数模型在性能上超过了Llama 3.3 700亿（从4050亿模型蒸馏）和Llama 4 Scout 109亿（从2万亿参数模型蒸馏）。

Deep Cogito模型的能力与性能

新的Cogito模型基于Llama和Qwen检查点，专为编码、函数调用和代理应用量身定制。一个突出特点是它们的双重功能：“每个模型都可以直接回答（标准LLM），或在回答前进行自我反思（类似推理模型）。”这与Claude 3.5等模型的功能相似。然而，Deep Cogito提到他们并未专注于非常长的推理链，优先考虑更快的回答和蒸馏较短链的效率。

公司分享了广泛的基准测试结果，将他们的Cogito模型与同等规模的先进开源模型在直接和推理模式下进行比较。在MMLU、MMLU-Pro、ARC、GSM8K和MATH等一系列基准测试中，以及在不同模型规模（30亿、80亿、140亿、320亿、700亿）中，Cogito模型通常显示出显著的性能提升。例如，Cogito 700亿模型在标准模式下MMLU得分91.73%，比Llama 3.3 700亿提高了+6.40%，在思考模式下得分91.00%，比Deepseek R1 Distill 700亿提高了+4.40%。Livebench得分也反映了这些提升。

以下是140亿模型的基准测试，用于中等规模的比较：

140亿模型的基准测试

虽然Deep Cogito承认基准测试无法完全反映现实世界的实用性，但他们对其模型的实际性能仍充满信心。此次发布被视为预览，公司表示他们“仍处于这一扩展曲线的早期阶段”。他们计划在未来几周和几个月内发布当前规模的改进检查点，并推出更大的MoE模型（1090亿、4000亿、6710亿）。所有未来模型也将是开源的。

Meta 增强人工智能安全，推出高级 Llama 工具 Meta 发布了新的 Llama 安全工具，以加强人工智能开发并防御新兴威胁。这些升级的 Llama 人工智能模型安全工具与 Meta 的新资源相结合，旨在增强网络安全团队利用人工智能进行防御的能力，提升所有人工智能利益相关者的安全性。使用 Llama 模型的开发者现在可以直接在 Meta 的 Llama Protections 页面、Hugging Face 和 GitHub 上访问增强的工具。

NotebookLM推出顶级出版物和专家精选笔记本谷歌正在增强其人工智能驱动的研究和笔记工具NotebookLM，使其成为一个综合知识中心。周一，该公司推出了一套由知名作者、出版物、研究人员和非营利组织精心策划的笔记本集合，使用户能够探索健康、旅行、财务等多样化主题。首批内容包括《经济学人》、《大西洋月刊》、知名教授、作者以及莎士比亚作品的贡献，展示了NotebookLM在深入主题探索中的实际应用。谷歌解释说，用户可以访问原始资料，提出问题，深入

阿里巴巴发布Wan2.1-VACE：开源AI视频解决方案阿里巴巴推出了Wan2.1-VACE，这是一个开源AI模型，有望改变视频创作和编辑流程。VACE是阿里巴巴Wan2.1视频AI模型系列的关键组成部分，公司宣称这是“业内首个为多样化视频生成和编辑任务提供全面解决方案的开源模型。”如果阿里巴巴能够简化视频制作流程，将多种工具整合到一个单一平台上，可能会重新定义行业标准。VACE能做什么？它可以从多种输入生成视频，例如文本提示、静态图像或短视频片段。除

0/200

提交

PaulThomas

2025-08-07 03:01:00

Super cool to see Deep Cogito pushing the boundaries with their LLMs! 😎 Those parameter sizes are wild—wonder how they stack up in real-world tasks?

GregoryCarter

2025-04-21 11:16:16

LLM от Deep Cogito впечатляют, но приложение могло бы иметь лучший UI. Навигация по разным размерам моделей немного неуклюжая. Тем не менее, производительность на высшем уровне, особенно с технологией IDA. Обязательно стоит посмотреть, если вы интересуетесь ИИ и хотите увидеть, что возможно с большими языковыми моделями! 🤖💡

EricRoberts

2025-04-20 12:40:17

ディープコギトのLLMは印象的ですが、アプリのUIがもう少し改善されると良いですね。モデルサイズをナビゲートするのが少しぎこちないです。それでも、パフォーマンスは最高で、特にIDAテクノロジーとの組み合わせが素晴らしいです。AIに興味があるなら、大規模言語モデルの可能性を見る価値がありますよ！🤖💡

WillieAnderson

2025-04-20 12:09:03

딥 코기토의 LLM은 정말 혁신적이에요! 비슷한 크기의 모델과 비교해도 성능 향상이 놀랍습니다. IDA 접근법이 큰 차이를 만듭니다. 유일한 단점은 학습 곡선인데, 한번 익숙해지면 문제없어요! 🚀

EricKing

2025-04-20 06:12:37

Deep Cogito's LLMs are impressive, but the app could use a better UI. It's a bit clunky to navigate through the different model sizes. Still, the performance is top-notch, especially with the IDA tech. Definitely worth a look if you're into AI and want to see what's possible with large language models! 🤖💡

BruceClark

2025-04-20 02:48:03

ディープ・コギトのLLMは本当に素晴らしい！同じサイズのモデルと比べてパフォーマンスが格段に向上しています。私は研究に700億パラメータのモデルを使っていますが、これはまるで超賢いアシスタントを持つようなものです。唯一の欠点はリソースを多く消費することですが、それでも完全に価値があります！🚀

头条新闻

Gemini 2.5 Pro现在比Claude，GPT-4O更便宜，更便宜 2025顶级AI视频生成器：Pika Labs与其他对比 AI配音：真实声音创作终极指南 Openai增强了AI语音助手以进行更好的聊天 NotebookLM在全球范围内扩展，添加幻灯片并增强了事实检查对美国数据中心的调整可以解锁76 GW的新电源容量创始人说 AI语音克隆：掌握语音转换的终极指南体验AI驱动的I/O填字游戏：经典文字游戏中的现代转折 NVIDIA首席执行官阐明了对DeepSeek市场影响的误解

精选