Deep Cogito的LLMS使用IDA優於類似大小的模型
Deep Cogito,一家總部位於舊金山的企業,正在人工智慧社群中掀起波瀾,其最新發布的開放大型語言模型(LLMs)備受矚目。這些模型參數規模從30億到700億不等,不僅僅是另一組AI工具;它們是該公司所稱的「通用超級智能」的重要一步。Deep Cogito聲稱,其每個模型在大多數標準基準測試中均超越同等規模的領先開放模型,包括來自LLAMA、DeepSeek和Qwen的模型。這是一個相當大的主張,但更令人印象深刻的是,他們的700億參數模型據報在性能上超越了最近發布的Llama 4 109B混合專家(MoE)模型。
迭代蒸餾與放大(IDA)
Deep Cogito的突破核心在於一種他們稱為迭代蒸餾與放大(IDA)的新訓練方法。該方法被描述為「一種可擴展且高效的通用超級智能對齊策略,通過迭代自我改進實現」。它旨在突破傳統LLM訓練的限制,在傳統方法中,模型的智能通常受到較大的「監督者」模型或人類策展者的上限限制。
IDA過程圍繞兩個反覆進行的關鍵步驟:
- 放大:此步驟利用更多計算能力幫助模型提出更好的解決方案或能力,類似於高級推理技術。
- 蒸餾:在此,模型內化這些改進的能力,優化其參數。
Deep Cogito認為,這創造了一個「正向反饋循環」,使模型的智能能夠隨著計算資源和IDA過程本身的效率更直接地增長,而不受監督者智能的限制。
該公司指出像AlphaGo這樣的歷史成功案例,強調「高級推理和迭代自我改進」至關重要。他們聲稱,IDA將這些元素引入LLM訓練。他們還強調IDA的效率,指出他們的小型團隊僅用大約75天就開發出這些模型。與其他方法如基於人類反饋的強化學習(RLHF)或從較大模型的標準蒸餾相比,IDA據稱提供更好的可擴展性。
作為證明,Deep Cogito強調其700億參數模型在性能上超越了Llama 3.3 70B(從405B模型蒸餾)和Llama 4 Scout 109B(從2T參數模型蒸餾)。
Deep Cogito模型的能力與性能
新的Cogito模型以Llama和Qwen檢查點為基礎,專為編碼、函數調用和代理應用量身定制。一個突出特點是它們的雙重功能:「每個模型都可以直接回答(標準LLM),或在回答前進行自我反思(類似推理模型)」。這與Claude 3.5等模型的功能相似。然而,Deep Cogito提到他們尚未專注於非常長的推理鏈,優先考慮更快的回答和蒸餾較短鏈的效率。
該公司分享了廣泛的基準測試結果,將其Cogito模型與同等規模的最新開放模型在直接和推理模式下進行比較。在MMLU、MMLU-Pro、ARC、GSM8K和MATH等一系列基準測試中,以及不同模型規模(3B、8B、14B、32B、70B)中,Cogito模型通常顯示出顯著的性能提升。例如,Cogito 70B模型在標準模式下的MMLU得分為91.73%,比Llama 3.3 70B提高+6.40%,在思考模式下得分為91.00%,比Deepseek R1 Distill 70B提高+4.40%。Livebench得分也反映了這些進展。
以下是14B模型的基準測試,用於中等規模比較:

雖然Deep Cogito承認基準測試無法完全反映現實世界的實用性,但他們對模型的實際性能仍充滿信心。此次發布被視為預覽,公司表示他們「仍處於這一擴展曲線的早期階段」。他們計劃在未來幾週和幾個月內發布當前規模的改進檢查點,並引入更大的MoE模型(109B、400B、671B)。所有未來模型也將是開源的。
相關文章
Meta增強AI安全以先進Llama工具
Meta已發布全新Llama安全工具,以強化AI開發並防範新興威脅。這些升級的Llama AI模型安全工具與Meta的新資源搭配,旨在賦能網路安全團隊利用AI進行防禦,提升所有AI利益相關者的安全性。使用Llama模型的開發者現可直接在Meta的Llama Protections頁面、Hugging Face及GitHub上獲得增強工具。Llama Guard 4引入多模態功能,支持文字與圖像的安
NotebookLM推出頂尖出版物與專家精選筆記本
Google正在增強其AI驅動的研究與筆記工具NotebookLM,使其成為一個全面的知識中心。週一,該公司推出了一個由知名作者、出版物、研究人員和非營利組織提供的精選筆記本集合,讓使用者能夠探索健康、旅遊、財經等多樣化主題。首批內容包括來自《經濟學人》、《大西洋月刊》、知名教授、作者,甚至莎士比亞作品的貢獻,展示NotebookLM在深入主題探索中的實際應用。Google解釋說,使用者可以存取原
阿里巴巴推出Wan2.1-VACE:開源AI視頻解決方案
阿里巴巴推出了Wan2.1-VACE,一款開源AI模型,旨在改變視頻創作與編輯流程。VACE是阿里巴巴Wan2.1視頻AI模型系列的關鍵組成部分,公司宣稱這是「業界首個為多樣化視頻生成與編輯任務提供全面解決方案的開源模型」。如果阿里巴巴能夠簡化視頻製作流程,將多種工具整合到單一平台,可能會重新定義行業標準。VACE能做什麼?它可以從多種輸入生成視頻,例如文字提示、靜態圖像或短視頻片段。除了視頻創作
評論 (26)
0/200
PaulThomas
2025-08-07 03:01:00
Super cool to see Deep Cogito pushing the boundaries with their LLMs! 😎 Those parameter sizes are wild—wonder how they stack up in real-world tasks?
0
GregoryCarter
2025-04-21 11:16:16
LLM от Deep Cogito впечатляют, но приложение могло бы иметь лучший UI. Навигация по разным размерам моделей немного неуклюжая. Тем не менее, производительность на высшем уровне, особенно с технологией IDA. Обязательно стоит посмотреть, если вы интересуетесь ИИ и хотите увидеть, что возможно с большими языковыми моделями! 🤖💡
0
EricRoberts
2025-04-20 12:40:17
ディープコギトのLLMは印象的ですが、アプリのUIがもう少し改善されると良いですね。モデルサイズをナビゲートするのが少しぎこちないです。それでも、パフォーマンスは最高で、特にIDAテクノロジーとの組み合わせが素晴らしいです。AIに興味があるなら、大規模言語モデルの可能性を見る価値がありますよ!🤖💡
0
WillieAnderson
2025-04-20 12:09:03
딥 코기토의 LLM은 정말 혁신적이에요! 비슷한 크기의 모델과 비교해도 성능 향상이 놀랍습니다. IDA 접근법이 큰 차이를 만듭니다. 유일한 단점은 학습 곡선인데, 한번 익숙해지면 문제없어요! 🚀
0
EricKing
2025-04-20 06:12:37
Deep Cogito's LLMs are impressive, but the app could use a better UI. It's a bit clunky to navigate through the different model sizes. Still, the performance is top-notch, especially with the IDA tech. Definitely worth a look if you're into AI and want to see what's possible with large language models! 🤖💡
0
BruceClark
2025-04-20 02:48:03
ディープ・コギトのLLMは本当に素晴らしい!同じサイズのモデルと比べてパフォーマンスが格段に向上しています。私は研究に700億パラメータのモデルを使っていますが、これはまるで超賢いアシスタントを持つようなものです。唯一の欠点はリソースを多く消費することですが、それでも完全に価値があります!🚀
0
Deep Cogito,一家總部位於舊金山的企業,正在人工智慧社群中掀起波瀾,其最新發布的開放大型語言模型(LLMs)備受矚目。這些模型參數規模從30億到700億不等,不僅僅是另一組AI工具;它們是該公司所稱的「通用超級智能」的重要一步。Deep Cogito聲稱,其每個模型在大多數標準基準測試中均超越同等規模的領先開放模型,包括來自LLAMA、DeepSeek和Qwen的模型。這是一個相當大的主張,但更令人印象深刻的是,他們的700億參數模型據報在性能上超越了最近發布的Llama 4 109B混合專家(MoE)模型。
迭代蒸餾與放大(IDA)
Deep Cogito的突破核心在於一種他們稱為迭代蒸餾與放大(IDA)的新訓練方法。該方法被描述為「一種可擴展且高效的通用超級智能對齊策略,通過迭代自我改進實現」。它旨在突破傳統LLM訓練的限制,在傳統方法中,模型的智能通常受到較大的「監督者」模型或人類策展者的上限限制。
IDA過程圍繞兩個反覆進行的關鍵步驟:
- 放大:此步驟利用更多計算能力幫助模型提出更好的解決方案或能力,類似於高級推理技術。
- 蒸餾:在此,模型內化這些改進的能力,優化其參數。
Deep Cogito認為,這創造了一個「正向反饋循環」,使模型的智能能夠隨著計算資源和IDA過程本身的效率更直接地增長,而不受監督者智能的限制。
該公司指出像AlphaGo這樣的歷史成功案例,強調「高級推理和迭代自我改進」至關重要。他們聲稱,IDA將這些元素引入LLM訓練。他們還強調IDA的效率,指出他們的小型團隊僅用大約75天就開發出這些模型。與其他方法如基於人類反饋的強化學習(RLHF)或從較大模型的標準蒸餾相比,IDA據稱提供更好的可擴展性。
作為證明,Deep Cogito強調其700億參數模型在性能上超越了Llama 3.3 70B(從405B模型蒸餾)和Llama 4 Scout 109B(從2T參數模型蒸餾)。
Deep Cogito模型的能力與性能
新的Cogito模型以Llama和Qwen檢查點為基礎,專為編碼、函數調用和代理應用量身定制。一個突出特點是它們的雙重功能:「每個模型都可以直接回答(標準LLM),或在回答前進行自我反思(類似推理模型)」。這與Claude 3.5等模型的功能相似。然而,Deep Cogito提到他們尚未專注於非常長的推理鏈,優先考慮更快的回答和蒸餾較短鏈的效率。
該公司分享了廣泛的基準測試結果,將其Cogito模型與同等規模的最新開放模型在直接和推理模式下進行比較。在MMLU、MMLU-Pro、ARC、GSM8K和MATH等一系列基準測試中,以及不同模型規模(3B、8B、14B、32B、70B)中,Cogito模型通常顯示出顯著的性能提升。例如,Cogito 70B模型在標準模式下的MMLU得分為91.73%,比Llama 3.3 70B提高+6.40%,在思考模式下得分為91.00%,比Deepseek R1 Distill 70B提高+4.40%。Livebench得分也反映了這些進展。
以下是14B模型的基準測試,用於中等規模比較:
雖然Deep Cogito承認基準測試無法完全反映現實世界的實用性,但他們對模型的實際性能仍充滿信心。此次發布被視為預覽,公司表示他們「仍處於這一擴展曲線的早期階段」。他們計劃在未來幾週和幾個月內發布當前規模的改進檢查點,並引入更大的MoE模型(109B、400B、671B)。所有未來模型也將是開源的。


Super cool to see Deep Cogito pushing the boundaries with their LLMs! 😎 Those parameter sizes are wild—wonder how they stack up in real-world tasks?




LLM от Deep Cogito впечатляют, но приложение могло бы иметь лучший UI. Навигация по разным размерам моделей немного неуклюжая. Тем не менее, производительность на высшем уровне, особенно с технологией IDA. Обязательно стоит посмотреть, если вы интересуетесь ИИ и хотите увидеть, что возможно с большими языковыми моделями! 🤖💡




ディープコギトのLLMは印象的ですが、アプリのUIがもう少し改善されると良いですね。モデルサイズをナビゲートするのが少しぎこちないです。それでも、パフォーマンスは最高で、特にIDAテクノロジーとの組み合わせが素晴らしいです。AIに興味があるなら、大規模言語モデルの可能性を見る価値がありますよ!🤖💡




딥 코기토의 LLM은 정말 혁신적이에요! 비슷한 크기의 모델과 비교해도 성능 향상이 놀랍습니다. IDA 접근법이 큰 차이를 만듭니다. 유일한 단점은 학습 곡선인데, 한번 익숙해지면 문제없어요! 🚀




Deep Cogito's LLMs are impressive, but the app could use a better UI. It's a bit clunky to navigate through the different model sizes. Still, the performance is top-notch, especially with the IDA tech. Definitely worth a look if you're into AI and want to see what's possible with large language models! 🤖💡




ディープ・コギトのLLMは本当に素晴らしい!同じサイズのモデルと比べてパフォーマンスが格段に向上しています。私は研究に700億パラメータのモデルを使っていますが、これはまるで超賢いアシスタントを持つようなものです。唯一の欠点はリソースを多く消費することですが、それでも完全に価値があります!🚀












