Die LLMs von Deep Cogito übertreffen ähnliche Modelle mit ähnlicher Größe mit IDA

Heim

Nachricht

18. April 2025

JoseAdams

169

# ai # models # llm

Deep Cogito, ein in San Francisco ansässiges Unternehmen, sorgt in der AI-Community für Aufsehen mit seiner neuesten Veröffentlichung von offenen großen Sprachmodellen (LLMs). Diese Modelle, die in verschiedenen Größen von 3 Milliarden bis 70 Milliarden Parametern reichen, sind nicht nur ein weiterer Satz von AI-Tools; sie sind ein mutiger Schritt hin zu dem, was das Unternehmen „allgemeine Superintelligenz“ nennt. Deep Cogito behauptet, dass jedes ihrer Modelle die führenden offenen Modelle ähnlicher Größe, einschließlich derer von LLAMA, DeepSeek und Qwen, in den meisten Standard-Benchmarks übertrifft. Das ist eine beachtliche Behauptung, aber noch beeindruckender ist, dass ihr 70B-Modell Berichten zufolge das kürzlich veröffentlichte Llama 4 109B Mixture-of-Experts (MoE)-Modell übertrumpft hat.

Iterierte Destillation und Amplifikation (IDA)

Das Herzstück des Durchbruchs von Deep Cogito ist ein neuer Trainingsansatz, den sie Iterierte Destillation und Amplifikation (IDA) nennen. Diese Methode wird als „skalierbare und effiziente Ausrichtungsstrategie für allgemeine Superintelligenz durch iterative Selbstverbesserung“ beschrieben. Sie ist darauf ausgelegt, die Grenzen des traditionellen LLM-Trainings zu überwinden, bei dem die Intelligenz des Modells oft an eine Obergrenze stößt, die durch größere „Überwacher“-Modelle oder menschliche Kuratoren definiert ist.

Der IDA-Prozess dreht sich um zwei wesentliche Schritte, die immer wieder wiederholt werden:

Amplifikation: Dieser Schritt nutzt mehr Rechenleistung, um dem Modell zu helfen, bessere Lösungen oder Fähigkeiten zu entwickeln, ähnlich wie fortschrittliche Denktechniken.
Destillation: Hier verinnerlicht das Modell diese verbesserten Fähigkeiten und verfeinert seine Parameter.

Deep Cogito argumentiert, dass dies eine „positive Rückkopplungsschleife“ schafft, die es der Intelligenz des Modells ermöglicht, direkter mit den Rechenressourcen und der Effizienz des IDA-Prozesses selbst zu wachsen, anstatt durch die Intelligenz eines Überwachers begrenzt zu sein.

Das Unternehmen verweist auf historische Erfolge wie AlphaGo und betont, dass „fortschrittliches Denken und iterative Selbstverbesserung“ entscheidend waren. IDA, so behaupten sie, bringt diese Elemente in das LLM-Training. Sie preisen auch die Effizienz von IDA und stellen fest, dass ihr kleines Team es geschafft hat, diese Modelle in nur etwa 75 Tagen zu entwickeln. Im Vergleich zu anderen Methoden wie Reinforcement Learning from Human Feedback (RLHF) oder Standard-Destillation von größeren Modellen soll IDA eine bessere Skalierbarkeit bieten.

Als Beweis hebt Deep Cogito hervor, wie ihr 70B-Modell sowohl Llama 3.3 70B (destilliert aus einem 405B-Modell) als auch Llama 4 Scout 109B (destilliert aus einem 2T-Parameter-Modell) übertrifft.

Fähigkeiten und Leistung der Deep Cogito-Modelle

Die neuen Cogito-Modelle, die auf Llama- und Qwen-Checkpoints aufbauen, sind auf Codierung, Funktionsaufrufe und agentische Anwendungen zugeschnitten. Ein herausragendes Merkmal ist ihre doppelte Funktionalität: „Jedes Modell kann direkt antworten (Standard-LLM) oder vor der Antwort selbst reflektieren (wie Denkmodelle).“ Dies spiegelt Fähigkeiten wider, die in Modellen wie Claude 3.5 zu sehen sind. Deep Cogito erwähnt jedoch, dass sie sich nicht auf sehr lange Denkketten konzentriert haben, sondern schnelle Antworten und die Effizienz der Destillation kürzerer Ketten priorisieren.

Das Unternehmen hat umfassende Benchmark-Ergebnisse geteilt, in denen ihre Cogito-Modelle mit gleich großen, modernen offenen Modellen sowohl im direkten als auch im Denkmodus verglichen werden. Über eine Reihe von Benchmarks wie MMLU, MMLU-Pro, ARC, GSM8K und MATH und über verschiedene Modellgrößen (3B, 8B, 14B, 32B, 70B) zeigen die Cogito-Modelle allgemein signifikante Leistungsverbesserungen. Zum Beispiel erzielt das Cogito 70B-Modell im Standardmodus 91,73 % bei MMLU, eine Verbesserung von +6,40 % gegenüber Llama 3.3 70B, und 91,00 % im Denkmodus, eine Steigerung von +4,40 % gegenüber Deepseek R1 Distill 70B. Livebench-Werte spiegeln diese Gewinne ebenfalls wider.

Hier sind Benchmarks von 14B-Modellen für einen Vergleich mittlerer Größe:

Benchmarks von 14B-Modellen

Während Deep Cogito anerkennt, dass Benchmarks nicht die volle praktische Nützlichkeit erfassen, bleiben sie zuversichtlich in die praktische Leistung ihrer Modelle. Diese Veröffentlichung gilt als Vorschau, wobei das Unternehmen angibt, dass sie „noch in den frühen Stadien dieser Skalierungskurve“ stehen. Sie planen, verbesserte Checkpoints für die aktuellen Größen zu veröffentlichen und in den kommenden Wochen und Monaten größere MoE-Modelle (109B, 400B, 671B) einzuführen. Alle zukünftigen Modelle werden ebenfalls Open-Source sein.

Verwandter Artikel

Meta verbessert KI-Sicherheit mit fortschrittlichen Llama-Tools Meta hat neue Llama-Sicherheitstools veröffentlicht, um die KI-Entwicklung zu stärken und vor neuen Bedrohungen zu schützen.Diese verbesserten Llama-KI-Modell-Sicherheitstools werden mit neuen Ressour

NotebookLM stellt kuratierte Notizbücher von Top-Publikationen und Experten vor Google verbessert sein KI-gestütztes Forschungs- und Notizwerkzeug, NotebookLM, um als umfassendes Wissenszentrum zu dienen. Am Montag stellte das Unternehmen eine kuratierte Sammlung von Notizbüchern

Alibaba enthüllt Wan2.1-VACE: Open-Source-KI-Videolösung Alibaba hat Wan2.1-VACE vorgestellt, ein Open-Source-KI-Modell, das die Prozesse der Videoproduktion und -bearbeitung revolutionieren soll.VACE ist eine zentrale Komponente der Wan2.1-Video-KI-Modellf

Kommentare (26)

0/200

Einreichen

PaulThomas

6. August 2025 21:01:00 MESZ

Super cool to see Deep Cogito pushing the boundaries with their LLMs! 😎 Those parameter sizes are wild—wonder how they stack up in real-world tasks?

GregoryCarter

21. April 2025 05:16:16 MESZ

LLM от Deep Cogito впечатляют, но приложение могло бы иметь лучший UI. Навигация по разным размерам моделей немного неуклюжая. Тем не менее, производительность на высшем уровне, особенно с технологией IDA. Обязательно стоит посмотреть, если вы интересуетесь ИИ и хотите увидеть, что возможно с большими языковыми моделями! 🤖💡

EricRoberts

20. April 2025 06:40:17 MESZ

ディープコギトのLLMは印象的ですが、アプリのUIがもう少し改善されると良いですね。モデルサイズをナビゲートするのが少しぎこちないです。それでも、パフォーマンスは最高で、特にIDAテクノロジーとの組み合わせが素晴らしいです。AIに興味があるなら、大規模言語モデルの可能性を見る価値がありますよ！🤖💡

WillieAnderson

20. April 2025 06:09:03 MESZ

딥 코기토의 LLM은 정말 혁신적이에요! 비슷한 크기의 모델과 비교해도 성능 향상이 놀랍습니다. IDA 접근법이 큰 차이를 만듭니다. 유일한 단점은 학습 곡선인데, 한번 익숙해지면 문제없어요! 🚀

EricKing

20. April 2025 00:12:37 MESZ

Deep Cogito's LLMs are impressive, but the app could use a better UI. It's a bit clunky to navigate through the different model sizes. Still, the performance is top-notch, especially with the IDA tech. Definitely worth a look if you're into AI and want to see what's possible with large language models! 🤖💡

BruceClark

19. April 2025 20:48:03 MESZ

ディープ・コギトのLLMは本当に素晴らしい！同じサイズのモデルと比べてパフォーマンスが格段に向上しています。私は研究に700億パラメータのモデルを使っていますが、これはまるで超賢いアシスタントを持つようなものです。唯一の欠点はリソースを多く消費することですが、それでも完全に価値があります！🚀

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung OpenAI verbessert den AI -Sprachassistenten für bessere Chats NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten AI Computing, um die Leistung mehrerer NYCs bis 2026 zu verbrauchen, sagt Gründer Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung Erleben Sie das KI-angetriebene E/A-Kreuzworträtsel: Eine moderne Wendung auf dem klassischen Wortspiel Der CEO von Nvidia verdeutlicht falsche Vorstellungen über Deepseeks Marktauswirkungen

Mehr

Vorgestellt