Les LLM de Deep Cogito surpassent les modèles de taille similaire à l'aide d'IDA

Maison

Nouvelles

18 avril 2025

JoseAdams

169

# ai # models # llm

Deep Cogito, une entreprise basée à San Francisco, fait des vagues dans la communauté de l'IA avec sa dernière sortie de modèles de langage de grande échelle (LLMs) ouverts. Ces modèles, qui varient en taille de 3 milliards à 70 milliards de paramètres, ne sont pas seulement un nouvel ensemble d'outils d'IA ; ils représentent un pas audacieux vers ce que l'entreprise appelle une "superintelligence générale". Deep Cogito affirme que chacun de leurs modèles surpasse les principaux modèles ouverts de tailles similaires, y compris ceux de LLAMA, DeepSeek et Qwen, dans la plupart des benchmarks standards. C'est une affirmation impressionnante, mais ce qui est encore plus remarquable, c'est que leur modèle 70B aurait surpassé le modèle Llama 4 109B Mixture-of-Experts (MoE) récemment publié.

Distillation et Amplification Itérées (IDA)

Au cœur de la percée de Deep Cogito se trouve une nouvelle approche d'entraînement qu'ils appellent Distillation et Amplification Itérées (IDA). Cette méthode est décrite comme "une stratégie d'alignement évolutive et efficace pour la superintelligence générale utilisant l'auto-amélioration itérative". Elle est conçue pour dépasser les limites de l'entraînement traditionnel des LLMs, où l'intelligence du modèle atteint souvent un plafond défini par des modèles "superviseurs" plus grands ou des curateurs humains.

Le processus IDA repose sur deux étapes clés répétées encore et encore :

Amplification : Cette étape utilise plus de puissance de calcul pour aider le modèle à trouver de meilleures solutions ou capacités, un peu comme des techniques de raisonnement avancées.
Distillation : Ici, le modèle internalise ces capacités améliorées, affinant ses paramètres.

Deep Cogito soutient que cela crée une "boucle de rétroaction positive", permettant à l'intelligence du modèle de croître plus directement avec les ressources computationnelles et l'efficacité du processus IDA lui-même, plutôt que d'être limitée par l'intelligence d'un superviseur.

L'entreprise pointe du doigt des succès historiques comme AlphaGo, soulignant que "le raisonnement avancé et l'auto-amélioration itérative" étaient cruciaux. L'IDA, affirment-ils, intègre ces éléments dans l'entraînement des LLMs. Ils vantent également l'efficacité de l'IDA, notant que leur équipe, bien que petite, a réussi à développer ces modèles en seulement environ 75 jours. Comparée à d'autres méthodes comme l'Apprentissage par Renforcement à partir des Retours Humains (RLHF) ou la distillation standard à partir de modèles plus grands, l'IDA est censée offrir une meilleure évolutivité.

Comme preuve, Deep Cogito met en avant la performance de leur modèle 70B, qui surpasse à la fois le Llama 3.3 70B (distillé d'un modèle 405B) et le Llama 4 Scout 109B (distillé d'un modèle de 2T paramètres).

Capacités et Performance des Modèles Deep Cogito

Les nouveaux modèles Cogito, qui s'appuient sur les checkpoints de Llama et Qwen, sont conçus pour le codage, l'appel de fonctions et les applications agentiques. Une caractéristique notable est leur double fonctionnalité : "Chaque modèle peut répondre directement (LLM standard), ou réfléchir avant de répondre (comme les modèles de raisonnement)." Cela reflète des capacités observées dans des modèles comme Claude 3.5. Cependant, Deep Cogito mentionne qu'ils n'ont pas mis l'accent sur des chaînes de raisonnement très longues, privilégiant des réponses plus rapides et l'efficacité de la distillation de chaînes plus courtes.

L'entreprise a partagé des résultats de benchmarks détaillés, comparant leurs modèles Cogito à des modèles ouverts de pointe de taille équivalente en modes direct et de raisonnement. À travers une gamme de benchmarks comme MMLU, MMLU-Pro, ARC, GSM8K et MATH, et à travers différentes tailles de modèles (3B, 8B, 14B, 32B, 70B), les modèles Cogito montrent généralement des améliorations significatives de performance. Par exemple, le modèle Cogito 70B obtient un score de 91,73 % sur MMLU en mode standard, une amélioration de +6,40 % par rapport à Llama 3.3 70B, et 91,00 % en mode réflexion, une augmentation de +4,40 % par rapport à Deepseek R1 Distill 70B. Les scores Livebench reflètent également ces gains.

Voici les benchmarks des modèles 14B pour une comparaison de taille moyenne :

Benchmarks des modèles 14B

Bien que Deep Cogito reconnaisse que les benchmarks ne capturent pas pleinement l'utilité réelle, ils restent confiants dans la performance pratique de leurs modèles. Cette sortie est considérée comme un aperçu, l'entreprise déclarant qu'ils sont "encore aux premiers stades de cette courbe d'évolutivité". Ils prévoient de publier des checkpoints améliorés pour les tailles actuelles et d'introduire de plus grands modèles MoE (109B, 400B, 671B) dans les semaines et mois à venir. Tous les futurs modèles seront également open-source.

Article connexe

Meta Renforce la Sécurité IA avec des Outils Llama Avancés Meta a publié de nouveaux outils de sécurité Llama pour renforcer le développement IA et protéger contre les menaces émergentes.Ces outils de sécurité du modèle IA Llama améliorés sont associés aux no

NotebookLM Dévoile des Carnets Sélectionnés de Publications de Premier Plan et d'Experts Google améliore son outil de recherche et de prise de notes alimenté par l'IA, NotebookLM, pour en faire un centre de connaissances complet. Lundi, l'entreprise a présenté une collection de carnets so

Alibaba Dévoile Wan2.1-VACE : Solution Vidéo IA Open-Source Alibaba a présenté Wan2.1-VACE, un modèle d'IA open-source prêt à transformer les processus de création et d'édition vidéo.VACE est un composant clé de la famille de modèles vidéo IA Wan2.1 d’Alibaba,

commentaires (26)

0/200

Soumettre

PaulThomas

6 août 2025 21:01:00 UTC+02:00

Super cool to see Deep Cogito pushing the boundaries with their LLMs! 😎 Those parameter sizes are wild—wonder how they stack up in real-world tasks?

GregoryCarter

21 avril 2025 05:16:16 UTC+02:00

LLM от Deep Cogito впечатляют, но приложение могло бы иметь лучший UI. Навигация по разным размерам моделей немного неуклюжая. Тем не менее, производительность на высшем уровне, особенно с технологией IDA. Обязательно стоит посмотреть, если вы интересуетесь ИИ и хотите увидеть, что возможно с большими языковыми моделями! 🤖💡

EricRoberts

20 avril 2025 06:40:17 UTC+02:00

ディープコギトのLLMは印象的ですが、アプリのUIがもう少し改善されると良いですね。モデルサイズをナビゲートするのが少しぎこちないです。それでも、パフォーマンスは最高で、特にIDAテクノロジーとの組み合わせが素晴らしいです。AIに興味があるなら、大規模言語モデルの可能性を見る価値がありますよ！🤖💡

WillieAnderson

20 avril 2025 06:09:03 UTC+02:00

딥 코기토의 LLM은 정말 혁신적이에요! 비슷한 크기의 모델과 비교해도 성능 향상이 놀랍습니다. IDA 접근법이 큰 차이를 만듭니다. 유일한 단점은 학습 곡선인데, 한번 익숙해지면 문제없어요! 🚀

EricKing

20 avril 2025 00:12:37 UTC+02:00

Deep Cogito's LLMs are impressive, but the app could use a better UI. It's a bit clunky to navigate through the different model sizes. Still, the performance is top-notch, especially with the IDA tech. Definitely worth a look if you're into AI and want to see what's possible with large language models! 🤖💡

BruceClark

19 avril 2025 20:48:03 UTC+02:00

ディープ・コギトのLLMは本当に素晴らしい！同じサイズのモデルと比べてパフォーマンスが格段に向上しています。私は研究に700億パラメータのモデルを使っていますが、これはまるで超賢いアシスタントを持つようなものです。唯一の欠点はリソースを多く消費することですが、それでも完全に価値があります！🚀

Top nouvelles

Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Doublage par IA : Guide ultime pour la création de voix réalistes OpenAI améliore l'assistant vocal AI pour de meilleurs chats Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie L'informatique de l'IA pour consommer la puissance de plusieurs New York d'ici 2026, explique le fondateur Clonage Vocal IA: Guide Ultime pour Maîtriser la Conversion de Voix Découvrez les mots croisés d'E / S propulsés par l'IA: une touche moderne sur le jeu de mots classique Le PDG de Nvidia clarifie les idées fausses sur l'impact du marché de Deepseek

Plus

En vedette