O LLMS da Deep Cogito superou os modelos de tamanho semelhante usando IDA

Lar

Notícias

18 de Abril de 2025

JoseAdams

169

# ai # models # llm

Deep Cogito, uma empresa com sede em São Francisco, está causando impacto na comunidade de IA com seu mais recente lançamento de modelos de linguagem de grande escala (LLMs) abertos. Esses modelos, que variam em tamanhos de 3 bilhões a 70 bilhões de parâmetros, não são apenas mais um conjunto de ferramentas de IA; são um passo ousado em direção ao que a empresa chama de "superinteligência geral". A Deep Cogito afirma que cada um de seus modelos supera os principais modelos abertos de tamanhos semelhantes, incluindo aqueles da LLAMA, DeepSeek e Qwen, na maioria dos benchmarks padrão. É uma afirmação impressionante, mas o que é ainda mais impressionante é que seu modelo de 70B teria superado o recentemente lançado modelo Llama 4 109B Mixture-of-Experts (MoE).

Destilação e Amplificação Iteradas (IDA)

No cerne do avanço da Deep Cogito está uma nova abordagem de treinamento que eles chamam de Destilação e Amplificação Iteradas (IDA). Esse método é descrito como "uma estratégia de alinhamento escalável e eficiente para superinteligência geral usando autoaperfeiçoamento iterativo". Ele é projetado para superar as limitações do treinamento tradicional de LLMs, onde a inteligência do modelo frequentemente atinge um teto definido por modelos "supervisores" maiores ou curadores humanos.

O processo IDA gira em torno de dois passos principais que são repetidos continuamente:

Amplificação: Esta etapa utiliza mais poder computacional para ajudar o modelo a encontrar melhores soluções ou capacidades, semelhante a técnicas de raciocínio avançado.
Destilação: Aqui, o modelo internaliza essas capacidades aprimoradas, refinando seus parâmetros.

A Deep Cogito argumenta que isso cria um "ciclo de retroalimentação positiva", permitindo que a inteligência do modelo cresça mais diretamente com os recursos computacionais e a eficiência do próprio processo IDA, em vez de ser limitada pela inteligência de um supervisor.

A empresa aponta para sucessos históricos como o AlphaGo, enfatizando que "Raciocínio Avançado e Autoaperfeiçoamento Iterativo" foram cruciais. O IDA, eles afirmam, traz esses elementos para o treinamento de LLMs. Eles também destacam a eficiência do IDA, observando que sua equipe, embora pequena, conseguiu desenvolver esses modelos em cerca de 75 dias. Quando comparado a outros métodos como Aprendizado por Reforço a partir de Feedback Humano (RLHF) ou destilação padrão de modelos maiores, o IDA é dito oferecer melhor escalabilidade.

Como prova, a Deep Cogito destaca como seu modelo de 70B supera tanto o Llama 3.3 70B (destilado de um modelo de 405B) quanto o Llama 4 Scout 109B (destilado de um modelo de 2T de parâmetros).

Capacidades e Desempenho dos Modelos Deep Cogito

Os novos modelos Cogito, que se baseiam em checkpoints do Llama e Qwen, são adaptados para codificação, chamada de funções e aplicações agentivas. Um recurso destacado é sua funcionalidade dupla: "Cada modelo pode responder diretamente (LLM padrão) ou autorrefletir antes de responder (como modelos de raciocínio)." Isso reflete capacidades vistas em modelos como Claude 3.5. No entanto, a Deep Cogito menciona que não focou em cadeias de raciocínio muito longas, priorizando respostas mais rápidas e a eficiência de destilar cadeias mais curtas.

A empresa compartilhou resultados extensivos de benchmarks, comparando seus modelos Cogito contra modelos abertos de última geração de tamanhos equivalentes, tanto em modos direto quanto de raciocínio. Em uma variedade de benchmarks como MMLU, MMLU-Pro, ARC, GSM8K e MATH, e em diferentes tamanhos de modelo (3B, 8B, 14B, 32B, 70B), os modelos Cogito geralmente mostram melhorias significativas de desempenho. Por exemplo, o modelo Cogito 70B pontua 91,73% no MMLU em modo padrão, uma melhoria de +6,40% sobre o Llama 3.3 70B, e 91,00% no modo de pensamento, um aumento de +4,40% sobre o Deepseek R1 Distill 70B. As pontuações do Livebench também refletem esses ganhos.

Aqui estão os benchmarks dos modelos de 14B para uma comparação de tamanho médio:

Benchmarks dos modelos de 14B

Embora a Deep Cogito reconheça que os benchmarks não capturam totalmente a utilidade no mundo real, eles permanecem confiantes no desempenho prático de seus modelos. Este lançamento é considerado uma prévia, com a empresa afirmando que está "ainda nos estágios iniciais dessa curva de escalonamento". Eles planejam lançar checkpoints aprimorados para os tamanhos atuais e introduzir modelos MoE maiores (109B, 400B, 671B) nas próximas semanas e meses. Todos os modelos futuros também serão de código aberto.

Artigo relacionado

Meta Aprimora a Segurança de IA com Ferramentas Avançadas do Llama A Meta lançou novas ferramentas de segurança do Llama para fortalecer o desenvolvimento de IA e proteger contra ameaças emergentes.Essas ferramentas de segurança do modelo de IA Llama atualizadas são

NotebookLM Apresenta Cadernos Curados de Publicações e Especialistas de Destaque O Google está aprimorando sua ferramenta de pesquisa e anotações baseada em IA, NotebookLM, para servir como um hub de conhecimento abrangente. Na segunda-feira, a empresa lançou uma coleção curada de

Alibaba Revela Wan2.1-VACE: Solução de Vídeo de IA de Código Aberto Alibaba apresentou o Wan2.1-VACE, um modelo de IA de código aberto pronto para transformar os processos de criação e edição de vídeos.VACE é um componente chave da família de modelos de IA de vídeo Wa

Comentários (26)

0/200

Enviar

PaulThomas

6 de Agosto de 2025 à0 20:01:00 WEST

Super cool to see Deep Cogito pushing the boundaries with their LLMs! 😎 Those parameter sizes are wild—wonder how they stack up in real-world tasks?

GregoryCarter

21 de Abril de 2025 à16 04:16:16 WEST

LLM от Deep Cogito впечатляют, но приложение могло бы иметь лучший UI. Навигация по разным размерам моделей немного неуклюжая. Тем не менее, производительность на высшем уровне, особенно с технологией IDA. Обязательно стоит посмотреть, если вы интересуетесь ИИ и хотите увидеть, что возможно с большими языковыми моделями! 🤖💡

EricRoberts

20 de Abril de 2025 à17 05:40:17 WEST

ディープコギトのLLMは印象的ですが、アプリのUIがもう少し改善されると良いですね。モデルサイズをナビゲートするのが少しぎこちないです。それでも、パフォーマンスは最高で、特にIDAテクノロジーとの組み合わせが素晴らしいです。AIに興味があるなら、大規模言語モデルの可能性を見る価値がありますよ！🤖💡

WillieAnderson

20 de Abril de 2025 à3 05:09:03 WEST

딥 코기토의 LLM은 정말 혁신적이에요! 비슷한 크기의 모델과 비교해도 성능 향상이 놀랍습니다. IDA 접근법이 큰 차이를 만듭니다. 유일한 단점은 학습 곡선인데, 한번 익숙해지면 문제없어요! 🚀

EricKing

19 de Abril de 2025 à37 23:12:37 WEST

Deep Cogito's LLMs are impressive, but the app could use a better UI. It's a bit clunky to navigate through the different model sizes. Still, the performance is top-notch, especially with the IDA tech. Definitely worth a look if you're into AI and want to see what's possible with large language models! 🤖💡

BruceClark

19 de Abril de 2025 à3 19:48:03 WEST

ディープ・コギトのLLMは本当に素晴らしい！同じサイズのモデルと比べてパフォーマンスが格段に向上しています。私は研究に700億パラメータのモデルを使っていますが、これはまるで超賢いアシスタントを持つようなものです。唯一の欠点はリソースを多く消費することですが、それでも完全に価値があります！🚀

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Dublagem AI: Guia Definitivo para Criação de Voz Realista O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia Ai computando para consumir poder de múltiplos NYCs até 2026, diz o fundador Clone de Voz por IA: Guia definitivo para dominar a conversão de voz Experimente as palavras cruzadas de E/S da IA: uma reviravolta moderna no jogo clássico de palavras O CEO da NVIDIA esclarece conceitos errôneos sobre o impacto do mercado de Deepseek

Mais

Apresentou