Deep Cogito's LLMS superan modelos de tamaño similar con IDA

Hogar

Noticias

18 de abril de 2025

JoseAdams

169

# ai # models # llm

Deep Cogito, una empresa con sede en San Francisco, está causando revuelo en la comunidad de IA con su última lanzamiento de modelos de lenguaje grandes abiertos (LLMs). Estos modelos, que varían en tamaño desde 3 mil millones hasta 70 mil millones de parámetros, no son solo otro conjunto de herramientas de IA; son un paso audaz hacia lo que la empresa llama "superinteligencia general". Deep Cogito afirma que cada uno de sus modelos supera a los principales modelos abiertos de tamaños similares, incluyendo los de LLAMA, DeepSeek y Qwen, en la mayoría de los benchmarks estándar. Es una afirmación notable, pero aún más impresionante es que su modelo de 70B ha superado, según se informa, al recientemente lanzado modelo Llama 4 109B Mixture-of-Experts (MoE).

Destilación y Amplificación Iterada (IDA)

En el núcleo del avance de Deep Cogito está un nuevo enfoque de entrenamiento que llaman Destilación y Amplificación Iterada (IDA). Este método se describe como "una estrategia de alineación escalable y eficiente para la superinteligencia general utilizando la mejora iterativa propia". Está diseñado para superar las limitaciones del entrenamiento tradicional de LLMs, donde la inteligencia del modelo a menudo alcanza un límite definido por modelos "supervisores" más grandes o curadores humanos.

El proceso de IDA gira en torno a dos pasos clave que se repiten una y otra vez:

Amplificación: Este paso utiliza más potencia computacional para ayudar al modelo a generar mejores soluciones o capacidades, similar a las técnicas de razonamiento avanzado.
Destilación: Aquí, el modelo internaliza estas capacidades mejoradas, refinando sus parámetros.

Deep Cogito argumenta que esto crea un "bucle de retroalimentación positiva", permitiendo que la inteligencia del modelo crezca más directamente con los recursos computacionales y la eficiencia del propio proceso de IDA, en lugar de estar limitada por la inteligencia de un supervisor.

La empresa señala éxitos históricos como AlphaGo, enfatizando que el "Razonamiento Avanzado y la Mejora Iterativa Propia" fueron cruciales. IDA, afirman, incorpora estos elementos al entrenamiento de LLMs. También destacan la eficiencia de IDA, señalando que su equipo, aunque pequeño, logró desarrollar estos modelos en solo unos 75 días. En comparación con otros métodos como el Aprendizaje por Refuerzo desde Retroalimentación Humana (RLHF) o la destilación estándar desde modelos más grandes, se dice que IDA ofrece una mejor escalabilidad.

Como prueba, Deep Cogito destaca cómo su modelo de 70B supera tanto a Llama 3.3 70B (destilado de un modelo de 405B) como a Llama 4 Scout 109B (destilado de un modelo de 2T parámetros).

Capacidades y Rendimiento de los Modelos de Deep Cogito

Los nuevos modelos Cogito, que se basan en checkpoints de Llama y Qwen, están diseñados para codificación, invocación de funciones y aplicaciones agentivas. Una característica destacada es su doble funcionalidad: "Cada modelo puede responder directamente (LLM estándar) o autorreflexionar antes de responder (como modelos de razonamiento)". Esto refleja capacidades vistas en modelos como Claude 3.5. Sin embargo, Deep Cogito menciona que no se han centrado en cadenas de razonamiento muy largas, priorizando respuestas más rápidas y la eficiencia de destilar cadenas más cortas.

La empresa ha compartido resultados de benchmarks extensos, comparando sus modelos Cogito contra modelos abiertos de vanguardia de tamaño equivalente en modos directo y de razonamiento. En una variedad de benchmarks como MMLU, MMLU-Pro, ARC, GSM8K y MATH, y en diferentes tamaños de modelo (3B, 8B, 14B, 32B, 70B), los modelos Cogito generalmente muestran mejoras significativas en el rendimiento. Por ejemplo, el modelo Cogito 70B obtiene un 91.73% en MMLU en modo estándar, una mejora de +6.40% sobre Llama 3.3 70B, y un 91.00% en modo de pensamiento, un aumento de +4.40% sobre Deepseek R1 Distill 70B. Los puntajes de Livebench también reflejan estas mejoras.

Aquí están los benchmarks de los modelos de 14B para una comparación de tamaño medio:

Benchmarks de modelos de 14B

Aunque Deep Cogito reconoce que los benchmarks no capturan completamente la utilidad en el mundo real, confían en el rendimiento práctico de sus modelos. Este lanzamiento se considera una vista previa, con la empresa afirmando que están "todavía en las primeras etapas de esta curva de escalado". Planean lanzar checkpoints mejorados para los tamaños actuales e introducir modelos MoE más grandes (109B, 400B, 671B) en las próximas semanas y meses. Todos los modelos futuros también serán de código abierto.

Artículo relacionado

Meta Mejora la Seguridad de la IA con Herramientas Avanzadas de Llama Meta ha lanzado nuevas herramientas de seguridad de Llama para fortalecer el desarrollo de la IA y proteger contra amenazas emergentes.Estas herramientas de seguridad mejoradas del modelo de IA Llama

NotebookLM Presenta Cuadernos Curados de Publicaciones y Expertos de Renombre Google está mejorando su herramienta de investigación y toma de notas impulsada por IA, NotebookLM, para que sirva como un centro de conocimiento integral. El lunes, la compañía presentó una colección

Alibaba presenta Wan2.1-VACE: solución de video de IA de código abierto Alibaba ha presentado Wan2.1-VACE, un modelo de IA de código abierto diseñado para transformar los procesos de creación y edición de videos.VACE es un componente clave de la familia de modelos de IA d

comentario (26)

0/200

Entregar

PaulThomas

6 de agosto de 2025 21:01:00 GMT+02:00

Super cool to see Deep Cogito pushing the boundaries with their LLMs! 😎 Those parameter sizes are wild—wonder how they stack up in real-world tasks?

GregoryCarter

21 de abril de 2025 05:16:16 GMT+02:00

LLM от Deep Cogito впечатляют, но приложение могло бы иметь лучший UI. Навигация по разным размерам моделей немного неуклюжая. Тем не менее, производительность на высшем уровне, особенно с технологией IDA. Обязательно стоит посмотреть, если вы интересуетесь ИИ и хотите увидеть, что возможно с большими языковыми моделями! 🤖💡

EricRoberts

20 de abril de 2025 06:40:17 GMT+02:00

ディープコギトのLLMは印象的ですが、アプリのUIがもう少し改善されると良いですね。モデルサイズをナビゲートするのが少しぎこちないです。それでも、パフォーマンスは最高で、特にIDAテクノロジーとの組み合わせが素晴らしいです。AIに興味があるなら、大規模言語モデルの可能性を見る価値がありますよ！🤖💡

WillieAnderson

20 de abril de 2025 06:09:03 GMT+02:00

딥 코기토의 LLM은 정말 혁신적이에요! 비슷한 크기의 모델과 비교해도 성능 향상이 놀랍습니다. IDA 접근법이 큰 차이를 만듭니다. 유일한 단점은 학습 곡선인데, 한번 익숙해지면 문제없어요! 🚀

EricKing

20 de abril de 2025 00:12:37 GMT+02:00

Deep Cogito's LLMs are impressive, but the app could use a better UI. It's a bit clunky to navigate through the different model sizes. Still, the performance is top-notch, especially with the IDA tech. Definitely worth a look if you're into AI and want to see what's possible with large language models! 🤖💡

BruceClark

19 de abril de 2025 20:48:03 GMT+02:00

ディープ・コギトのLLMは本当に素晴らしい！同じサイズのモデルと比べてパフォーマンスが格段に向上しています。私は研究に700億パラメータのモデルを使っていますが、これはまるで超賢いアシスタントを持つようなものです。唯一の欠点はリソースを多く消費することですが、それでも完全に価値があります！🚀

Noticias principales

Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Doblaje AI: Guía Definitiva para la Creación de Voz Realista Operai mejora el asistente de voz de IA para mejores chats Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia AI Computing para consumir la potencia de múltiples NYC para 2026, dice el fundador Clonación de Voz IA: La guía definitiva para dominar la conversión de voz Experimente el crucigrama de E/S con IA: un giro moderno en el clásico juego de palabras El CEO de NVIDIA aclara los conceptos erróneos sobre el impacto del mercado de Deepseek

Más

Presentado