Deep Cogito's LLMS superan modelos de tamaño similar con IDA
Deep Cogito, una empresa con sede en San Francisco, está causando revuelo en la comunidad de IA con su última lanzamiento de modelos de lenguaje grandes abiertos (LLMs). Estos modelos, que varían en tamaño desde 3 mil millones hasta 70 mil millones de parámetros, no son solo otro conjunto de herramientas de IA; son un paso audaz hacia lo que la empresa llama "superinteligencia general". Deep Cogito afirma que cada uno de sus modelos supera a los principales modelos abiertos de tamaños similares, incluyendo los de LLAMA, DeepSeek y Qwen, en la mayoría de los benchmarks estándar. Es una afirmación notable, pero aún más impresionante es que su modelo de 70B ha superado, según se informa, al recientemente lanzado modelo Llama 4 109B Mixture-of-Experts (MoE).
Destilación y Amplificación Iterada (IDA)
En el núcleo del avance de Deep Cogito está un nuevo enfoque de entrenamiento que llaman Destilación y Amplificación Iterada (IDA). Este método se describe como "una estrategia de alineación escalable y eficiente para la superinteligencia general utilizando la mejora iterativa propia". Está diseñado para superar las limitaciones del entrenamiento tradicional de LLMs, donde la inteligencia del modelo a menudo alcanza un límite definido por modelos "supervisores" más grandes o curadores humanos.
El proceso de IDA gira en torno a dos pasos clave que se repiten una y otra vez:
- Amplificación: Este paso utiliza más potencia computacional para ayudar al modelo a generar mejores soluciones o capacidades, similar a las técnicas de razonamiento avanzado.
- Destilación: Aquí, el modelo internaliza estas capacidades mejoradas, refinando sus parámetros.
Deep Cogito argumenta que esto crea un "bucle de retroalimentación positiva", permitiendo que la inteligencia del modelo crezca más directamente con los recursos computacionales y la eficiencia del propio proceso de IDA, en lugar de estar limitada por la inteligencia de un supervisor.
La empresa señala éxitos históricos como AlphaGo, enfatizando que el "Razonamiento Avanzado y la Mejora Iterativa Propia" fueron cruciales. IDA, afirman, incorpora estos elementos al entrenamiento de LLMs. También destacan la eficiencia de IDA, señalando que su equipo, aunque pequeño, logró desarrollar estos modelos en solo unos 75 días. En comparación con otros métodos como el Aprendizaje por Refuerzo desde Retroalimentación Humana (RLHF) o la destilación estándar desde modelos más grandes, se dice que IDA ofrece una mejor escalabilidad.
Como prueba, Deep Cogito destaca cómo su modelo de 70B supera tanto a Llama 3.3 70B (destilado de un modelo de 405B) como a Llama 4 Scout 109B (destilado de un modelo de 2T parámetros).
Capacidades y Rendimiento de los Modelos de Deep Cogito
Los nuevos modelos Cogito, que se basan en checkpoints de Llama y Qwen, están diseñados para codificación, invocación de funciones y aplicaciones agentivas. Una característica destacada es su doble funcionalidad: "Cada modelo puede responder directamente (LLM estándar) o autorreflexionar antes de responder (como modelos de razonamiento)". Esto refleja capacidades vistas en modelos como Claude 3.5. Sin embargo, Deep Cogito menciona que no se han centrado en cadenas de razonamiento muy largas, priorizando respuestas más rápidas y la eficiencia de destilar cadenas más cortas.
La empresa ha compartido resultados de benchmarks extensos, comparando sus modelos Cogito contra modelos abiertos de vanguardia de tamaño equivalente en modos directo y de razonamiento. En una variedad de benchmarks como MMLU, MMLU-Pro, ARC, GSM8K y MATH, y en diferentes tamaños de modelo (3B, 8B, 14B, 32B, 70B), los modelos Cogito generalmente muestran mejoras significativas en el rendimiento. Por ejemplo, el modelo Cogito 70B obtiene un 91.73% en MMLU en modo estándar, una mejora de +6.40% sobre Llama 3.3 70B, y un 91.00% en modo de pensamiento, un aumento de +4.40% sobre Deepseek R1 Distill 70B. Los puntajes de Livebench también reflejan estas mejoras.
Aquí están los benchmarks de los modelos de 14B para una comparación de tamaño medio:

Aunque Deep Cogito reconoce que los benchmarks no capturan completamente la utilidad en el mundo real, confían en el rendimiento práctico de sus modelos. Este lanzamiento se considera una vista previa, con la empresa afirmando que están "todavía en las primeras etapas de esta curva de escalado". Planean lanzar checkpoints mejorados para los tamaños actuales e introducir modelos MoE más grandes (109B, 400B, 671B) en las próximas semanas y meses. Todos los modelos futuros también serán de código abierto.
Artículo relacionado
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general
Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere
YouTube amplía la detección de deepfakes mediante IA a políticos, funcionarios públicos y periodistas
El martes, YouTube anunció que va a ampliar su tecnología de detección de deepfakes a un grupo selecto de funcionarios públicos, candidatos políticos y periodistas. La herramienta identifica las imáge
La verdadera diferencia: no es una cosa, sino otra
A veces, las cosas no son solo una cosa, sino también otra. La frase «No es solo esto, es aquello» se ha vuelto tan habitual en los textos generados por IA que ya no es solo un indicio de contenido si
Recomendaciones de temas especiales relacionados
comentario (29)
0/500
看起来这家叫做Deep Cogito的新公司有点门道。IDA架构?之前没听说过这个技术,好奇跟MoE比怎么样。要是能出个小点的模型让大家体验一下就好了,毕竟现在动辄几十B参数量,普通开发者根本玩不起。希望别只是实验室数据漂亮,实际应用打折扣。
Deep Cogito's LLMs sound like a game-changer! Outperforming models of similar size with IDA is no small feat. Curious to see how these stack up in real-world tasks. 🚀
Super cool to see Deep Cogito pushing the boundaries with their LLMs! 😎 Those parameter sizes are wild—wonder how they stack up in real-world tasks?
LLM от Deep Cogito впечатляют, но приложение могло бы иметь лучший UI. Навигация по разным размерам моделей немного неуклюжая. Тем не менее, производительность на высшем уровне, особенно с технологией IDA. Обязательно стоит посмотреть, если вы интересуетесь ИИ и хотите увидеть, что возможно с большими языковыми моделями! 🤖💡
Deep Cogito, una empresa con sede en San Francisco, está causando revuelo en la comunidad de IA con su última lanzamiento de modelos de lenguaje grandes abiertos (LLMs). Estos modelos, que varían en tamaño desde 3 mil millones hasta 70 mil millones de parámetros, no son solo otro conjunto de herramientas de IA; son un paso audaz hacia lo que la empresa llama "superinteligencia general". Deep Cogito afirma que cada uno de sus modelos supera a los principales modelos abiertos de tamaños similares, incluyendo los de LLAMA, DeepSeek y Qwen, en la mayoría de los benchmarks estándar. Es una afirmación notable, pero aún más impresionante es que su modelo de 70B ha superado, según se informa, al recientemente lanzado modelo Llama 4 109B Mixture-of-Experts (MoE).
Destilación y Amplificación Iterada (IDA)
En el núcleo del avance de Deep Cogito está un nuevo enfoque de entrenamiento que llaman Destilación y Amplificación Iterada (IDA). Este método se describe como "una estrategia de alineación escalable y eficiente para la superinteligencia general utilizando la mejora iterativa propia". Está diseñado para superar las limitaciones del entrenamiento tradicional de LLMs, donde la inteligencia del modelo a menudo alcanza un límite definido por modelos "supervisores" más grandes o curadores humanos.
El proceso de IDA gira en torno a dos pasos clave que se repiten una y otra vez:
- Amplificación: Este paso utiliza más potencia computacional para ayudar al modelo a generar mejores soluciones o capacidades, similar a las técnicas de razonamiento avanzado.
- Destilación: Aquí, el modelo internaliza estas capacidades mejoradas, refinando sus parámetros.
Deep Cogito argumenta que esto crea un "bucle de retroalimentación positiva", permitiendo que la inteligencia del modelo crezca más directamente con los recursos computacionales y la eficiencia del propio proceso de IDA, en lugar de estar limitada por la inteligencia de un supervisor.
La empresa señala éxitos históricos como AlphaGo, enfatizando que el "Razonamiento Avanzado y la Mejora Iterativa Propia" fueron cruciales. IDA, afirman, incorpora estos elementos al entrenamiento de LLMs. También destacan la eficiencia de IDA, señalando que su equipo, aunque pequeño, logró desarrollar estos modelos en solo unos 75 días. En comparación con otros métodos como el Aprendizaje por Refuerzo desde Retroalimentación Humana (RLHF) o la destilación estándar desde modelos más grandes, se dice que IDA ofrece una mejor escalabilidad.
Como prueba, Deep Cogito destaca cómo su modelo de 70B supera tanto a Llama 3.3 70B (destilado de un modelo de 405B) como a Llama 4 Scout 109B (destilado de un modelo de 2T parámetros).
Capacidades y Rendimiento de los Modelos de Deep Cogito
Los nuevos modelos Cogito, que se basan en checkpoints de Llama y Qwen, están diseñados para codificación, invocación de funciones y aplicaciones agentivas. Una característica destacada es su doble funcionalidad: "Cada modelo puede responder directamente (LLM estándar) o autorreflexionar antes de responder (como modelos de razonamiento)". Esto refleja capacidades vistas en modelos como Claude 3.5. Sin embargo, Deep Cogito menciona que no se han centrado en cadenas de razonamiento muy largas, priorizando respuestas más rápidas y la eficiencia de destilar cadenas más cortas.
La empresa ha compartido resultados de benchmarks extensos, comparando sus modelos Cogito contra modelos abiertos de vanguardia de tamaño equivalente en modos directo y de razonamiento. En una variedad de benchmarks como MMLU, MMLU-Pro, ARC, GSM8K y MATH, y en diferentes tamaños de modelo (3B, 8B, 14B, 32B, 70B), los modelos Cogito generalmente muestran mejoras significativas en el rendimiento. Por ejemplo, el modelo Cogito 70B obtiene un 91.73% en MMLU en modo estándar, una mejora de +6.40% sobre Llama 3.3 70B, y un 91.00% en modo de pensamiento, un aumento de +4.40% sobre Deepseek R1 Distill 70B. Los puntajes de Livebench también reflejan estas mejoras.
Aquí están los benchmarks de los modelos de 14B para una comparación de tamaño medio:

Aunque Deep Cogito reconoce que los benchmarks no capturan completamente la utilidad en el mundo real, confían en el rendimiento práctico de sus modelos. Este lanzamiento se considera una vista previa, con la empresa afirmando que están "todavía en las primeras etapas de esta curva de escalado". Planean lanzar checkpoints mejorados para los tamaños actuales e introducir modelos MoE más grandes (109B, 400B, 671B) en las próximas semanas y meses. Todos los modelos futuros también serán de código abierto.
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general
Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere
YouTube amplía la detección de deepfakes mediante IA a políticos, funcionarios públicos y periodistas
El martes, YouTube anunció que va a ampliar su tecnología de detección de deepfakes a un grupo selecto de funcionarios públicos, candidatos políticos y periodistas. La herramienta identifica las imáge
La verdadera diferencia: no es una cosa, sino otra
A veces, las cosas no son solo una cosa, sino también otra. La frase «No es solo esto, es aquello» se ha vuelto tan habitual en los textos generados por IA que ya no es solo un indicio de contenido si
看起来这家叫做Deep Cogito的新公司有点门道。IDA架构?之前没听说过这个技术,好奇跟MoE比怎么样。要是能出个小点的模型让大家体验一下就好了,毕竟现在动辄几十B参数量,普通开发者根本玩不起。希望别只是实验室数据漂亮,实际应用打折扣。
Deep Cogito's LLMs sound like a game-changer! Outperforming models of similar size with IDA is no small feat. Curious to see how these stack up in real-world tasks. 🚀
Super cool to see Deep Cogito pushing the boundaries with their LLMs! 😎 Those parameter sizes are wild—wonder how they stack up in real-world tasks?
LLM от Deep Cogito впечатляют, но приложение могло бы иметь лучший UI. Навигация по разным размерам моделей немного неуклюжая. Тем не менее, производительность на высшем уровне, особенно с технологией IDA. Обязательно стоит посмотреть, если вы интересуетесь ИИ и хотите увидеть, что возможно с большими языковыми моделями! 🤖💡





Hogar






