Name: DeepSeek-R1
Rating: 1 (12 reviews)
Author: DeepSeek

Hogar

Lista de modelos AL

DeepSeek-R1

Agregar comparación

671B

Cantidad de parámetros del modelo

DeepSeek

Organización afiliada

Código abierto

Tipo de licencia

20 de enero de 2025

Tiempo de lanzamiento

Sitio web oficial

Documentación modelo

Informe técnico

Figuras relacionadas

Zhenda Xie

Kai Dong

Qihao Zhu

Daya Guo

Liang Wenfeng

Introducción al modelo

DeepSeek-R1 utilizó ampliamente técnicas de aprendizaje por refuerzo durante la fase de post-entrenamiento, mejorando significativamente las capacidades de razonamiento del modelo con sólo una cantidad mínima de datos anotados. En tareas relacionadas con las matemáticas, la codificación y la inferencia del lenguaje natural, su rendimiento está a la par con la versión oficial de o1 de OpenAI.

Puntaje integral Diálogo del idioma Reserva de conocimiento Asociación de razonamiento Cálculo matemático Redacción de código Comando siguiente

Desliza hacia la izquierda y la derecha para ver más

Capacidad de comprensión del lenguaje

Capaz de comprender contextos complejos y generar oraciones lógicamente coherentes, aunque ocasionalmente en control de tono.

7.5

Alcance de cobertura de conocimiento

Cubre más de 200 campos especializados, integrando los últimos hallazgos de la investigación y el conocimiento intercultural en tiempo real.

9.0

Capacidad de razonamiento

Puede realizar un razonamiento lógico con más de tres pasos, aunque la eficiencia cae al manejar relaciones no lineales.

8.5

Comparación de modelos

DeepSeek-R1 vs Qwen2.5-7B-Instruct Así como Qwen2, los modelos de lenguaje Qwen2.5 admiten hasta 128K tokens y pueden generar hasta 8K tokens. También mantienen el soporte multilingüe para más de 29 idiomas, incluidos chino, inglés, francés, español, portugués, alemán, italiano, ruso, japonés, coreano, vietnamita, tailandés, árabe y más.

DeepSeek-R1 vs GPT-4o-mini-20240718 GPT-4o-mini es un modelo de API producido por OpenAI, con el número de versión específico siendo gpt-4o-mini-2024-07-18.

DeepSeek-R1 vs Gemini-2.5-Pro-Preview-05-06 Gemini 2.5 Pro es un modelo lanzado por el equipo de investigación en inteligencia artificial Google DeepMind, utilizando el número de versión Gemini-2.5-Pro-Preview-05-06.

DeepSeek-R1 vs DeepSeek-V2-Chat-0628 DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.

Modelo relacionado

DeepSeek-V3-0324 DeepSeek-V3 supera a otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y iguala el rendimiento de modelos de código cerrado de primer nivel como GPT-4 y Claude-3.5-Sonnet.

DeepSeek-R1-0528 La última versión de Deepseek R1.

DeepSeek-V2-Chat-0628 DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.

DeepSeek-V2.5 DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.

DeepSeek-V3-0324 DeepSeek-V3 supera a otros modelos open source como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y coincide con el rendimiento de los principales modelos cerrados como GPT-4 y Claude-3.5-Sonnet.

Documentos relevantes

La revolución de la IA en la publicidad: Multiplique por 10 la creatividad en 2025 El panorama de la publicidad digital sigue evolucionando rápidamente, por lo que la innovación es imprescindible para el éxito competitivo. A medida que nos acercamos a 2025, la fusión de la inteligen

Los sistemas de contratación basados en IA revelan los sesgos ocultos que influyen en las decisiones de contratación Los sesgos ocultos en la contratación de IA: Cómo abordar la discriminación sistémica en los algoritmos de contrataciónIntroducciónLas herramientas de contratación impulsadas por IA prometen transform

Los datos de Ramp revelan un estancamiento en la adopción de la IA por parte de las empresas La adopción de la IA por parte de las empresas se estancaAunque al principio las empresas se apresuraron a implantar soluciones de inteligencia artificial, el entusiasmo parece estabilizarse a medida

Pokemon Rojo Fuego Kaizo Desafío IronMon: Reglas esenciales y estrategias ganadoras El desafío Pokemon Rojo Fuego Kaizo IronMon es una de las pruebas de habilidad definitivas de los videojuegos, un brutal guantelete que rompe con las estrategias Pokemon convencionales y obliga a los

Las herramientas de gestión de tareas basadas en IA maximizan la productividad y la eficiencia El futuro de la productividad: Gestión de tareas con IAEn nuestro panorama digital en constante aceleración, la gestión eficaz de las tareas se ha convertido en algo esencial para el éxito profesional

Comparación de modelos

Comience la comparación