Name: DeepSeek-V2.5
Rating: 1 (7 reviews)
Author: DeepSeek

Hogar

Lista de modelos AL

DeepSeek-V2.5

Agregar comparación

236B

Cantidad de parámetros del modelo

DeepSeek

Organización afiliada

Código abierto

Tipo de licencia

5 de septiembre de 2024

Tiempo de lanzamiento

Sitio web oficial

Documentación modelo

Informe técnico

Figuras relacionadas

Zhenda Xie

Kai Dong

Qihao Zhu

Daya Guo

Liang Wenfeng

Introducción al modelo

DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.

Puntaje integral Diálogo del idioma Reserva de conocimiento Asociación de razonamiento Cálculo matemático Redacción de código Comando siguiente

Desliza hacia la izquierda y la derecha para ver más

Capacidad de comprensión del lenguaje

A menudo hace juicios mal semánticos, lo que lleva a obvias desconexiones lógicas en las respuestas.

5.8

Alcance de cobertura de conocimiento

Tiene puntos ciegos de conocimiento significativo, a menudo que muestran errores objetivos y repitiendo información obsoleta.

6.9

Capacidad de razonamiento

Incapaz de mantener cadenas de razonamiento coherentes, a menudo causando causalidad invertida o errores de cálculo.

5.2

Comparación de modelos

DeepSeek-V2.5 vs Qwen2.5-7B-Instruct Así como Qwen2, los modelos de lenguaje Qwen2.5 admiten hasta 128K tokens y pueden generar hasta 8K tokens. También mantienen el soporte multilingüe para más de 29 idiomas, incluidos chino, inglés, francés, español, portugués, alemán, italiano, ruso, japonés, coreano, vietnamita, tailandés, árabe y más.

DeepSeek-V2.5 vs GPT-4o-mini-20240718 GPT-4o-mini es un modelo de API producido por OpenAI, con el número de versión específico siendo gpt-4o-mini-2024-07-18.

DeepSeek-V2.5 vs Gemini-2.5-Pro-Preview-05-06 Gemini 2.5 Pro es un modelo lanzado por el equipo de investigación en inteligencia artificial Google DeepMind, utilizando el número de versión Gemini-2.5-Pro-Preview-05-06.

DeepSeek-V2.5 vs DeepSeek-V2-Chat-0628 DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.

Modelo relacionado

DeepSeek-V3-0324 DeepSeek-V3 supera a otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y iguala el rendimiento de modelos de código cerrado de primer nivel como GPT-4 y Claude-3.5-Sonnet.

DeepSeek-R1-0528 La última versión de Deepseek R1.

DeepSeek-V2-Chat-0628 DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.

DeepSeek-V2.5 DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.

DeepSeek-V3-0324 DeepSeek-V3 supera a otros modelos open source como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y coincide con el rendimiento de los principales modelos cerrados como GPT-4 y Claude-3.5-Sonnet.

Documentos relevantes

Google presenta herramientas basadas en IA para Gmail, Docs y Vids Google presenta en I/O 2025 actualizaciones del espacio de trabajo basadas en IADurante su conferencia anual de desarrolladores, Google ha presentado mejoras transformadoras de IA que llegarán a su su

AWS lanza Bedrock AgentCore: Plataforma de código abierto para el desarrollo de agentes de IA empresarial Aquí está el contenido HTML reescrito:AWS lanza Bedrock AgentCore para agentes de IA empresariales Amazon Web Services (AWS) apuesta fuerte por los agentes de IA que transforman las operaciones empres

La grabadora de voz Akaluli AI mejora la productividad y la concentración de forma eficaz En nuestros entornos de trabajo hiperconectados, mantener la concentración durante conversaciones cruciales es cada vez más difícil. La grabadora de voz Akaluli AI presenta una solución innovadora a e

Spotify aumenta el coste de la suscripción Premium en los mercados fuera de EE.UU. Spotify está aplicando subidas de precios de suscripción en varios mercados internacionales pocos días después de presentar unos resultados financieros decepcionantes. El gigante del streaming confirm

Cairn RPG: sistema de mesa fácil de aprender para nuevos jugadores ¿Quieres una emocionante puerta de entrada a los juegos de rol de mesa que no abrume a los recién llegados? Imagínate organizar una aventura entera con diez completos principiantes en sólo quince minu

Comparación de modelos

Comience la comparación