DeepSeek-V2-Chat-0628
236B
Cantidad de parámetros del modelo
DeepSeek
Organización afiliada
Código abierto
Tipo de licencia
5 de mayo de 2024
Tiempo de lanzamiento
Introducción al modelo
DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.
Puntaje integral
Diálogo del idioma
Reserva de conocimiento
Asociación de razonamiento
Cálculo matemático
Redacción de código
Comando siguiente


Capacidad de comprensión del lenguaje
A menudo hace juicios mal semánticos, lo que lleva a obvias desconexiones lógicas en las respuestas.
4.6


Alcance de cobertura de conocimiento
Posee el conocimiento central de las disciplinas convencionales, pero tiene una cobertura limitada de los campos interdisciplinarios de vanguardia.
7.8


Capacidad de razonamiento
Incapaz de mantener cadenas de razonamiento coherentes, a menudo causando causalidad invertida o errores de cálculo.
4.7
Comparación de modelos
DeepSeek-V2-Chat-0628 vs Qwen2.5-7B-Instruct
Así como Qwen2, los modelos de lenguaje Qwen2.5 admiten hasta 128K tokens y pueden generar hasta 8K tokens. También mantienen el soporte multilingüe para más de 29 idiomas, incluidos chino, inglés, francés, español, portugués, alemán, italiano, ruso, japonés, coreano, vietnamita, tailandés, árabe y más.
DeepSeek-V2-Chat-0628 vs Doubao-1.5-thinking-pro-250415
El nuevo modelo de pensamiento profundo Doubao-1.5 se destaca en campos profesionales como las matemáticas, la programación, el razonamiento científico y tareas generales como la escritura creativa. Ha alcanzado o está cerca del nivel superior de la industria en varios benchmarks autoritarios como AIME 2024, Codeforces y GPQA.
DeepSeek-V2-Chat-0628 vs Step-1-8K
Step-1-8K es un modelo de API producido por Step Star, con el número de versión del modelo siendo step-1-8k.
Modelo relacionado
DeepSeek-V2.5
DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.
DeepSeek-V3-0324
DeepSeek-V3 supera a otros modelos open source como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y coincide con el rendimiento de los principales modelos cerrados como GPT-4 y Claude-3.5-Sonnet.
DeepSeek-V2-Lite-Chat
DeepSeek-V2, un modelo de lenguaje potente de Mixture-of-Experts (MoE) presentado por DeepSeek, el DeepSeek-V2-Lite es una versión ligera de él.
DeepSeek-V2-Chat
DeepSeek-V2 es un modelo de lenguaje Mixture-of-Experts (MoE) potente caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con un total de 236 mil millones de parámetros, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el caché KV en un 93,3% y aumenta el rendimiento máximo de generación hasta 5,76 veces.
DeepSeek-R1
DeepSeek-R1 es un modelo entrenado mediante aprendizaje por refuerzo a gran escala (RL) sin utilizar Afinamiento Supervisado (SFT) como paso inicial. Su rendimiento en tareas de matemáticas, codificación y razonamiento es comparable al de OpenAI-o1.
Documentos relevantes
Mistral presenta el modelo de incrustación de código avanzado superando a OpenAi y cohere en tareas de recuperación del mundo real
Mistral entra en la arena de incrustación con la generación aumentada de recuperación de la empresa incrustal (RAG) (RAG) de recuperación de la empresa incrustal, continúa ganando tracción, el mercado está listo para la innovación en los modelos de incrustación. Ingrese Mistral, la compañía francesa de IA conocida por superar los límites en el desarrollo de la IA. Recientemente, dieron a conocer CO
Generación automática de máscaras con fooocus para la entrada de IA
Desatar el poder de la edición de imágenes con AI con fooocusif que estás sumergiendo en el mundo de la edición de imágenes impulsadas por la IA, Fooocus es un nombre con el que probablemente te hayas topado. Esta herramienta innovadora aporta una nueva perspectiva a la manipulación de imágenes con sus características de vanguardia, especialmente su máscara automática
Nanodegrado generativo de IA sobre Udacity: Insights de un mentor y buceo profundo
¿Embarque en la generación de nanodegras de AI generativa de Udacity, ¿tienes curiosidad por el mundo de la IA generativa? El nanodegre de IA generativo de Udacity ofrece una exploración integral de este campo en rápida evolución. Ya sea que ya esté versado en IA o que comience su viaje, este programa lo equipa con
AI Music Portada: Explorando el fenómeno de la portada de Michael Jackstone AI
La evolución de la música AI Music Coversas, el mundo de la música sigue reinventándose, una de las tendencias más cautivadoras que emerge recientemente es el surgimiento de las portadas de música de IA. Entre estos, la portada de Michael Jackstone AI ha capturado la imaginación de muchos, mostrando cómo la inteligencia artificial puede respirar nuevos
Revisión de AI Video Builder: revelando la verdad detrás de la exageración
Presentar la verdad detrás de AI Video Builderin El panorama digital de ritmo rápido de hoy, capturando la atención a través del contenido de video atractivo nunca ha sido más crítico. Plataformas como AI Video Builder prometen simplificar este proceso con sus herramientas de creación de video con IA. Pero, ¿qué tan bien hacen estos bailes?