opción
Hogar
Lista de modelos AL
DeepSeek-V2-Chat-0628
Cantidad de parámetros del modelo
236B
Cantidad de parámetros del modelo
Organización afiliada
DeepSeek
Organización afiliada
Código abierto
Tipo de licencia
Tiempo de lanzamiento
6 de mayo de 2024
Tiempo de lanzamiento
Introducción al modelo
DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.
Desliza hacia la izquierda y la derecha para ver más
Capacidad de comprensión del lenguaje Capacidad de comprensión del lenguaje
Capacidad de comprensión del lenguaje
A menudo hace juicios mal semánticos, lo que lleva a obvias desconexiones lógicas en las respuestas.
4.6
Alcance de cobertura de conocimiento Alcance de cobertura de conocimiento
Alcance de cobertura de conocimiento
Posee el conocimiento central de las disciplinas convencionales, pero tiene una cobertura limitada de los campos interdisciplinarios de vanguardia.
7.8
Capacidad de razonamiento Capacidad de razonamiento
Capacidad de razonamiento
Incapaz de mantener cadenas de razonamiento coherentes, a menudo causando causalidad invertida o errores de cálculo.
4.7
Modelo relacionado
DeepSeek-V2.5 DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.
DeepSeek-V3-0324 DeepSeek-V3 supera a otros modelos open source como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y coincide con el rendimiento de los principales modelos cerrados como GPT-4 y Claude-3.5-Sonnet.
DeepSeek-V2-Lite-Chat DeepSeek-V2, un modelo de lenguaje potente de Mixture-of-Experts (MoE) presentado por DeepSeek, el DeepSeek-V2-Lite es una versión ligera de él.
DeepSeek-V2-Chat DeepSeek-V2 es un modelo de lenguaje Mixture-of-Experts (MoE) potente caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con un total de 236 mil millones de parámetros, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el caché KV en un 93,3% y aumenta el rendimiento máximo de generación hasta 5,76 veces.
DeepSeek-R1 DeepSeek-R1 es un modelo entrenado mediante aprendizaje por refuerzo a gran escala (RL) sin utilizar Afinamiento Supervisado (SFT) como paso inicial. Su rendimiento en tareas de matemáticas, codificación y razonamiento es comparable al de OpenAI-o1.
Documentos relevantes
Aumentar la precisión de la extracción de correos electrónicos con IA: Principales estrategias reveladas Aprovechar la IA para extraer direcciones de correo electrónico de conversaciones aumenta la eficiencia, pero la precisión sigue siendo un desafío clave para los desarrolladores. Esta guía explora est
Páginas para colorear impulsadas por IA: Crea diseños impresionantes con facilidad Descubre una plataforma de IA innovadora que transforma la creación de páginas para colorear cautivadoras. Perfecta para artistas, educadores o entusiastas, esta herramienta ofrece una interfaz intuit
Renueva tu hogar: Decoración impulsada por IA con Pinterest y ChatGPT ¿Te cuesta rediseñar tu hogar con tantas opciones? Combina la inteligencia artificial con la inspiración visual de Pinterest para crear tu espacio ideal. Esta guía revela cómo mezclar las imágenes de
AI-Powered Wizard of Oz para Deslumbrar en la Pantalla Masiva de la Esfera de Las Vegas Sphere Entertainment recientemente anunció planes para una versión inmersiva de El Mago de Oz adaptada para su distintivo lugar en Las Vegas, con nuevos detalles que revelan cómo Google y Magnopus est
OpenAI Explora 'Iniciar sesión con ChatGPT' para Aplicaciones de Terceros OpenAI está investigando opciones para que los usuarios accedan a aplicaciones de terceros utilizando sus credenciales de ChatGPT, según una página web publicada el martes. La empresa está buscando ac
Comparación de modelos
Comience la comparación
Volver arriba
OR