DeepSeek-V3
671B
Cantidad de parámetros del modelo
DeepSeek
Organización afiliada
Código abierto
Tipo de licencia
26 de diciembre de 2024
Tiempo de lanzamiento
Introducción al modelo
DeepSeek-V3 ha logrado puntajes de evaluación más altos que otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B, y su rendimiento está a la par con los principales modelos闭源 del mundo como GPT-4o y Claude-3.5-Sonnet.
Puntaje integral
Diálogo del idioma
Reserva de conocimiento
Asociación de razonamiento
Cálculo matemático
Redacción de código
Comando siguiente
Desliza hacia la izquierda y la derecha para ver más


Capacidad de comprensión del lenguaje
A menudo hace juicios mal semánticos, lo que lleva a obvias desconexiones lógicas en las respuestas.
6.8


Alcance de cobertura de conocimiento
Posee el conocimiento central de las disciplinas convencionales, pero tiene una cobertura limitada de los campos interdisciplinarios de vanguardia.
8.8


Capacidad de razonamiento
Incapaz de mantener cadenas de razonamiento coherentes, a menudo causando causalidad invertida o errores de cálculo.
6.7
Comparación de modelos
DeepSeek-V3 vs Qwen2.5-7B-Instruct
Así como Qwen2, los modelos de lenguaje Qwen2.5 admiten hasta 128K tokens y pueden generar hasta 8K tokens. También mantienen el soporte multilingüe para más de 29 idiomas, incluidos chino, inglés, francés, español, portugués, alemán, italiano, ruso, japonés, coreano, vietnamita, tailandés, árabe y más.
DeepSeek-V3 vs Gemini-2.5-Pro-Preview-05-06
Gemini 2.5 Pro es un modelo lanzado por el equipo de investigación en inteligencia artificial Google DeepMind, utilizando el número de versión Gemini-2.5-Pro-Preview-05-06.
DeepSeek-V3 vs GPT-4o-mini-20240718
GPT-4o-mini es un modelo de API producido por OpenAI, con el número de versión específico siendo gpt-4o-mini-2024-07-18.
DeepSeek-V3 vs Doubao-1.5-thinking-pro-250415
El nuevo modelo de pensamiento profundo Doubao-1.5 se destaca en campos profesionales como las matemáticas, la programación, el razonamiento científico y tareas generales como la escritura creativa. Ha alcanzado o está cerca del nivel superior de la industria en varios benchmarks autoritarios como AIME 2024, Codeforces y GPQA.
Modelo relacionado
DeepSeek-V2-Chat-0628
DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.
DeepSeek-V2.5
DeepSeek-V2.5 es una versión actualizada que combina DeepSeek-V2-Chat y DeepSeek-Coder-V2-Instruct. El nuevo modelo integra las capacidades generales y de codificación de las dos versiones anteriores.
DeepSeek-V3-0324
DeepSeek-V3 supera a otros modelos open source como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y coincide con el rendimiento de los principales modelos cerrados como GPT-4 y Claude-3.5-Sonnet.
DeepSeek-V2-Lite-Chat
DeepSeek-V2, un modelo de lenguaje potente de Mixture-of-Experts (MoE) presentado por DeepSeek, el DeepSeek-V2-Lite es una versión ligera de él.
DeepSeek-V2-Chat
DeepSeek-V2 es un modelo de lenguaje Mixture-of-Experts (MoE) potente caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con un total de 236 mil millones de parámetros, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el caché KV en un 93,3% y aumenta el rendimiento máximo de generación hasta 5,76 veces.
Documentos relevantes
DeepSeek-V3 Presentado: Cómo el Diseño de IA Consciente del Hardware Reduce Costos y Mejora el Rendimiento
DeepSeek-V3: Un Salto Eficiente en Costos en el Desarrollo de IALa industria de la IA está en una encrucijada. Mientras los modelos de lenguaje grandes (LLMs) se vuelven más potentes, sus demandas com
Dominar las Herramientas de Edición de IA de Google Photos para Resultados Impresionantes
Google Photos destaca en el almacenamiento y organización de fotos, pero sus funciones de edición impulsadas por IA a menudo permanecen subutilizadas. Esta guía revela las capacidades ocultas de Googl
Viajes Impulsados por IA: Planifica tu Escapada Perfecta con Facilidad
Planificar unas vacaciones puede parecer abrumador, con búsquedas y reseñas interminables que convierten la emoción en estrés. La planificación de viajes impulsada por IA cambia eso, haciendo que el p
NoteGPT Potenciado por IA Transforma la Experiencia de Aprendizaje en YouTube
En el mundo acelerado de hoy, el aprendizaje efectivo es esencial. NoteGPT es una extensión dinámica de Chrome que revoluciona cómo interactúas con el contenido de YouTube. Al aprovechar la IA, ofrece
Comunidad Sindical y Google Se Asocian para Impulsar Habilidades de IA para Trabajadores del Reino Unido
Nota del Editor: Google se ha asociado con Community Union en el Reino Unido para demostrar cómo las habilidades de IA pueden mejorar las capacidades de los trabajadores tanto de oficina como operativ