Name: DeepSeek-V3-0324
Rating: 1 (96 reviews)
Author: DeepSeek

Hogar

Lista de modelos AL

DeepSeek-V3-0324

Agregar comparación

671B

Cantidad de parámetros del modelo

DeepSeek

Organización afiliada

Código abierto

Tipo de licencia

24 de marzo de 2025

Tiempo de lanzamiento

Sitio web oficial

Documentación modelo

Informe técnico

Figuras relacionadas

Zhenda Xie

Kai Dong

Qihao Zhu

Daya Guo

Liang Wenfeng

Introducción al modelo

DeepSeek-V3 supera a otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B en múltiples evaluaciones y iguala el rendimiento de modelos de código cerrado de primer nivel como GPT-4 y Claude-3.5-Sonnet.

Puntaje integral Diálogo del idioma Reserva de conocimiento Asociación de razonamiento Cálculo matemático Redacción de código Comando siguiente

Desliza hacia la izquierda y la derecha para ver más

Capacidad de comprensión del lenguaje

Capaz de comprender contextos complejos y generar oraciones lógicamente coherentes, aunque ocasionalmente en control de tono.

7.5

Alcance de cobertura de conocimiento

Posee el conocimiento central de las disciplinas convencionales, pero tiene una cobertura limitada de los campos interdisciplinarios de vanguardia.

8.8

Capacidad de razonamiento

Incapaz de mantener cadenas de razonamiento coherentes, a menudo causando causalidad invertida o errores de cálculo.

5.4

Comparación de modelos

DeepSeek-V3-0324 vs Qwen2.5-7B-Instruct Así como Qwen2, los modelos de lenguaje Qwen2.5 admiten hasta 128K tokens y pueden generar hasta 8K tokens. También mantienen el soporte multilingüe para más de 29 idiomas, incluidos chino, inglés, francés, español, portugués, alemán, italiano, ruso, japonés, coreano, vietnamita, tailandés, árabe y más.

DeepSeek-V3-0324 vs Hunyuan-T1-20250822 El modelo de razonamiento profundo desarrollado independientemente por Tencent adopta el número de versión hunyuan-t1-20250822.

DeepSeek-V3-0324 vs Spark-X1 El modelo de inferencia Spark X1 lanzado por iFlytek, además de liderar tareas matematicas nacionales, evalua el rendimiento de tareas generales como inferencia, generacion de texto e inteligencia linguistica frente al OpenAI o1 y el DeepSeek R1.

DeepSeek-V3-0324 vs Doubao-Seed-1.6-thinking-250715 La última versión del modelo de la serie Seed lanzado por ByteDance, que soporta el modo de pensamiento.

DeepSeek-V3-0324 vs Doubao-Seed-1.6-251015 (Thinking) El modelo de razonamiento profundo lanzado por ByteDance, que admite el cambio manual de razonamiento profundo, y su rendimiento mejora significativamente en comparación con doubao-1.5.

Modelo relacionado

DeepSeek-V3.2 La última versión de los modelos de la serie Deepseek V3.

DeepSeek-V3.2-Exp La última versión experimental de los modelos de la serie Deepseek V3.

DeepSeek-R1-0528 La última versión de Deepseek R1.

DeepSeek-V2-Chat-0628 DeepSeek-V2 es un modelo de lenguaje de Mixture-of-Experts (MoE) potente, caracterizado por un entrenamiento económico y una inferencia eficiente. Cuenta con 236 mil millones de parámetros en total, de los cuales 21 mil millones están activos para cada token. En comparación con DeepSeek 67B, DeepSeek-V2 ofrece un mejor rendimiento, reduce en un 42,5% los costos de entrenamiento, disminuye el almacenamiento en caché KV en un 93,3% y mejora la capacidad máxima de generación hasta 5,76 veces.

Documentos relevantes

La primera serie de AIGC de Yaoke Media, «El misterio del bronce en Qinling», se estrena hoy con protagonistas creados por IA Hoy se estrena oficialmente la miniserie de misterio y fantasía con IA generativa (AIGC) de Yaoke Media, «La historia secreta del bronce de Qinling». Protagonizada por los dos primeros actores de IA c

Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos

WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an

Claude, la IA experimental de Anthropic, lleva a cabo negociaciones y transacciones en una prueba de comercio electrónico A medida que la inteligencia artificial avanza rápidamente, Anthropic puso en marcha discretamente el pasado viernes un experimento interno denominado «Project Deal», en el que se ponía de manifiesto

DeepSeek Code, listo para su lanzamiento A medida que la tecnología de IA avanza a pasos agigantados, DeepSeek se encuentra en un momento decisivo. La empresa de IA ha revelado recientemente que ha conseguido más de 70 000 millones de yuanes

Comparación de modelos

Comience la comparación