DeepSeek-V3-0324
671B
Modelo Parâmetro Quantidade
DeepSeek
Organização afiliada
Código aberto
Tipo de licença
24 de Março de 2025
Tempo de liberação
Introdução ao modelo
O DeepSeek-V3 supera outros modelos open source como o Qwen2.5-72B e o Llama-3.1-405B em várias avaliações e corresponde ao desempenho dos principais modelos fechados como o GPT-4 e o Claude-3.5-Sonnet.
Pontuação abrangente
Diálogo de idiomas
Reserva de conhecimento
Associação de Raciocínio
Cálculo matemático
Escrita de código
Comando seguindo
Deslize para a esquerda e para a direita para ver mais


Capacidade de compreensão de idiomas
Capaz de entender contextos complexos e gerar frases logicamente coerentes, embora ocasionalmente desativada no controle de tom.
7.4


Escopo de cobertura do conhecimento
Possui conhecimento central das disciplinas convencionais, mas tem cobertura limitada de campos interdisciplinares de ponta.
8.7


Capacidade de raciocínio
Pode executar o raciocínio lógico com mais de três etapas, embora a eficiência caia ao lidar com relacionamentos não lineares.
8.9
Comparação de modelos
DeepSeek-V3-0324 vs Qwen2.5-7B-Instruct
Assim como o Qwen2, os modelos de linguagem Qwen2.5 suportam até 128K tokens e podem gerar até 8K tokens. Eles também mantêm suporte multilíngue para mais de 29 idiomas, incluindo chinês, inglês, francês, espanhol, português, alemão, italiano, russo, japonês, coreano, vietnamita, tailandês, árabe e muito mais.
DeepSeek-V3-0324 vs Gemini-2.5-Pro-Preview-05-06
Gemini 2.5 Pro é um modelo lançado pela equipe de pesquisa em inteligência artificial Google DeepMind, utilizando o número de versão Gemini-2.5-Pro-Preview-05-06.
DeepSeek-V3-0324 vs GPT-4o-mini-20240718
GPT-4o-mini é um modelo de API produzido pela OpenAI, com o número de versão específico sendo gpt-4o-mini-2024-07-18.
DeepSeek-V3-0324 vs Doubao-1.5-thinking-pro-250415
O novo modelo de pensamento profundo Doubao-1.5 se destaca em campos profissionais como matemática, programação, raciocínio científico e tarefas gerais como escrita criativa. Ele alcançou ou está próximo do nível superior da indústria em vários benchmarks autoritários, como AIME 2024, Codeforces e GPQA.
Modelo relacionado
DeepSeek-V2-Chat-0628
DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE), caracterizado por treinamento econômico e inferência eficiente. Ele consiste em 236 bilhões de parâmetros no total, dos quais 21 bilhões são ativados para cada token. Em comparação com o DeepSeek 67B, o DeepSeek-V2 apresenta um desempenho superior, economizando 42,5% nos custos de treinamento, reduzindo o cache KV em 93,3% e aumentando a capacidade máxima de geração em 5,76 vezes.
DeepSeek-V2.5
DeepSeek-V2.5 é uma versão atualizada que combina DeepSeek-V2-Chat e DeepSeek-Coder-V2-Instruct. O novo modelo integra as capacidades gerais e de codificação das duas versões anteriores.
DeepSeek-V2-Lite-Chat
DeepSeek-V2, um forte modelo de linguagem Mixture-of-Experts (MoE) apresentado pela DeepSeek, o DeepSeek-V2-Lite é uma versão leve dele.
DeepSeek-V2-Chat
DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE) caracterizado por treinamento econômico e inferência eficiente. Ele consiste em 236 bilhões de parâmetros no total, dos quais 21 bilhões são ativados para cada token. Em comparação com o DeepSeek 67B, o DeepSeek-V2 apresenta um desempenho superior, economizando 42,5% nos custos de treinamento, reduzindo o cache KV em 93,3% e aumentando a capacidade máxima de geração em 5,76 vezes.
DeepSeek-R1
DeepSeek-R1 é um modelo treinado através de aprendizado por reforço em larga escala (RL) sem usar Ajuste Supervisionado Fino (SFT) como etapa inicial. Seu desempenho em tarefas de matemática, codificação e raciocínio é comparável ao do OpenAI-o1.
Documentos relevantes
Anthropic Melhora Claude com Integrações de Ferramentas Sem Costura e Pesquisa Avançada
Anthropic revelou novas 'Integrações' para Claude, permitindo que a IA se conecte diretamente com suas ferramentas de trabalho preferidas. A empresa também introduziu um recurso aprimorado de 'Pesquis
Design de UX com Inteligência Artificial: Moldando o Futuro da Experiência do Usuário
O campo do design de Experiência do Usuário (UX) está passando por uma transformação profunda, impulsionada pela rápida evolução da Inteligência Artificial (AI). Longe de ser uma visão distante, a AI
Educação Alimentada por IA: Revolucionando o Aprendizado em Todos os Níveis
A inteligência artificial (IA) está transformando a educação ao oferecer ferramentas inovadoras para engajar alunos e personalizar o aprendizado. Este artigo examina como educadores podem utilizar a I
AI vs. Escritores Humanos: Podem as Máquinas Superar a Criatividade?
Em uma era orientada por conteúdo, o debate sobre se a inteligência artificial (AI) pode superar os escritores humanos ganha força. A AI oferece velocidade e economia de custos, mas os humanos proporc
Ídolos de IA Revolucionam o Entretenimento com Performances Virtuais
O cenário do entretenimento está se transformando com o surgimento de ídolos de IA, artistas virtuais impulsionados por inteligência artificial. Essas estrelas digitais cativam audiências globais por