DeepSeek-V3
671B
Modelo Parâmetro Quantidade
DeepSeek
Organização afiliada
Código aberto
Tipo de licença
26 de Dezembro de 2024
Tempo de liberação
Introdução ao modelo
DeepSeek-V3 alcançou pontuações de avaliação mais altas do que outros modelos de código aberto como Qwen2.5-72B e Llama-3.1-405B, e seu desempenho está à altura dos principais modelos fechados do mundo, como GPT-4o e Claude-3.5-Sonnet.
Pontuação abrangente
Diálogo de idiomas
Reserva de conhecimento
Associação de Raciocínio
Cálculo matemático
Escrita de código
Comando seguindo
Deslize para a esquerda e para a direita para ver mais


Capacidade de compreensão de idiomas
Muitas vezes, faz mal julgamentos semânticos, levando a óbvias desconexões lógicas nas respostas.
6.8


Escopo de cobertura do conhecimento
Possui conhecimento central das disciplinas convencionais, mas tem cobertura limitada de campos interdisciplinares de ponta.
8.8


Capacidade de raciocínio
Incapaz de manter cadeias de raciocínio coerentes, geralmente causando causalidade invertida ou erros de cálculo.
6.7
Comparação de modelos
DeepSeek-V3 vs Qwen2.5-7B-Instruct
Assim como o Qwen2, os modelos de linguagem Qwen2.5 suportam até 128K tokens e podem gerar até 8K tokens. Eles também mantêm suporte multilíngue para mais de 29 idiomas, incluindo chinês, inglês, francês, espanhol, português, alemão, italiano, russo, japonês, coreano, vietnamita, tailandês, árabe e muito mais.
DeepSeek-V3 vs Gemini-2.5-Pro-Preview-05-06
Gemini 2.5 Pro é um modelo lançado pela equipe de pesquisa em inteligência artificial Google DeepMind, utilizando o número de versão Gemini-2.5-Pro-Preview-05-06.
DeepSeek-V3 vs GPT-4o-mini-20240718
GPT-4o-mini é um modelo de API produzido pela OpenAI, com o número de versão específico sendo gpt-4o-mini-2024-07-18.
DeepSeek-V3 vs Doubao-1.5-thinking-pro-250415
O novo modelo de pensamento profundo Doubao-1.5 se destaca em campos profissionais como matemática, programação, raciocínio científico e tarefas gerais como escrita criativa. Ele alcançou ou está próximo do nível superior da indústria em vários benchmarks autoritários, como AIME 2024, Codeforces e GPQA.
Modelo relacionado
DeepSeek-V2-Chat-0628
DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE), caracterizado por treinamento econômico e inferência eficiente. Ele consiste em 236 bilhões de parâmetros no total, dos quais 21 bilhões são ativados para cada token. Em comparação com o DeepSeek 67B, o DeepSeek-V2 apresenta um desempenho superior, economizando 42,5% nos custos de treinamento, reduzindo o cache KV em 93,3% e aumentando a capacidade máxima de geração em 5,76 vezes.
DeepSeek-V2.5
DeepSeek-V2.5 é uma versão atualizada que combina DeepSeek-V2-Chat e DeepSeek-Coder-V2-Instruct. O novo modelo integra as capacidades gerais e de codificação das duas versões anteriores.
DeepSeek-V3-0324
O DeepSeek-V3 supera outros modelos open source como o Qwen2.5-72B e o Llama-3.1-405B em várias avaliações e corresponde ao desempenho dos principais modelos fechados como o GPT-4 e o Claude-3.5-Sonnet.
DeepSeek-V2-Lite-Chat
DeepSeek-V2, um forte modelo de linguagem Mixture-of-Experts (MoE) apresentado pela DeepSeek, o DeepSeek-V2-Lite é uma versão leve dele.
DeepSeek-V2-Chat
DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE) caracterizado por treinamento econômico e inferência eficiente. Ele consiste em 236 bilhões de parâmetros no total, dos quais 21 bilhões são ativados para cada token. Em comparação com o DeepSeek 67B, o DeepSeek-V2 apresenta um desempenho superior, economizando 42,5% nos custos de treinamento, reduzindo o cache KV em 93,3% e aumentando a capacidade máxima de geração em 5,76 vezes.
Documentos relevantes
DeepSeek-V3 Revelado: Como o Design de IA Consciente de Hardware Reduz Custos e Aumenta o Desempenho
DeepSeek-V3: Um Avanço Eficiente em Custos no Desenvolvimento de IAA indústria de IA está em uma encruzilhada. Enquanto modelos de linguagem de grande escala (LLMs) se tornam mais poderosos, suas dema
Dominar as Ferramentas de Edição de IA do Google Photos para Resultados Impressionantes
O Google Photos se destaca no armazenamento e organização de fotos, mas suas funcionalidades de edição alimentadas por IA frequentemente permanecem subutilizadas. Este guia revela as capacidades ocult
Viagem Impulsionada por IA: Planeje Sua Escapada Perfeita com Facilidade
Planejar uma viagem pode parecer assustador, com buscas intermináveis e revisões transformando empolgação em estresse. O planejamento de viagens com IA muda isso, tornando o processo tranquilo e agrad
NoteGPT Potenciado por IA Transforma a Experiência de Aprendizado no YouTube
No mundo acelerado de hoje, o aprendizado eficaz é essencial. O NoteGPT é uma extensão dinâmica do Chrome que revoluciona a forma como você interage com o conteúdo do YouTube. Aproveitando a IA, ele o
União Comunitária e Google Fazem Parceria para Impulsionar Habilidades de IA para Trabalhadores do Reino Unido
Nota do Editor: Google se uniu à União Comunitária no Reino Unido para demonstrar como as habilidades de IA podem aprimorar as capacidades de trabalhadores de escritório e operacionais. Este programa