DeepSeek-V2-Chat-0628
236B
Modelo Parâmetro Quantidade
DeepSeek
Organização afiliada
Código aberto
Tipo de licença
5 de Maio de 2024
Tempo de liberação
Introdução ao modelo
DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE), caracterizado por treinamento econômico e inferência eficiente. Ele consiste em 236 bilhões de parâmetros no total, dos quais 21 bilhões são ativados para cada token. Em comparação com o DeepSeek 67B, o DeepSeek-V2 apresenta um desempenho superior, economizando 42,5% nos custos de treinamento, reduzindo o cache KV em 93,3% e aumentando a capacidade máxima de geração em 5,76 vezes.
Pontuação abrangente
Diálogo de idiomas
Reserva de conhecimento
Associação de Raciocínio
Cálculo matemático
Escrita de código
Comando seguindo


Capacidade de compreensão de idiomas
Muitas vezes, faz mal julgamentos semânticos, levando a óbvias desconexões lógicas nas respostas.
4.6


Escopo de cobertura do conhecimento
Possui conhecimento central das disciplinas convencionais, mas tem cobertura limitada de campos interdisciplinares de ponta.
7.8


Capacidade de raciocínio
Incapaz de manter cadeias de raciocínio coerentes, geralmente causando causalidade invertida ou erros de cálculo.
4.7
Comparação de modelos
DeepSeek-V2-Chat-0628 vs Qwen2.5-7B-Instruct
Assim como o Qwen2, os modelos de linguagem Qwen2.5 suportam até 128K tokens e podem gerar até 8K tokens. Eles também mantêm suporte multilíngue para mais de 29 idiomas, incluindo chinês, inglês, francês, espanhol, português, alemão, italiano, russo, japonês, coreano, vietnamita, tailandês, árabe e muito mais.
DeepSeek-V2-Chat-0628 vs Doubao-1.5-thinking-pro-250415
O novo modelo de pensamento profundo Doubao-1.5 se destaca em campos profissionais como matemática, programação, raciocínio científico e tarefas gerais como escrita criativa. Ele alcançou ou está próximo do nível superior da indústria em vários benchmarks autoritários, como AIME 2024, Codeforces e GPQA.
DeepSeek-V2-Chat-0628 vs Step-1-8K
Step-1-8K é um modelo de API produzido pela Step Star, com o número da versão do modelo sendo step-1-8k.
Modelo relacionado
DeepSeek-V2.5
DeepSeek-V2.5 é uma versão atualizada que combina DeepSeek-V2-Chat e DeepSeek-Coder-V2-Instruct. O novo modelo integra as capacidades gerais e de codificação das duas versões anteriores.
DeepSeek-V3-0324
O DeepSeek-V3 supera outros modelos open source como o Qwen2.5-72B e o Llama-3.1-405B em várias avaliações e corresponde ao desempenho dos principais modelos fechados como o GPT-4 e o Claude-3.5-Sonnet.
DeepSeek-V2-Lite-Chat
DeepSeek-V2, um forte modelo de linguagem Mixture-of-Experts (MoE) apresentado pela DeepSeek, o DeepSeek-V2-Lite é uma versão leve dele.
DeepSeek-V2-Chat
DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE) caracterizado por treinamento econômico e inferência eficiente. Ele consiste em 236 bilhões de parâmetros no total, dos quais 21 bilhões são ativados para cada token. Em comparação com o DeepSeek 67B, o DeepSeek-V2 apresenta um desempenho superior, economizando 42,5% nos custos de treinamento, reduzindo o cache KV em 93,3% e aumentando a capacidade máxima de geração em 5,76 vezes.
DeepSeek-R1
DeepSeek-R1 é um modelo treinado através de aprendizado por reforço em larga escala (RL) sem usar Ajuste Supervisionado Fino (SFT) como etapa inicial. Seu desempenho em tarefas de matemática, codificação e raciocínio é comparável ao do OpenAI-o1.
Documentos relevantes
Mistral revela o modelo de incorporação de código avançado superando o OpenAI e coere em tarefas de recuperação do mundo real
Mistral entra na arena de incorporação com a geração aumentada de recuperação corporativa Codestral Enterprise (RAG) continua a ganhar tração, o mercado está maduro para a inovação na incorporação de modelos. Entre Mistral, a empresa francesa de IA conhecida por ultrapassar os limites no desenvolvimento da IA. Recentemente, eles revelaram coes
Geração de máscara automática com fooocus para a IA
Liberando o poder da edição de imagens movidas a IA com o Fooococus que você está mergulhando no mundo da edição de imagens orientada pela IA, Fooocus é um nome que você provavelmente tropeçou. Esta ferramenta inovadora traz uma nova perspectiva para a manipulação da imagem com seus recursos de ponta, especialmente sua máscara automática
Nanodegree AI generativo sobre Udacity: Insights e Dive Deep de um mentor
Embarcando na generativa Ai NanodeGree Journey de Udacity que você está curioso sobre o mundo da IA generativa? O generativo AI NanodeGree da Udacity oferece uma exploração abrangente desse campo em rápida evolução. Se você já é versado em IA ou apenas iniciando sua jornada, este programa equipa você com wi
Capa de música da AI: Explorando o fenômeno da capa de Michael Jackstone Ai
A evolução da música da IA cobre o mundo da música que continua se reinventando, uma das tendências mais cativantes a surgir recentemente é a ascensão das capas da música da IA. Entre eles, a capa de Michael Jackstone Ai capturou a imaginação de muitos, mostrando como a inteligência artificial pode respirar novo
Revisão do construtor de vídeos da IA: revelando a verdade por trás do hype
A revelação da verdade por trás da AI Video Builderin hoje em ritmo acelerado de hoje, capturando a atenção através do envolvimento de conteúdo de vídeo nunca foi tão crítico. Plataformas como a AI Video Builder prometem simplificar esse processo com suas ferramentas de criação de vídeo com IA. Mas quão bem faz isso do baile