DeepSeek-R1
671B
Modelo Parâmetro Quantidade
DeepSeek
Organização afiliada
Código aberto
Tipo de licença
20 de Janeiro de 2025
Tempo de liberação
Introdução ao modelo
DeepSeek-R1 utilizou amplamente técnicas de aprendizado por reforço durante a fase pós-treinamento, melhorando significativamente as capacidades de raciocínio do modelo com uma quantidade mínima de dados anotados. Em tarefas envolvendo matemática, codificação e inferência de linguagem natural, seu desempenho é equivalente ao lançamento oficial da OpenAI o1.
Pontuação abrangente
Diálogo de idiomas
Reserva de conhecimento
Associação de Raciocínio
Cálculo matemático
Escrita de código
Comando seguindo
Deslize para a esquerda e para a direita para ver mais


Capacidade de compreensão de idiomas
Capaz de entender contextos complexos e gerar frases logicamente coerentes, embora ocasionalmente desativada no controle de tom.
7.5


Escopo de cobertura do conhecimento
Abrange mais de 200 campos especializados, integrando as últimas descobertas de pesquisa e conhecimento transcultural em tempo real.
9.0


Capacidade de raciocínio
Pode executar o raciocínio lógico com mais de três etapas, embora a eficiência caia ao lidar com relacionamentos não lineares.
8.5
Comparação de modelos
DeepSeek-R1 vs Qwen2.5-7B-Instruct
Assim como o Qwen2, os modelos de linguagem Qwen2.5 suportam até 128K tokens e podem gerar até 8K tokens. Eles também mantêm suporte multilíngue para mais de 29 idiomas, incluindo chinês, inglês, francês, espanhol, português, alemão, italiano, russo, japonês, coreano, vietnamita, tailandês, árabe e muito mais.
DeepSeek-R1 vs Gemini-2.5-Pro-Preview-05-06
Gemini 2.5 Pro é um modelo lançado pela equipe de pesquisa em inteligência artificial Google DeepMind, utilizando o número de versão Gemini-2.5-Pro-Preview-05-06.
DeepSeek-R1 vs GPT-4o-mini-20240718
GPT-4o-mini é um modelo de API produzido pela OpenAI, com o número de versão específico sendo gpt-4o-mini-2024-07-18.
DeepSeek-R1 vs Doubao-1.5-thinking-pro-250415
O novo modelo de pensamento profundo Doubao-1.5 se destaca em campos profissionais como matemática, programação, raciocínio científico e tarefas gerais como escrita criativa. Ele alcançou ou está próximo do nível superior da indústria em vários benchmarks autoritários, como AIME 2024, Codeforces e GPQA.
Modelo relacionado
DeepSeek-V2-Chat-0628
DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE), caracterizado por treinamento econômico e inferência eficiente. Ele consiste em 236 bilhões de parâmetros no total, dos quais 21 bilhões são ativados para cada token. Em comparação com o DeepSeek 67B, o DeepSeek-V2 apresenta um desempenho superior, economizando 42,5% nos custos de treinamento, reduzindo o cache KV em 93,3% e aumentando a capacidade máxima de geração em 5,76 vezes.
DeepSeek-V2.5
DeepSeek-V2.5 é uma versão atualizada que combina DeepSeek-V2-Chat e DeepSeek-Coder-V2-Instruct. O novo modelo integra as capacidades gerais e de codificação das duas versões anteriores.
DeepSeek-V3-0324
O DeepSeek-V3 supera outros modelos open source como o Qwen2.5-72B e o Llama-3.1-405B em várias avaliações e corresponde ao desempenho dos principais modelos fechados como o GPT-4 e o Claude-3.5-Sonnet.
DeepSeek-V2-Lite-Chat
DeepSeek-V2, um forte modelo de linguagem Mixture-of-Experts (MoE) apresentado pela DeepSeek, o DeepSeek-V2-Lite é uma versão leve dele.
DeepSeek-V2-Chat
DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE) caracterizado por treinamento econômico e inferência eficiente. Ele consiste em 236 bilhões de parâmetros no total, dos quais 21 bilhões são ativados para cada token. Em comparação com o DeepSeek 67B, o DeepSeek-V2 apresenta um desempenho superior, economizando 42,5% nos custos de treinamento, reduzindo o cache KV em 93,3% e aumentando a capacidade máxima de geração em 5,76 vezes.
Documentos relevantes
Viagem Impulsionada por IA: Planeje Sua Escapada Perfeita com Facilidade
Planejar uma viagem pode parecer assustador, com buscas intermináveis e revisões transformando empolgação em estresse. O planejamento de viagens com IA muda isso, tornando o processo tranquilo e agrad
NoteGPT Potenciado por IA Transforma a Experiência de Aprendizado no YouTube
No mundo acelerado de hoje, o aprendizado eficaz é essencial. O NoteGPT é uma extensão dinâmica do Chrome que revoluciona a forma como você interage com o conteúdo do YouTube. Aproveitando a IA, ele o
União Comunitária e Google Fazem Parceria para Impulsionar Habilidades de IA para Trabalhadores do Reino Unido
Nota do Editor: Google se uniu à União Comunitária no Reino Unido para demonstrar como as habilidades de IA podem aprimorar as capacidades de trabalhadores de escritório e operacionais. Este programa
Magi-1 Revela Tecnologia Revolucionária de Geração de Vídeo por IA de Código Aberto
O campo da criação de vídeos alimentada por IA está avançando rapidamente, e o Magi-1 marca um marco transformador. Este modelo inovador de código aberto oferece precisão incomparável no controle de t
Ética em IA: Navegando Riscos e Responsabilidades no Desenvolvimento Tecnológico
A inteligência artificial (IA) está reformulando indústrias, da saúde à logística, oferecendo enorme potencial para progresso. No entanto, seu rápido avanço traz riscos significativos que exigem super