Name: DeepSeek-R1
Rating: 1 (12 reviews)
Author: DeepSeek

Lar

Lista de modelos AL

DeepSeek-R1

Adicione comparação

671B

Modelo Parâmetro Quantidade

DeepSeek

Organização afiliada

Código aberto

Tipo de licença

20 de Janeiro de 2025

Tempo de liberação

Site oficial

Documentação do modelo

Relatório Técnico

Figuras relacionadas

Zhenda Xie

Kai Dong

Qihao Zhu

Daya Guo

Liang Wenfeng

Introdução ao modelo

O DeepSeek-R1 utilizou extensivamente técnicas de aprendizagem por reforço durante a fase de pós-treinamento, aprimorando significativamente os recursos de raciocínio do modelo com apenas uma quantidade mínima de dados anotados. Em tarefas que envolvem matemática, codificação e inferência de linguagem natural, seu desempenho está no mesmo nível da versão oficial do o1 da OpenAI.

Pontuação abrangente Diálogo de idiomas Reserva de conhecimento Associação de Raciocínio Cálculo matemático Escrita de código Comando seguindo

Deslize para a esquerda e para a direita para ver mais

Capacidade de compreensão de idiomas

Capaz de entender contextos complexos e gerar frases logicamente coerentes, embora ocasionalmente desativada no controle de tom.

7.5

Escopo de cobertura do conhecimento

Abrange mais de 200 campos especializados, integrando as últimas descobertas de pesquisa e conhecimento transcultural em tempo real.

9.0

Capacidade de raciocínio

Pode executar o raciocínio lógico com mais de três etapas, embora a eficiência caia ao lidar com relacionamentos não lineares.

8.5

Comparação de modelos

DeepSeek-R1 vs Qwen2.5-7B-Instruct Assim como o Qwen2, os modelos de linguagem Qwen2.5 suportam até 128K tokens e podem gerar até 8K tokens. Eles também mantêm suporte multilíngue para mais de 29 idiomas, incluindo chinês, inglês, francês, espanhol, português, alemão, italiano, russo, japonês, coreano, vietnamita, tailandês, árabe e muito mais.

DeepSeek-R1 vs GPT-4o-mini-20240718 GPT-4o-mini é um modelo de API produzido pela OpenAI, com o número de versão específico sendo gpt-4o-mini-2024-07-18.

DeepSeek-R1 vs Gemini-2.5-Pro-Preview-05-06 Gemini 2.5 Pro é um modelo lançado pela equipe de pesquisa em inteligência artificial Google DeepMind, utilizando o número de versão Gemini-2.5-Pro-Preview-05-06.

DeepSeek-R1 vs DeepSeek-V2-Chat-0628 DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE), caracterizado por treinamento econômico e inferência eficiente. Ele consiste em 236 bilhões de parâmetros no total, dos quais 21 bilhões são ativados para cada token. Em comparação com o DeepSeek 67B, o DeepSeek-V2 apresenta um desempenho superior, economizando 42,5% nos custos de treinamento, reduzindo o cache KV em 93,3% e aumentando a capacidade máxima de geração em 5,76 vezes.

Modelo relacionado

DeepSeek-V3-0324 O DeepSeek-V3 supera outros modelos de código aberto, como Qwen2.5-72B e Llama-3.1-405B, em várias avaliações e corresponde ao desempenho de modelos de código fechado de alto nível, como GPT-4 e Claude-3.5-Sonnet.

DeepSeek-R1-0528 A versão mais recente do Deepseek R1.

DeepSeek-V2-Chat-0628 DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE), caracterizado por treinamento econômico e inferência eficiente. Ele consiste em 236 bilhões de parâmetros no total, dos quais 21 bilhões são ativados para cada token. Em comparação com o DeepSeek 67B, o DeepSeek-V2 apresenta um desempenho superior, economizando 42,5% nos custos de treinamento, reduzindo o cache KV em 93,3% e aumentando a capacidade máxima de geração em 5,76 vezes.

DeepSeek-V2.5 DeepSeek-V2.5 é uma versão atualizada que combina DeepSeek-V2-Chat e DeepSeek-Coder-V2-Instruct. O novo modelo integra as capacidades gerais e de codificação das duas versões anteriores.

DeepSeek-V3-0324 O DeepSeek-V3 supera outros modelos open source como o Qwen2.5-72B e o Llama-3.1-405B em várias avaliações e corresponde ao desempenho dos principais modelos fechados como o GPT-4 e o Claude-3.5-Sonnet.

Documentos relevantes

Revolução no dimensionamento de anúncios com IA: Aumentar a criatividade em 10 vezes em 2025 O cenário da publicidade digital continua sua rápida evolução, tornando a inovação imprescindível para o sucesso competitivo. À medida que nos aproximamos de 2025, a fusão da inteligência artificial e

Sistemas de recrutamento com IA expõem preconceitos ocultos que afetam as decisões de contratação Os vieses ocultos no recrutamento por IA: Como lidar com a discriminação sistêmica nos algoritmos de contrataçãoIntroduçãoAs ferramentas de contratação baseadas em IA prometem transformar o recrutamen

Platôs de adoção de IA corporativa, revelam dados da Ramp Adoção de IA corporativa atinge um platôEmbora as empresas inicialmente tenham se apressado para implementar soluções de inteligência artificial, o entusiasmo parece estar se estabilizando à medida qu

Desafio Pokemon FireRed Kaizo IronMon: regras essenciais e estratégias de vitória O desafio Pokemon FireRed Kaizo IronMon é um dos maiores testes de habilidade dos jogos - um desafio brutal que quebra as estratégias convencionais de Pokemon e força os jogadores a repensar cada deci

Ferramentas de gerenciamento de tarefas orientadas por IA maximizam a produtividade e a eficiência O futuro da produtividade: Gerenciamento de tarefas com tecnologia de IAEm nosso cenário digital em constante aceleração, o gerenciamento eficaz de tarefas tornou-se essencial para o sucesso profissio

Comparação de modelos

Inicie a comparação