Habilidades de codificação R1 e V3 de Deepseek testadas: ainda não estamos condenados

Lar

Notícias

17 de Abril de 2025

MarkSmith

117

Apresentando DeepSeek: Um Novo Jogador na Arena da IA

DeepSeek surgiu em cena no último fim de semana, capturando atenção mundial por três razões convincentes:

É um chatbot de IA originário da China, uma mudança notável em relação às ofertas geralmente baseadas nos EUA.
É de código aberto, o que é um grande feito na comunidade tecnológica.
Funciona com uma infraestrutura significativamente menor do que seus concorrentes de peso, tornando-o uma opção intrigante para muitos.

Embora o escrutínio do governo dos EUA sobre o TikTok e o potencial envolvimento do governo chinês em seu código tenha levantado sobrancelhas, a emergência do DeepSeek da China naturalmente atrai atenção semelhante. No entanto, estamos evitando a política aqui. Em vez disso, vamos mergulhar em como o DeepSeek V3 e o DeepSeek R1 se comparam a outros modelos de IA em tarefas de codificação.

De acordo com a própria orientação da DeepSeek:

Escolha o V3 para tarefas que exigem profundidade e precisão, como resolver problemas matemáticos complexos ou gerar códigos intricados.
Opte pelo R1 quando precisar de aplicações rápidas e de alto volume, como automação de suporte ao cliente ou processamento de texto básico.

Você pode alternar entre R1 e V3 usando um pequeno botão na interface de bate-papo. Se estiver azul, você está usando o R1.

Captura de tela por David Gewirtz/ZDNET

Então, como eles se saíram? Ambos os modelos mostraram promessa, mas não foram impecáveis. Vamos explorar os resultados.

Teste 1: Criando um https://img.xix.aiplugin para WordPress

Meu primeiro teste, inspirado pela necessidade da minha esposa de um https://img.xix.aiplugin para WordPress para gerenciar um dispositivo de envolvimento para seu grupo online, é um clássico. O https://img.xix.aiplugin precisava aceitar uma lista de nomes, ordená-los e garantir que duplicatas não ficassem lado a lado. Já lancei esse desafio a várias IAs, e é um desafio difícil.

Captura de tela por David Gewirtz/ZDNET

O DeepSeek V3 acertou em cheio, criando uma interface de usuário e uma lógica de programa que atenderam perfeitamente ao briefing. O R1 tomou uma abordagem diferente, oferecendo impressionantes 4502 palavras de análise antes de compartilhar o código. A interface era mais ampla, mas tanto a interface quanto a lógica funcionaram, então o R1 também passou.

Captura de tela por David Gewirtz/ZDNET

Até agora, tanto o V3 quanto o R1 passaram em um de quatro testes.

Teste 2: Reescrita de uma Função de String

Um usuário teve problemas para inserir dólares e centavos em um campo de doação, o que meu código original não permitia. A tarefa era modificar a rotina para aceitar ambos. O DeepSeek gerou um código funcional, mas há espaço para melhorias.

O código do V3 era excessivamente longo e repetitivo, enquanto o raciocínio do R1 antes de gerar o código também foi extenso. Ambos os modelos validaram até duas casas decimais, mas não lidaram bem com números muito grandes. O uso do R1 da conversão de Number do JavaScript sem verificar casos extremos poderia levar a falhas.

Curiosamente, o R1 forneceu uma boa lista de casos de teste:

Captura de tela por David Gewirtz/ZDNET

Estou dando o ponto ao V3 porque seu código não falharia e produziria os resultados esperados. O R1 falha devido a possíveis falhas com entradas não-string. Isso dá duas vitórias em quatro para o V3 e uma para o R1.

Teste 3: Rastreando um Bug Incômodo

Este teste surgiu de um bug que eu lutei para encontrar. O desafio era que a resposta óbvia com base na mensagem de erro estava errada, o que frequentemente engana as IAs. Resolvê-lo exige entender as chamadas de API do WordPress, ver além da mensagem de erro e identificar o bug.

Ambos, V3 e R1, passaram neste teste com respostas quase idênticas, levando o V3 a três de quatro vitórias e o R1 a duas de quatro. O DeepSeek já está superando Gemini, Copilot, Claude e Meta.

Teste 4: Criando um Script

Este teste é difícil porque envolve três ambientes: AppleScript, o modelo de objeto do Chrome e o Keyboard Maestro. O ChatGPT acertou em cheio, mas o DeepSeek V3 e o R1 ficaram aquém. Nenhum dos modelos entendeu a necessidade de dividir tarefas entre o Keyboard Maestro e o Chrome, e seu conhecimento de AppleScript era fraco.

O R1 fez suposições incorretas, como assumir que uma janela frontal sempre existe e que o programa em execução na frente seria sempre o Chrome. Isso deixou o V3 com três testes corretos e uma falha, e o R1 com dois testes corretos e duas falhas.

Considerações Finais

A insistência do DeepSeek em usar um e-mail de nuvem pública como o Gmail, em vez do meu domínio corporativo, foi frustrante. Também houve alguns problemas de responsividade que fizeram os testes demorarem mais do que o esperado.

Inicialmente, lutei para me inscrever devido a este erro:

Os serviços online da DeepSeek enfrentaram recentemente ataques maliciosos em grande escala. Para garantir a continuidade do serviço, o registro está temporariamente limitado a números de telefone com código +86. Usuários existentes podem fazer login normalmente. Obrigado pela sua compreensão e apoio.

Uma vez dentro, consegui executar os testes. O DeepSeek tende a ser prolixo com seu código. O AppleScript no Teste 4 estava incorreto e desnecessariamente longo. A expressão regular no Teste 2 poderia ter sido mais manutenível, embora o V3 tenha acertado.

Estou impressionado que o V3 superou Gemini, Copilot e Meta, mas ainda está no nível do antigo GPT-3.5, sugerindo que há espaço para crescimento. O desempenho do R1 foi decepcionante. Dada a escolha, eu ficaria com o ChatGPT para ajuda com programação.

Dito isso, para uma nova ferramenta funcionando com muito menos infraestrutura, o DeepSeek é definitivamente um para se ficar de olho.

Quais são seus pensamentos? Você experimentou o DeepSeek? Usa alguma IA para suporte à programação? Deixe-nos saber nos comentários abaixo.

Acompanhe as atualizações diárias do meu projeto nas redes sociais, assine meu boletim semanal e conecte-se comigo no Twitter/X em @DavidGewirtz, Facebook em Facebook.com/DavidGewirtz, Instagram em Instagram.com/DavidGewirtz, Bluesky em @DavidGewirtz.com e YouTube em YouTube.com/DavidGewirtzTV.

Artigo relacionado

Melhores ferramentas de IA para criar infográficos educacionais - Dicas e técnicas de design No cenário educacional atual, impulsionado pelo digital, os infográficos surgiram como um meio de comunicação transformador que converte informações complexas em formatos visualmente atraentes e facil

Topaz DeNoise AI: a melhor ferramenta de redução de ruído em 2025 - Guia completo No competitivo mundo da fotografia digital, a nitidez da imagem continua sendo fundamental. Fotógrafos de todos os níveis de habilidade enfrentam o ruído digital que compromete fotos que, de outra for

Master Emerald Kaizo Nuzlocke: Guia definitivo de sobrevivência e estratégia O Emerald Kaizo é um dos mais formidáveis hacks de ROM de Pokémon já concebidos. Embora a tentativa de executar um Nuzlocke aumente exponencialmente o desafio, a vitória continua sendo possível por me

Comentários (13)

0/200

Enviar

CarlCarter

5 de Setembro de 2025 à30 21:30:30 WEST

DeepSeek这波操作有点东西啊！中国本土AI终于不再只擅长写诗和做饭了，居然在代码能力上也能和国外大模型掰手腕👏 不过开源这事...希望别过两天就变成'部分开源'吧😂

BruceGonzalez

25 de Agosto de 2025 à2 08:01:02 WEST

DeepSeek's open-source approach is a game-changer! I'm stoked to see a Chinese AI shaking things up. The coding skills are solid, but I wonder how it’ll stack against giants like GPT in the long run. Exciting times! 🚀

JoseGonzalez

7 de Agosto de 2025 à0 07:33:00 WEST

DeepSeek's open-source approach is super cool! It's wild to see a Chinese AI shaking up the game like this. I wonder how it'll stack up against ChatGPT in real-world coding tasks. Excited to try it out! 😄

ArthurSanchez

23 de Abril de 2025 à34 09:48:34 WEST

DeepSeek's R1 and V3 are pretty cool, but let's be real, they're not perfect. The coding skills are decent, but sometimes it feels like they're just guessing. Still, it's refreshing to see a new player from China in the AI space! Keep improving, DeepSeek! 👏

NicholasAdams

23 de Abril de 2025 à41 07:36:41 WEST

DeepSeekのR1とV3はかなりクールですが、正直に言うと、完璧ではありません。コーディングのスキルはまあまあですが、時々ただ推測しているように感じます。それでも、中国からAIの新しいプレイヤーが登場するのは新鮮ですね！DeepSeek、改善を続けてください！👏

StephenGonzalez

21 de Abril de 2025 à37 05:47:37 WEST

DeepSeek's R1 and V3 are pretty cool, but they're not perfect. The coding skills are decent, but sometimes the responses are a bit off. Still, it's great to see a new player from China in the AI game. Keep improving, DeepSeek! 👀

Principais notícias

Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada AI Builder e Power Automate Revolucionam a Sumarização de Documentos O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude

Mais

Apresentou