opção
Lar
Notícias
Claude 3,5 sonetos luta criativamente em testes de codificação de IA dominados por chatgpt

Claude 3,5 sonetos luta criativamente em testes de codificação de IA dominados por chatgpt

4 de Maio de 2025
89

Testando as Capacidades do Novo Claude 3.5 Sonnet da Anthropic

Na última semana, recebi um e-mail da Anthropic anunciando o lançamento do Claude 3.5 Sonnet. Eles afirmaram que ele "eleva o padrão da indústria em inteligência, superando modelos concorrentes e o Claude 3 Opus em uma ampla gama de avaliações." Eles também disseram que era perfeito para tarefas complexas como geração de código. Naturalmente, precisei testar essas afirmações.

Eu executei uma série de testes de codificação em várias IAs, e você também pode. Basta acessar Como eu testo a capacidade de codificação de um chatbot de IA - e você também pode para encontrar todos os detalhes. Vamos mergulhar em como o Claude 3.5 Sonnet se saiu nos meus testes padrão e ver como ele se compara a outras IAs como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced e ChatGPT.

1. Escrevendo um Plugin para WordPress

Inicialmente, o Claude 3.5 Sonnet mostrou muito potencial. A interface de usuário que ele gerou foi impressionante, com um layout limpo que posicionou os campos de dados lado a lado pela primeira vez entre as IAs que testei.

Captura de tela da interface do plugin WordPress criada pelo Claude 3.5 SonnetCaptura de tela por David Gewirtz/ZDNET

O que chamou minha atenção foi como o Claude abordou a geração de código. Em vez dos arquivos separados habituais para PHP, JavaScript e CSS, ele forneceu um único arquivo PHP que gerava automaticamente os arquivos JavaScript e CSS no diretório do plugin. Embora essa seja uma abordagem inovadora, é arriscada porque depende das configurações do sistema operacional permitirem que um plugin escreva em sua própria pasta — uma grande falha de segurança em um ambiente de produção.

Infelizmente, apesar da solução criativa, o plugin não funcionou. O botão "Randomize" não fazia nada, o que foi decepcionante, dado o potencial inicial.

Aqui estão os resultados agregados em comparação com testes anteriores:

  • Claude 3.5 Sonnet: Interface: boa, funcionalidade: falhou
  • ChatGPT GPT-4o: Interface: boa, funcionalidade: boa
  • Microsoft Copilot: Interface: adequada, funcionalidade: falhou
  • Meta AI: Interface: adequada, funcionalidade: falhou
  • Meta Code Llama: Falha completa
  • Google Gemini Advanced: Interface: boa, funcionalidade: falhou
  • ChatGPT 4: Interface: boa, funcionalidade: boa
  • ChatGPT 3.5: Interface: boa, funcionalidade: boa

2. Reescrevendo uma Função de String

Este teste avalia o quão bem uma IA pode reescrever código para atender a necessidades específicas, neste caso, para conversões de dólar e centavos. O Claude 3.5 Sonnet fez um bom trabalho ao remover zeros à esquerda, lidar corretamente com inteiros e decimais e prevenir valores negativos. Ele também retornou inteligentemente "0" para entradas inesperadas, o que ajuda a evitar erros.

No entanto, ele não conseguiu permitir entradas como ".50" para 50 centavos, que era um requisito. Isso significa que o código revisado não funcionaria em um cenário do mundo real, então tenho que marcar como falha.

Aqui estão os resultados agregados:

  • Claude 3.5 Sonnet: Falhou
  • ChatGPT GPT-4o: Sucesso
  • Microsoft Copilot: Falhou
  • Meta AI: Falhou
  • Meta Code Llama: Sucesso
  • Google Gemini Advanced: Falhou
  • ChatGPT 4: Sucesso
  • ChatGPT 3.5: Sucesso

3. Encontrando um Bug Irritante

Este teste é complicado porque exige que a IA encontre um bug sutil que requer conhecimento específico do WordPress. É um bug que eu mesmo perdi e precisei recorrer ao ChatGPT para resolver inicialmente.

O Claude 3.5 Sonnet não apenas encontrou e corrigiu o bug, mas também notou um erro introduzido durante o processo de publicação, que eu então corrigi. Isso foi uma novidade entre as IAs que testei desde a publicação do conjunto completo de testes.

Aqui estão os resultados agregados:

  • Claude 3.5 Sonnet: Sucesso
  • ChatGPT GPT-4o: Sucesso
  • Microsoft Copilot: Falhou. Espetacularmente. Entusiasticamente. Com emojis.
  • Meta AI: Sucesso
  • Meta Code Llama: Falhou
  • Google Gemini Advanced: Falhou
  • ChatGPT 4: Sucesso
  • ChatGPT 3.5: Sucesso

Até agora, o Claude 3.5 Sonnet falhou em dois dos três testes. Vamos ver como ele se sai no último.

4. Escrevendo um Script

Este teste verifica o conhecimento da IA sobre ferramentas de programação especializadas como AppleScript e Keyboard Maestro. Enquanto o ChatGPT demonstrou proficiência em ambos, o Claude 3.5 Sonnet não se saiu tão bem. Ele escreveu um AppleScript que tentou interagir com o Chrome, mas ignorou completamente o componente Keyboard Maestro.

Além disso, o AppleScript continha um erro de sintaxe. Ao tentar tornar a correspondência insensível a maiúsculas e minúsculas, o Claude gerou uma linha que causaria um erro de execução:

if theTab's title contains input ignoring case then

A declaração "contains" já é insensível a maiúsculas e minúsculas, e a frase "ignoring case" foi colocada incorretamente, resultando em um erro.

Aqui estão os resultados agregados:

  • Claude 3.5 Sonnet: Falhou
  • ChatGPT GPT-4o: Sucesso, mas com ressalvas
  • Microsoft Copilot: Falhou
  • Meta AI: Falhou
  • Meta Code Llama: Falhou
  • Google Gemini Advanced: Sucesso
  • ChatGPT 4: Sucesso
  • ChatGPT 3.5: Falhou

Resultados Gerais

Aqui está como o Claude 3.5 Sonnet se saiu no geral em comparação com outras IAs:

  • Claude 3.5 Sonnet: 1 de 4 com sucesso
  • ChatGPT GPT-4o: 4 de 4 com sucesso, mas com uma resposta de escolha dupla estranha
  • Microsoft Copilot: 0 de 4 com sucesso
  • Meta AI: 1 de 4 com sucesso
  • Meta Code Llama: 1 de 4 com sucesso
  • Google Gemini Advanced: 1 de 4 com sucesso
  • ChatGPT 4: 4 de 4 com sucesso
  • ChatGPT 3.5: 3 de 4 com sucesso

Fiquei bastante decepcionado com o Claude 3.5 Sonnet. A Anthropic prometeu que ele era adequado para programação, mas não atendeu às expectativas. Não é que ele não consiga programar; ele simplesmente não consegue programar corretamente. Continuo esperando encontrar uma IA que supere o ChatGPT, especialmente à medida que esses modelos são integrados em ambientes de programação. Mas, por enquanto, vou continuar com o ChatGPT para ajuda com programação, e recomendo que você faça o mesmo.

Você já usou uma IA para programar? Qual, e como foi? Compartilhe suas experiências nos comentários abaixo.

Acompanhe as atualizações do meu projeto nas redes sociais, assine meu boletim semanal e conecte-se comigo no Twitter/X em @DavidGewirtz, no Facebook em Facebook.com/DavidGewirtz, no Instagram em Instagram.com/DavidGewirtz e no YouTube em YouTube.com/DavidGewirtzTV.

Artigo relacionado
OpenAI Compromete-se com Correções Após Respostas Excessivamente Concordantes do ChatGPT OpenAI Compromete-se com Correções Após Respostas Excessivamente Concordantes do ChatGPT A OpenAI planeja revisar seu processo de atualização do modelo de IA para o ChatGPT após uma atualização causar respostas excessivamente bajuladoras, gerando amplo feedback dos usuários.No último fim
OpenAI Revela Modelos Avançados de Raciocínio de IA, o3 e o4-mini OpenAI Revela Modelos Avançados de Raciocínio de IA, o3 e o4-mini OpenAI apresentou o3 e o4-mini na quarta-feira, novos modelos de IA projetados para pausar e analisar perguntas antes de responder.OpenAI destaca o3 como seu modelo de raciocínio mais sofisticado até
Renove Sua Casa: Decoração Impulsionada por IA com Pinterest e ChatGPT Renove Sua Casa: Decoração Impulsionada por IA com Pinterest e ChatGPT Está com dificuldades para redesenhar sua casa com tantas opções? Combine inteligência artificial com a inspiração visual do Pinterest para criar seu espaço ideal. Este guia revela como mesclar as ima
Comentários (10)
0/200
ScottMitchell
ScottMitchell 5 de Maio de 2025 à31 14:17:31 WEST

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller
JamesMiller 5 de Maio de 2025 à50 09:59:50 WEST

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson
StevenNelson 5 de Maio de 2025 à24 08:23:24 WEST

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

JoseDavis
JoseDavis 5 de Maio de 2025 à4 07:46:04 WEST

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez
HaroldLopez 5 de Maio de 2025 à54 05:06:54 WEST

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas
AveryThomas 4 de Maio de 2025 à8 23:30:08 WEST

Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!

De volta ao topo
OR