Claude 3,5 sonetos luta criativamente em testes de codificação de IA dominados por chatgpt

Lar

Notícias

4 de Maio de 2025

FrankWilliams

# ChatGPT

Testando as Capacidades do Novo Claude 3.5 Sonnet da Anthropic

Na última semana, recebi um e-mail da Anthropic anunciando o lançamento do Claude 3.5 Sonnet. Eles afirmaram que ele "eleva o padrão da indústria em inteligência, superando modelos concorrentes e o Claude 3 Opus em uma ampla gama de avaliações." Eles também disseram que era perfeito para tarefas complexas como geração de código. Naturalmente, precisei testar essas afirmações.

Eu executei uma série de testes de codificação em várias IAs, e você também pode. Basta acessar Como eu testo a capacidade de codificação de um chatbot de IA - e você também pode para encontrar todos os detalhes. Vamos mergulhar em como o Claude 3.5 Sonnet se saiu nos meus testes padrão e ver como ele se compara a outras IAs como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced e ChatGPT.

1. Escrevendo um Plugin para WordPress

Inicialmente, o Claude 3.5 Sonnet mostrou muito potencial. A interface de usuário que ele gerou foi impressionante, com um layout limpo que posicionou os campos de dados lado a lado pela primeira vez entre as IAs que testei.

Captura de tela da interface do plugin WordPress criada pelo Claude 3.5 Sonnet Captura de tela por David Gewirtz/ZDNET

O que chamou minha atenção foi como o Claude abordou a geração de código. Em vez dos arquivos separados habituais para PHP, JavaScript e CSS, ele forneceu um único arquivo PHP que gerava automaticamente os arquivos JavaScript e CSS no diretório do plugin. Embora essa seja uma abordagem inovadora, é arriscada porque depende das configurações do sistema operacional permitirem que um plugin escreva em sua própria pasta — uma grande falha de segurança em um ambiente de produção.

Infelizmente, apesar da solução criativa, o plugin não funcionou. O botão "Randomize" não fazia nada, o que foi decepcionante, dado o potencial inicial.

Aqui estão os resultados agregados em comparação com testes anteriores:

Claude 3.5 Sonnet: Interface: boa, funcionalidade: falhou
ChatGPT GPT-4o: Interface: boa, funcionalidade: boa
Microsoft Copilot: Interface: adequada, funcionalidade: falhou
Meta AI: Interface: adequada, funcionalidade: falhou
Meta Code Llama: Falha completa
Google Gemini Advanced: Interface: boa, funcionalidade: falhou
ChatGPT 4: Interface: boa, funcionalidade: boa
ChatGPT 3.5: Interface: boa, funcionalidade: boa

2. Reescrevendo uma Função de String

Este teste avalia o quão bem uma IA pode reescrever código para atender a necessidades específicas, neste caso, para conversões de dólar e centavos. O Claude 3.5 Sonnet fez um bom trabalho ao remover zeros à esquerda, lidar corretamente com inteiros e decimais e prevenir valores negativos. Ele também retornou inteligentemente "0" para entradas inesperadas, o que ajuda a evitar erros.

No entanto, ele não conseguiu permitir entradas como ".50" para 50 centavos, que era um requisito. Isso significa que o código revisado não funcionaria em um cenário do mundo real, então tenho que marcar como falha.

Aqui estão os resultados agregados:

Claude 3.5 Sonnet: Falhou
ChatGPT GPT-4o: Sucesso
Microsoft Copilot: Falhou
Meta AI: Falhou
Meta Code Llama: Sucesso
Google Gemini Advanced: Falhou
ChatGPT 4: Sucesso
ChatGPT 3.5: Sucesso

3. Encontrando um Bug Irritante

Este teste é complicado porque exige que a IA encontre um bug sutil que requer conhecimento específico do WordPress. É um bug que eu mesmo perdi e precisei recorrer ao ChatGPT para resolver inicialmente.

O Claude 3.5 Sonnet não apenas encontrou e corrigiu o bug, mas também notou um erro introduzido durante o processo de publicação, que eu então corrigi. Isso foi uma novidade entre as IAs que testei desde a publicação do conjunto completo de testes.

Aqui estão os resultados agregados:

Claude 3.5 Sonnet: Sucesso
ChatGPT GPT-4o: Sucesso
Microsoft Copilot: Falhou. Espetacularmente. Entusiasticamente. Com emojis.
Meta AI: Sucesso
Meta Code Llama: Falhou
Google Gemini Advanced: Falhou
ChatGPT 4: Sucesso
ChatGPT 3.5: Sucesso

Até agora, o Claude 3.5 Sonnet falhou em dois dos três testes. Vamos ver como ele se sai no último.

4. Escrevendo um Script

Este teste verifica o conhecimento da IA sobre ferramentas de programação especializadas como AppleScript e Keyboard Maestro. Enquanto o ChatGPT demonstrou proficiência em ambos, o Claude 3.5 Sonnet não se saiu tão bem. Ele escreveu um AppleScript que tentou interagir com o Chrome, mas ignorou completamente o componente Keyboard Maestro.

Além disso, o AppleScript continha um erro de sintaxe. Ao tentar tornar a correspondência insensível a maiúsculas e minúsculas, o Claude gerou uma linha que causaria um erro de execução:

if theTab's title contains input ignoring case then

A declaração "contains" já é insensível a maiúsculas e minúsculas, e a frase "ignoring case" foi colocada incorretamente, resultando em um erro.

Aqui estão os resultados agregados:

Claude 3.5 Sonnet: Falhou
ChatGPT GPT-4o: Sucesso, mas com ressalvas
Microsoft Copilot: Falhou
Meta AI: Falhou
Meta Code Llama: Falhou
Google Gemini Advanced: Sucesso
ChatGPT 4: Sucesso
ChatGPT 3.5: Falhou

Resultados Gerais

Aqui está como o Claude 3.5 Sonnet se saiu no geral em comparação com outras IAs:

Claude 3.5 Sonnet: 1 de 4 com sucesso
ChatGPT GPT-4o: 4 de 4 com sucesso, mas com uma resposta de escolha dupla estranha
Microsoft Copilot: 0 de 4 com sucesso
Meta AI: 1 de 4 com sucesso
Meta Code Llama: 1 de 4 com sucesso
Google Gemini Advanced: 1 de 4 com sucesso
ChatGPT 4: 4 de 4 com sucesso
ChatGPT 3.5: 3 de 4 com sucesso

Fiquei bastante decepcionado com o Claude 3.5 Sonnet. A Anthropic prometeu que ele era adequado para programação, mas não atendeu às expectativas. Não é que ele não consiga programar; ele simplesmente não consegue programar corretamente. Continuo esperando encontrar uma IA que supere o ChatGPT, especialmente à medida que esses modelos são integrados em ambientes de programação. Mas, por enquanto, vou continuar com o ChatGPT para ajuda com programação, e recomendo que você faça o mesmo.

Você já usou uma IA para programar? Qual, e como foi? Compartilhe suas experiências nos comentários abaixo.

Acompanhe as atualizações do meu projeto nas redes sociais, assine meu boletim semanal e conecte-se comigo no Twitter/X em @DavidGewirtz, no Facebook em Facebook.com/DavidGewirtz, no Instagram em Instagram.com/DavidGewirtz e no YouTube em YouTube.com/DavidGewirtzTV.

Artigo relacionado

Programa Agent Pay da Mastercard Melhora a Pesquisa por IA com Transações Fluidas As plataformas de pesquisa tradicionais e agentes de IA frequentemente exigem que os usuários troquem de janela para completar compras após encontrar produtos ou serviços.A Mastercard está revoluciona

OpenAI Compromete-se com Correções Após Respostas Excessivamente Concordantes do ChatGPT A OpenAI planeja revisar seu processo de atualização do modelo de IA para o ChatGPT após uma atualização causar respostas excessivamente bajuladoras, gerando amplo feedback dos usuários.No último fim

OpenAI Revela Modelos Avançados de Raciocínio de IA, o3 e o4-mini OpenAI apresentou o3 e o4-mini na quarta-feira, novos modelos de IA projetados para pausar e analisar perguntas antes de responder.OpenAI destaca o3 como seu modelo de raciocínio mais sofisticado até

Comentários (10)

0/200

Enviar

ScottMitchell

5 de Maio de 2025 à31 14:17:31 WEST

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller

5 de Maio de 2025 à50 09:59:50 WEST

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson

5 de Maio de 2025 à24 08:23:24 WEST

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです！😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも？

JoseDavis

5 de Maio de 2025 à4 07:46:04 WEST

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez

5 de Maio de 2025 à54 05:06:54 WEST

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas

4 de Maio de 2025 à8 23:30:08 WEST

Claude 3.5 Sonnet居然在编程测试中表现一般？有点失望，感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈，Anthropic得加把劲了！

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude Clone de Voz por IA: Guia definitivo para dominar a conversão de voz

Mais

Apresentou