

Claude 3,5 sonetos luta criativamente em testes de codificação de IA dominados por chatgpt
3 de Maio de 2025
FrankWilliams
2
Testando as capacidades do novo Claude 3,5 sonetos da Anthropic
Na semana passada, recebi um e -mail da Antrópica anunciando o lançamento do Claude 3,5 sonetos. Eles se gabaram de que "eleva a barra da indústria para a inteligência, superando os modelos de concorrentes e Claude 3 Opus em uma ampla gama de avaliações". Eles também alegaram que era perfeito para tarefas complexas, como geração de código. Naturalmente, tive que colocar essas reivindicações à prova.
Eu executei uma série de testes de codificação em vários AIS e você também pode. Basta ir para a maneira como eu testo a capacidade de codificação de um chatbot de AI - e você também pode encontrar todos os detalhes. Vamos mergulhar em como o Claude 3,5 sonetos se saiu contra meus testes padrão e ver como ele se compara a outros AIS como a Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced e ChatGPT.
1. Escrevendo um plugin do WordPress
Inicialmente, Claude 3,5 sonetos mostrou muitas promessas. A interface do usuário que gerou foi impressionante, com um layout limpo que colocou os campos de dados lado a lado pela primeira vez entre os AIs que testei.
Captura de tela de David Gewirtz/Zdnet
O que chamou minha atenção foi como Claude abordou a geração de código. Em vez dos arquivos separados usuais para PHP, JavaScript e CSS, ele forneceu um único arquivo PHP que gerou automaticamente os arquivos JavaScript e CSS no diretório do plug-in. Embora essa tenha sido uma abordagem inovadora, é arriscado, porque depende das configurações do sistema operacional, permitindo que um plug -in escreva em sua própria pasta - uma grande falha de segurança em um ambiente de produção.
Infelizmente, apesar da solução criativa, o plugin não funcionou. O botão "randomize" não fez nada, o que foi decepcionante, dada sua promessa inicial.
Aqui estão os resultados agregados em comparação com os testes anteriores:
- Claude 3,5 soneto: interface: bom, funcionalidade: falha
- Chatgpt gpt-4o: interface: bom, funcionalidade: bom
- Microsoft Copilot: Interface: Adequado, Funcionalidade: Falha
- Meta AI: Interface: Adequado, Funcionalidade: Falha
- Meta Code Llama: Falha completa
- Google Gemini Avançado: Interface: Bom, Funcionalidade: Falha
- Chatgpt 4: Interface: Bom, funcionalidade: bom
- Chatgpt 3.5: Interface: Bom, funcionalidade: bom
2. Reescrevendo uma função de string
Este teste avalia o quão bem uma IA pode reescrever o código para atender às necessidades específicas, neste caso, para conversões em dólares e centavos. Claude 3,5 soneto fez um bom trabalho removendo os zeros líderes, manipulando os números inteiros e decimais corretamente e impedindo valores negativos. Ele também retornou de maneira inteligente "0" para entradas inesperadas, o que ajuda a evitar erros.
No entanto, não conseguiu permitir entradas como ".50" por 50 centavos, o que era um requisito. Isso significa que o código revisado não funcionaria em um cenário do mundo real, então eu tenho que marcá-lo como uma falha.
Aqui estão os resultados agregados:
- Claude 3,5 sonetos: falhou
- Chatgpt GPT-4O: conseguiu
- Microsoft Copilot: falhou
- Meta AI: falhou
- Meta Code Llama: sucedeu
- Google Gemini avançado: falhou
- Chatgpt 4: sucedeu
- Chatgpt 3.5: conseguiu
3. Encontrar um bug irritante
Este teste é complicado porque exige que a IA encontre um bug sutil que precise de conhecimento específico do WordPress. É um bug que eu senti falta de mim e tive que voltar para o Chatgpt para resolver inicialmente.
Claude 3,5 sonetos não apenas encontrou e corrigiu o bug, mas também notou um erro introduzido durante o processo de publicação, que eu corrigi. Este foi o primeiro entre os AIS que testei desde a publicação de todo o conjunto de testes.
Aqui estão os resultados agregados:
- Claude 3,5 sonetos: conseguiu
- Chatgpt GPT-4O: conseguiu
- Microsoft Copilot: falhou. Espetacularmente. Com entusiasmo. Emojicamente.
- Meta AI: sucedeu
- Meta código llama: falhou
- Google Gemini avançado: falhou
- Chatgpt 4: sucedeu
- Chatgpt 3.5: conseguiu
Até agora, Claude 3,5 soneto falhou em dois em cada três testes. Vamos ver como é com o último.
4. Escrevendo um script
Este teste verifica o conhecimento da IA de ferramentas de programação especializadas, como AppleScript e Teckboard Maestro. Embora o ChatGPT tenha mostrado proficiência em ambos, Claude, 3,5 sonetos, não se saiu tão bem. Ele escreveu um AppleScript que tentou interagir com o Chrome, mas ignorou completamente o componente do maestro do teclado.
Além disso, o AppleScript continha um erro de sintaxe. Ao tentar tornar a partida que insensível ao caso, Claude gerou uma linha que causaria um erro de tempo de execução:
Se o título de Thetab contiver o caso de ignição de entrada, então
A instrução "contém" já é insensível ao caso, e a frase "Ignorar Case" foi extraviada, resultando em um erro.
Aqui estão os resultados agregados:
- Claude 3,5 sonetos: falhou
- Chatgpt GPT-4O: conseguiu, mas com reservas
- Microsoft Copilot: falhou
- Meta AI: falhou
- Meta código llama: falhou
- Google Gemini Advanced: conseguiu
- Chatgpt 4: sucedeu
- Chatgpt 3.5: falhou
Resultados gerais
Veja como Claude 3,5 sonetos teve um desempenho geral em comparação com outros AIS:
- Claude 3,5 sonetos: 1 em 4 conseguiu
- Chatgpt GPT-4O: 4 de 4 conseguiu, mas com uma resposta estranha de escolha dupla
- Microsoft Copilot: 0 de 4 conseguiu
- Meta ai: 1 em cada 4 conseguiu
- Meta código llama: 1 em 4 conseguiu
- Google Gemini avançado: 1 em cada 4 conseguiu
- Chatgpt 4: 4 em cada 4 conseguiu
- Chatgpt 3.5: 3 de 4 conseguiu
Fiquei muito decepcionado com Claude 3,5 sonetos. Antrópica prometeu que era adequado para programação, mas não atendeu a essas expectativas. Não é que ele não possa programar; ele simplesmente não pode programar corretamente. Eu continuo esperando encontrar uma IA que possa superar o ChatGPT, especialmente porque esses modelos são integrados aos ambientes de programação. Mas, por enquanto, estou mantendo o ChatGPT para obter ajuda para programar e recomendo que você faça o mesmo.
Você já usou uma IA para programação? Qual, e como foi? Compartilhe suas experiências nos comentários abaixo.
Siga as atualizações do meu projeto nas mídias sociais, inscreva -se no meu boletim semanal e conecte -me comigo no Twitter/x em @davidgewirtz, no Facebook em Facebook.com/davidgewirtz , no Instagram em Instagram.com/davidgewirtz e no YouTube em YouTube.com/davidgewirtztv .
Artigo relacionado
Open Deep Search arrives to challenge Perplexity and ChatGPT Search
If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks
Creating a resume that perfectly summarizes your career is challenging enough, but job applications often require a cover letter as well. This letter is your chance to dive into the specifics of why you're interested in the company, what qualifies you for the position, and why you're the best candid
Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner
Ever felt the urge to escape the daily grind but found yourself stumped on where to go? Let's dive into a cool way to plan your next getaway without even stepping outside your door. By harnessing the power of ChatGPT and Google Earth, you can embark on a virtual vacation that's both exciting and rel
Comentários (0)
0/200






Testando as capacidades do novo Claude 3,5 sonetos da Anthropic
Na semana passada, recebi um e -mail da Antrópica anunciando o lançamento do Claude 3,5 sonetos. Eles se gabaram de que "eleva a barra da indústria para a inteligência, superando os modelos de concorrentes e Claude 3 Opus em uma ampla gama de avaliações". Eles também alegaram que era perfeito para tarefas complexas, como geração de código. Naturalmente, tive que colocar essas reivindicações à prova.
Eu executei uma série de testes de codificação em vários AIS e você também pode. Basta ir para a maneira como eu testo a capacidade de codificação de um chatbot de AI - e você também pode encontrar todos os detalhes. Vamos mergulhar em como o Claude 3,5 sonetos se saiu contra meus testes padrão e ver como ele se compara a outros AIS como a Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced e ChatGPT.
1. Escrevendo um plugin do WordPress
Inicialmente, Claude 3,5 sonetos mostrou muitas promessas. A interface do usuário que gerou foi impressionante, com um layout limpo que colocou os campos de dados lado a lado pela primeira vez entre os AIs que testei.
Captura de tela de David Gewirtz/Zdnet
O que chamou minha atenção foi como Claude abordou a geração de código. Em vez dos arquivos separados usuais para PHP, JavaScript e CSS, ele forneceu um único arquivo PHP que gerou automaticamente os arquivos JavaScript e CSS no diretório do plug-in. Embora essa tenha sido uma abordagem inovadora, é arriscado, porque depende das configurações do sistema operacional, permitindo que um plug -in escreva em sua própria pasta - uma grande falha de segurança em um ambiente de produção.
Infelizmente, apesar da solução criativa, o plugin não funcionou. O botão "randomize" não fez nada, o que foi decepcionante, dada sua promessa inicial.
Aqui estão os resultados agregados em comparação com os testes anteriores:
- Claude 3,5 soneto: interface: bom, funcionalidade: falha
- Chatgpt gpt-4o: interface: bom, funcionalidade: bom
- Microsoft Copilot: Interface: Adequado, Funcionalidade: Falha
- Meta AI: Interface: Adequado, Funcionalidade: Falha
- Meta Code Llama: Falha completa
- Google Gemini Avançado: Interface: Bom, Funcionalidade: Falha
- Chatgpt 4: Interface: Bom, funcionalidade: bom
- Chatgpt 3.5: Interface: Bom, funcionalidade: bom
2. Reescrevendo uma função de string
Este teste avalia o quão bem uma IA pode reescrever o código para atender às necessidades específicas, neste caso, para conversões em dólares e centavos. Claude 3,5 soneto fez um bom trabalho removendo os zeros líderes, manipulando os números inteiros e decimais corretamente e impedindo valores negativos. Ele também retornou de maneira inteligente "0" para entradas inesperadas, o que ajuda a evitar erros.
No entanto, não conseguiu permitir entradas como ".50" por 50 centavos, o que era um requisito. Isso significa que o código revisado não funcionaria em um cenário do mundo real, então eu tenho que marcá-lo como uma falha.
Aqui estão os resultados agregados:
- Claude 3,5 sonetos: falhou
- Chatgpt GPT-4O: conseguiu
- Microsoft Copilot: falhou
- Meta AI: falhou
- Meta Code Llama: sucedeu
- Google Gemini avançado: falhou
- Chatgpt 4: sucedeu
- Chatgpt 3.5: conseguiu
3. Encontrar um bug irritante
Este teste é complicado porque exige que a IA encontre um bug sutil que precise de conhecimento específico do WordPress. É um bug que eu senti falta de mim e tive que voltar para o Chatgpt para resolver inicialmente.
Claude 3,5 sonetos não apenas encontrou e corrigiu o bug, mas também notou um erro introduzido durante o processo de publicação, que eu corrigi. Este foi o primeiro entre os AIS que testei desde a publicação de todo o conjunto de testes.
Aqui estão os resultados agregados:
- Claude 3,5 sonetos: conseguiu
- Chatgpt GPT-4O: conseguiu
- Microsoft Copilot: falhou. Espetacularmente. Com entusiasmo. Emojicamente.
- Meta AI: sucedeu
- Meta código llama: falhou
- Google Gemini avançado: falhou
- Chatgpt 4: sucedeu
- Chatgpt 3.5: conseguiu
Até agora, Claude 3,5 soneto falhou em dois em cada três testes. Vamos ver como é com o último.
4. Escrevendo um script
Este teste verifica o conhecimento da IA de ferramentas de programação especializadas, como AppleScript e Teckboard Maestro. Embora o ChatGPT tenha mostrado proficiência em ambos, Claude, 3,5 sonetos, não se saiu tão bem. Ele escreveu um AppleScript que tentou interagir com o Chrome, mas ignorou completamente o componente do maestro do teclado.
Além disso, o AppleScript continha um erro de sintaxe. Ao tentar tornar a partida que insensível ao caso, Claude gerou uma linha que causaria um erro de tempo de execução:
Se o título de Thetab contiver o caso de ignição de entrada, então
A instrução "contém" já é insensível ao caso, e a frase "Ignorar Case" foi extraviada, resultando em um erro.
Aqui estão os resultados agregados:
- Claude 3,5 sonetos: falhou
- Chatgpt GPT-4O: conseguiu, mas com reservas
- Microsoft Copilot: falhou
- Meta AI: falhou
- Meta código llama: falhou
- Google Gemini Advanced: conseguiu
- Chatgpt 4: sucedeu
- Chatgpt 3.5: falhou
Resultados gerais
Veja como Claude 3,5 sonetos teve um desempenho geral em comparação com outros AIS:
- Claude 3,5 sonetos: 1 em 4 conseguiu
- Chatgpt GPT-4O: 4 de 4 conseguiu, mas com uma resposta estranha de escolha dupla
- Microsoft Copilot: 0 de 4 conseguiu
- Meta ai: 1 em cada 4 conseguiu
- Meta código llama: 1 em 4 conseguiu
- Google Gemini avançado: 1 em cada 4 conseguiu
- Chatgpt 4: 4 em cada 4 conseguiu
- Chatgpt 3.5: 3 de 4 conseguiu
Fiquei muito decepcionado com Claude 3,5 sonetos. Antrópica prometeu que era adequado para programação, mas não atendeu a essas expectativas. Não é que ele não possa programar; ele simplesmente não pode programar corretamente. Eu continuo esperando encontrar uma IA que possa superar o ChatGPT, especialmente porque esses modelos são integrados aos ambientes de programação. Mas, por enquanto, estou mantendo o ChatGPT para obter ajuda para programar e recomendo que você faça o mesmo.
Você já usou uma IA para programação? Qual, e como foi? Compartilhe suas experiências nos comentários abaixo.
Siga as atualizações do meu projeto nas mídias sociais, inscreva -se no meu boletim semanal e conecte -me comigo no Twitter/x em @davidgewirtz, no Facebook em Facebook.com/davidgewirtz , no Instagram em Instagram.com/davidgewirtz e no YouTube em YouTube.com/davidgewirtztv .












