opção
Lar
Notícias
Claude 3,5 sonetos luta criativamente em testes de codificação de IA dominados por chatgpt

Claude 3,5 sonetos luta criativamente em testes de codificação de IA dominados por chatgpt

4 de Maio de 2025
66

Testando as capacidades do novo Claude 3,5 sonetos da Anthropic

Na semana passada, recebi um e -mail da Antrópica anunciando o lançamento do Claude 3,5 sonetos. Eles se gabaram de que "eleva a barra da indústria para a inteligência, superando os modelos de concorrentes e Claude 3 Opus em uma ampla gama de avaliações". Eles também alegaram que era perfeito para tarefas complexas, como geração de código. Naturalmente, tive que colocar essas reivindicações à prova.

Eu executei uma série de testes de codificação em vários AIS e você também pode. Basta ir para a maneira como eu testo a capacidade de codificação de um chatbot de AI - e você também pode encontrar todos os detalhes. Vamos mergulhar em como o Claude 3,5 sonetos se saiu contra meus testes padrão e ver como ele se compara a outros AIS como a Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced e ChatGPT.

1. Escrevendo um plugin do WordPress

Inicialmente, Claude 3,5 sonetos mostrou muitas promessas. A interface do usuário que gerou foi impressionante, com um layout limpo que colocou os campos de dados lado a lado pela primeira vez entre os AIs que testei.

Captura de tela da interface do plug -in do WordPress criada por Claude 3,5 sonetos Captura de tela de David Gewirtz/Zdnet

O que chamou minha atenção foi como Claude abordou a geração de código. Em vez dos arquivos separados usuais para PHP, JavaScript e CSS, ele forneceu um único arquivo PHP que gerou automaticamente os arquivos JavaScript e CSS no diretório do plug-in. Embora essa tenha sido uma abordagem inovadora, é arriscado, porque depende das configurações do sistema operacional, permitindo que um plug -in escreva em sua própria pasta - uma grande falha de segurança em um ambiente de produção.

Infelizmente, apesar da solução criativa, o plugin não funcionou. O botão "randomize" não fez nada, o que foi decepcionante, dada sua promessa inicial.

Aqui estão os resultados agregados em comparação com os testes anteriores:

  • Claude 3,5 soneto: interface: bom, funcionalidade: falha
  • Chatgpt gpt-4o: interface: bom, funcionalidade: bom
  • Microsoft Copilot: Interface: Adequado, Funcionalidade: Falha
  • Meta AI: Interface: Adequado, Funcionalidade: Falha
  • Meta Code Llama: Falha completa
  • Google Gemini Avançado: Interface: Bom, Funcionalidade: Falha
  • Chatgpt 4: Interface: Bom, funcionalidade: bom
  • Chatgpt 3.5: Interface: Bom, funcionalidade: bom

2. Reescrevendo uma função de string

Este teste avalia o quão bem uma IA pode reescrever o código para atender às necessidades específicas, neste caso, para conversões em dólares e centavos. Claude 3,5 soneto fez um bom trabalho removendo os zeros líderes, manipulando os números inteiros e decimais corretamente e impedindo valores negativos. Ele também retornou de maneira inteligente "0" para entradas inesperadas, o que ajuda a evitar erros.

No entanto, não conseguiu permitir entradas como ".50" por 50 centavos, o que era um requisito. Isso significa que o código revisado não funcionaria em um cenário do mundo real, então eu tenho que marcá-lo como uma falha.

Aqui estão os resultados agregados:

  • Claude 3,5 sonetos: falhou
  • Chatgpt GPT-4O: conseguiu
  • Microsoft Copilot: falhou
  • Meta AI: falhou
  • Meta Code Llama: sucedeu
  • Google Gemini avançado: falhou
  • Chatgpt 4: sucedeu
  • Chatgpt 3.5: conseguiu

3. Encontrar um bug irritante

Este teste é complicado porque exige que a IA encontre um bug sutil que precise de conhecimento específico do WordPress. É um bug que eu senti falta de mim e tive que voltar para o Chatgpt para resolver inicialmente.

Claude 3,5 sonetos não apenas encontrou e corrigiu o bug, mas também notou um erro introduzido durante o processo de publicação, que eu corrigi. Este foi o primeiro entre os AIS que testei desde a publicação de todo o conjunto de testes.

Aqui estão os resultados agregados:

  • Claude 3,5 sonetos: conseguiu
  • Chatgpt GPT-4O: conseguiu
  • Microsoft Copilot: falhou. Espetacularmente. Com entusiasmo. Emojicamente.
  • Meta AI: sucedeu
  • Meta código llama: falhou
  • Google Gemini avançado: falhou
  • Chatgpt 4: sucedeu
  • Chatgpt 3.5: conseguiu

Até agora, Claude 3,5 soneto falhou em dois em cada três testes. Vamos ver como é com o último.

4. Escrevendo um script

Este teste verifica o conhecimento da IA ​​de ferramentas de programação especializadas, como AppleScript e Teckboard Maestro. Embora o ChatGPT tenha mostrado proficiência em ambos, Claude, 3,5 sonetos, não se saiu tão bem. Ele escreveu um AppleScript que tentou interagir com o Chrome, mas ignorou completamente o componente do maestro do teclado.

Além disso, o AppleScript continha um erro de sintaxe. Ao tentar tornar a partida que insensível ao caso, Claude gerou uma linha que causaria um erro de tempo de execução:

Se o título de Thetab contiver o caso de ignição de entrada, então

A instrução "contém" já é insensível ao caso, e a frase "Ignorar Case" foi extraviada, resultando em um erro.

Aqui estão os resultados agregados:

  • Claude 3,5 sonetos: falhou
  • Chatgpt GPT-4O: conseguiu, mas com reservas
  • Microsoft Copilot: falhou
  • Meta AI: falhou
  • Meta código llama: falhou
  • Google Gemini Advanced: conseguiu
  • Chatgpt 4: sucedeu
  • Chatgpt 3.5: falhou

Resultados gerais

Veja como Claude 3,5 sonetos teve um desempenho geral em comparação com outros AIS:

  • Claude 3,5 sonetos: 1 em 4 conseguiu
  • Chatgpt GPT-4O: 4 de 4 conseguiu, mas com uma resposta estranha de escolha dupla
  • Microsoft Copilot: 0 de 4 conseguiu
  • Meta ai: 1 em cada 4 conseguiu
  • Meta código llama: 1 em 4 conseguiu
  • Google Gemini avançado: 1 em cada 4 conseguiu
  • Chatgpt 4: 4 em cada 4 conseguiu
  • Chatgpt 3.5: 3 de 4 conseguiu

Fiquei muito decepcionado com Claude 3,5 sonetos. Antrópica prometeu que era adequado para programação, mas não atendeu a essas expectativas. Não é que ele não possa programar; ele simplesmente não pode programar corretamente. Eu continuo esperando encontrar uma IA que possa superar o ChatGPT, especialmente porque esses modelos são integrados aos ambientes de programação. Mas, por enquanto, estou mantendo o ChatGPT para obter ajuda para programar e recomendo que você faça o mesmo.

Você já usou uma IA para programação? Qual, e como foi? Compartilhe suas experiências nos comentários abaixo.

Siga as atualizações do meu projeto nas mídias sociais, inscreva -se no meu boletim semanal e conecte -me comigo no Twitter/x em @davidgewirtz, no Facebook em Facebook.com/davidgewirtz , no Instagram em Instagram.com/davidgewirtz e no YouTube em YouTube.com/davidgewirtztv .

Artigo relacionado
DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
Comentários (5)
0/200
ScottMitchell
ScottMitchell 5 de Maio de 2025 à0 00:00:00 GMT

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

StevenNelson
StevenNelson 5 de Maio de 2025 à0 00:00:00 GMT

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

HaroldLopez
HaroldLopez 5 de Maio de 2025 à0 00:00:00 GMT

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

JamesMiller
JamesMiller 5 de Maio de 2025 à0 00:00:00 GMT

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

SebastianAnderson
SebastianAnderson 5 de Maio de 2025 à0 00:00:00 GMT

Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!

De volta ao topo
OR