option
Maison
Nouvelles
Claude 3.5 Sonnet lutte de manière créative dans les tests de codage AI dominés par le chatppt

Claude 3.5 Sonnet lutte de manière créative dans les tests de codage AI dominés par le chatppt

4 mai 2025
89

Test des capacités du nouveau Claude 3.5 Sonnet d'Anthropic

La semaine dernière, j'ai reçu un courriel d'Anthropic annonçant la sortie de Claude 3.5 Sonnet. Ils ont vanté qu'il "repousse les limites de l'industrie en matière d'intelligence, surpassant les modèles concurrents et Claude 3 Opus dans une large gamme d'évaluations." Ils ont également affirmé qu'il était parfait pour des tâches complexes comme la génération de code. Naturellement, j'ai dû mettre ces affirmations à l'épreuve.

J'ai effectué une série de tests de codage sur divers AIs, et vous pouvez le faire aussi. Rendez-vous sur Comment je teste les capacités de codage d'un chatbot AI - et vous pouvez le faire aussi pour tous les détails. Plongeons dans les performances de Claude 3.5 Sonnet face à mes tests standard, et voyons comment il se compare à d'autres AIs comme Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced, et ChatGPT.

1. Écriture d'un plugin WordPress

Au départ, Claude 3.5 Sonnet s'est montré très prometteur. L'interface utilisateur qu'il a générée était impressionnante, avec une mise en page propre qui plaçait les champs de données côte à côte pour la première fois parmi les AIs que j'ai testés.

Capture d'écran de l'interface du plugin WordPress créé par Claude 3.5 SonnetCapture d'écran par David Gewirtz/ZDNET

Ce qui a attiré mon attention, c'est la manière dont Claude a abordé la génération de code. Au lieu des fichiers séparés habituels pour PHP, JavaScript et CSS, il a fourni un seul fichier PHP qui générait automatiquement les fichiers JavaScript et CSS dans le répertoire du plugin. Bien que cette approche soit innovante, elle est risquée car elle dépend des paramètres du système d'exploitation permettant à un plugin d'écrire dans son propre dossier — une faille de sécurité majeure dans un environnement de production.

Malheureusement, malgré la solution créative, le plugin n'a pas fonctionné. Le bouton "Randomize" ne faisait rien, ce qui était décevant compte tenu de son potentiel initial.

Voici les résultats agrégés comparés aux tests précédents :

  • Claude 3.5 Sonnet : Interface : bonne, fonctionnalité : échec
  • ChatGPT GPT-4o : Interface : bonne, fonctionnalité : bonne
  • Microsoft Copilot : Interface : adéquate, fonctionnalité : échec
  • Meta AI : Interface : adéquate, fonctionnalité : échec
  • Meta Code Llama : Échec total
  • Google Gemini Advanced : Interface : bonne, fonctionnalité : échec
  • ChatGPT 4 : Interface : bonne, fonctionnalité : bonne
  • ChatGPT 3.5 : Interface : bonne, fonctionnalité : bonne

2. Réécriture d'une fonction de chaîne

Ce test évalue la capacité d'une AI à réécrire du code pour répondre à des besoins spécifiques, dans ce cas, pour des conversions en dollars et cents. Claude 3.5 Sonnet a bien réussi à supprimer les zéros initiaux, à gérer correctement les entiers et les décimales, et à empêcher les valeurs négatives. Il a également intelligemment renvoyé "0" pour les entrées inattendues, ce qui aide à éviter les erreurs.

Cependant, il n'a pas permis des entrées comme ".50" pour 50 cents, ce qui était une exigence. Cela signifie que le code révisé ne fonctionnerait pas dans un scénario réel, je dois donc le marquer comme un échec.

Voici les résultats agrégés :

  • Claude 3.5 Sonnet : Échec
  • ChatGPT GPT-4o : Succès
  • Microsoft Copilot : Échec
  • Meta AI : Échec
  • Meta Code Llama : Succès
  • Google Gemini Advanced : Échec
  • ChatGPT 4 : Succès
  • ChatGPT 3.5 : Succès

3. Trouver un bogue gênant

Ce test est délicat car il exige que l'AI trouve un bogue subtil nécessitant une connaissance spécifique de WordPress. C'est un bogue que j'ai moi-même manqué et que j'ai dû résoudre initialement avec ChatGPT.

Claude 3.5 Sonnet a non seulement trouvé et corrigé le bogue, mais a également remarqué une erreur introduite lors du processus de publication, que j'ai ensuite corrigée. C'était une première parmi les AIs que j'ai testées depuis la publication de l'ensemble complet des tests.

Voici les résultats agrégés :

  • Claude 3.5 Sonnet : Succès
  • ChatGPT GPT-4o : Succès
  • Microsoft Copilot : Échec. Spectaculairement. Enthousiastiquement. Avec des emojis.
  • Meta AI : Succès
  • Meta Code Llama : Échec
  • Google Gemini Advanced : Échec
  • ChatGPT 4 : Succès
  • ChatGPT 3.5 : Succès

Jusqu'à présent, Claude 3.5 Sonnet a échoué à deux des trois tests. Voyons comment il se débrouille avec le dernier.

4. Écriture d'un script

Ce test vérifie la connaissance de l'AI des outils de programmation spécialisés comme AppleScript et Keyboard Maestro. Alors que ChatGPT avait montré une maîtrise des deux, Claude 3.5 Sonnet n'a pas aussi bien performé. Il a écrit un AppleScript qui tentait d'interagir avec Chrome mais a complètement ignoré la composante Keyboard Maestro.

De plus, l'AppleScript contenait une erreur de syntaxe. En essayant de rendre la correspondance insensible à la casse, Claude a généré une ligne qui provoquerait une erreur d'exécution :

if theTab's title contains input ignoring case then

L'instruction "contains" est déjà insensible à la casse, et la phrase "ignoring case" était mal placée, entraînant une erreur.

Voici les résultats agrégés :

  • Claude 3.5 Sonnet : Échec
  • ChatGPT GPT-4o : Succès mais avec des réserves
  • Microsoft Copilot : Échec
  • Meta AI : Échec
  • Meta Code Llama : Échec
  • Google Gemini Advanced : Succès
  • ChatGPT 4 : Succès
  • ChatGPT 3.5 : Échec

Résultats globaux

Voici les performances globales de Claude 3.5 Sonnet comparées à d'autres AIs :

  • Claude 3.5 Sonnet : 1 sur 4 réussi
  • ChatGPT GPT-4o : 4 sur 4 réussis, mais avec une réponse étrange à double choix
  • Microsoft Copilot : 0 sur 4 réussi
  • Meta AI : 1 sur 4 réussi
  • Meta Code Llama : 1 sur 4 réussi
  • Google Gemini Advanced : 1 sur 4 réussi
  • ChatGPT 4 : 4 sur 4 réussis
  • ChatGPT 3.5 : 3 sur 4 réussis

J'ai été assez déçu par Claude 3.5 Sonnet. Anthropic avait promis qu'il était adapté à la programmation, mais il n'a pas répondu à ces attentes. Ce n'est pas qu'il ne peut pas programmer ; il ne programme tout simplement pas correctement. J'espère toujours trouver une AI qui surpasse ChatGPT, surtout à mesure que ces modèles sont intégrés dans des environnements de programmation. Mais pour l'instant, je reste avec ChatGPT pour l'aide à la programmation, et je vous recommande de faire de même.

Avez-vous utilisé une AI pour programmer ? Laquelle, et comment cela s'est-il passé ? Partagez vos expériences dans les commentaires ci-dessous.

Suivez les mises à jour de mon projet sur les réseaux sociaux, abonnez-vous à ma newsletter hebdomadaire, et connectez-vous avec moi sur Twitter/X à @DavidGewirtz, sur Facebook à Facebook.com/DavidGewirtz, sur Instagram à Instagram.com/DavidGewirtz, et sur YouTube à YouTube.com/DavidGewirtzTV.

Article connexe
OpenAI s'engage à corriger après les réponses trop conciliantes de ChatGPT OpenAI s'engage à corriger après les réponses trop conciliantes de ChatGPT OpenAI prévoit de réviser son processus de mise à jour du modèle AI pour ChatGPT après qu'une mise à jour a provoqué des réponses excessivement flatteuses, suscitant de nombreux retours d'utilisateurs
OpenAI Dévoile des Modèles d'IA Avancés pour le Raisonnement, o3 et o4-mini OpenAI Dévoile des Modèles d'IA Avancés pour le Raisonnement, o3 et o4-mini OpenAI a présenté mercredi o3 et o4-mini, de nouveaux modèles d'IA conçus pour faire une pause et analyser les questions avant de répondre.OpenAI présente o3 comme son modèle de raisonnement le plus s
Refaites votre maison : Décor piloté par l'IA avec Pinterest & ChatGPT Refaites votre maison : Décor piloté par l'IA avec Pinterest & ChatGPT Vous peinez à redesigner votre maison face à une multitude d'options ? Fusionnez l'intelligence artificielle avec l'inspiration visuelle de Pinterest pour créer votre espace idéal. Ce guide révèle com
commentaires (10)
0/200
ScottMitchell
ScottMitchell 5 mai 2025 15:17:31 UTC+02:00

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller
JamesMiller 5 mai 2025 10:59:50 UTC+02:00

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson
StevenNelson 5 mai 2025 09:23:24 UTC+02:00

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

JoseDavis
JoseDavis 5 mai 2025 08:46:04 UTC+02:00

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez
HaroldLopez 5 mai 2025 06:06:54 UTC+02:00

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas
AveryThomas 5 mai 2025 00:30:08 UTC+02:00

Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!

Retour en haut
OR