Claude 3.5 Sonnet lutte de manière créative dans les tests de codage AI dominés par le chatppt

Maison

Nouvelles

4 mai 2025

FrankWilliams

# ChatGPT

Test des capacités du nouveau Claude 3.5 Sonnet d'Anthropic

La semaine dernière, j'ai reçu un courriel d'Anthropic annonçant la sortie de Claude 3.5 Sonnet. Ils ont vanté qu'il "repousse les limites de l'industrie en matière d'intelligence, surpassant les modèles concurrents et Claude 3 Opus dans une large gamme d'évaluations." Ils ont également affirmé qu'il était parfait pour des tâches complexes comme la génération de code. Naturellement, j'ai dû mettre ces affirmations à l'épreuve.

J'ai effectué une série de tests de codage sur divers AIs, et vous pouvez le faire aussi. Rendez-vous sur Comment je teste les capacités de codage d'un chatbot AI - et vous pouvez le faire aussi pour tous les détails. Plongeons dans les performances de Claude 3.5 Sonnet face à mes tests standard, et voyons comment il se compare à d'autres AIs comme Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced, et ChatGPT.

1. Écriture d'un plugin WordPress

Au départ, Claude 3.5 Sonnet s'est montré très prometteur. L'interface utilisateur qu'il a générée était impressionnante, avec une mise en page propre qui plaçait les champs de données côte à côte pour la première fois parmi les AIs que j'ai testés.

Capture d'écran de l'interface du plugin WordPress créé par Claude 3.5 Sonnet Capture d'écran par David Gewirtz/ZDNET

Ce qui a attiré mon attention, c'est la manière dont Claude a abordé la génération de code. Au lieu des fichiers séparés habituels pour PHP, JavaScript et CSS, il a fourni un seul fichier PHP qui générait automatiquement les fichiers JavaScript et CSS dans le répertoire du plugin. Bien que cette approche soit innovante, elle est risquée car elle dépend des paramètres du système d'exploitation permettant à un plugin d'écrire dans son propre dossier — une faille de sécurité majeure dans un environnement de production.

Malheureusement, malgré la solution créative, le plugin n'a pas fonctionné. Le bouton "Randomize" ne faisait rien, ce qui était décevant compte tenu de son potentiel initial.

Voici les résultats agrégés comparés aux tests précédents :

Claude 3.5 Sonnet : Interface : bonne, fonctionnalité : échec
ChatGPT GPT-4o : Interface : bonne, fonctionnalité : bonne
Microsoft Copilot : Interface : adéquate, fonctionnalité : échec
Meta AI : Interface : adéquate, fonctionnalité : échec
Meta Code Llama : Échec total
Google Gemini Advanced : Interface : bonne, fonctionnalité : échec
ChatGPT 4 : Interface : bonne, fonctionnalité : bonne
ChatGPT 3.5 : Interface : bonne, fonctionnalité : bonne

2. Réécriture d'une fonction de chaîne

Ce test évalue la capacité d'une AI à réécrire du code pour répondre à des besoins spécifiques, dans ce cas, pour des conversions en dollars et cents. Claude 3.5 Sonnet a bien réussi à supprimer les zéros initiaux, à gérer correctement les entiers et les décimales, et à empêcher les valeurs négatives. Il a également intelligemment renvoyé "0" pour les entrées inattendues, ce qui aide à éviter les erreurs.

Cependant, il n'a pas permis des entrées comme ".50" pour 50 cents, ce qui était une exigence. Cela signifie que le code révisé ne fonctionnerait pas dans un scénario réel, je dois donc le marquer comme un échec.

Voici les résultats agrégés :

Claude 3.5 Sonnet : Échec
ChatGPT GPT-4o : Succès
Microsoft Copilot : Échec
Meta AI : Échec
Meta Code Llama : Succès
Google Gemini Advanced : Échec
ChatGPT 4 : Succès
ChatGPT 3.5 : Succès

3. Trouver un bogue gênant

Ce test est délicat car il exige que l'AI trouve un bogue subtil nécessitant une connaissance spécifique de WordPress. C'est un bogue que j'ai moi-même manqué et que j'ai dû résoudre initialement avec ChatGPT.

Claude 3.5 Sonnet a non seulement trouvé et corrigé le bogue, mais a également remarqué une erreur introduite lors du processus de publication, que j'ai ensuite corrigée. C'était une première parmi les AIs que j'ai testées depuis la publication de l'ensemble complet des tests.

Voici les résultats agrégés :

Claude 3.5 Sonnet : Succès
ChatGPT GPT-4o : Succès
Microsoft Copilot : Échec. Spectaculairement. Enthousiastiquement. Avec des emojis.
Meta AI : Succès
Meta Code Llama : Échec
Google Gemini Advanced : Échec
ChatGPT 4 : Succès
ChatGPT 3.5 : Succès

Jusqu'à présent, Claude 3.5 Sonnet a échoué à deux des trois tests. Voyons comment il se débrouille avec le dernier.

4. Écriture d'un script

Ce test vérifie la connaissance de l'AI des outils de programmation spécialisés comme AppleScript et Keyboard Maestro. Alors que ChatGPT avait montré une maîtrise des deux, Claude 3.5 Sonnet n'a pas aussi bien performé. Il a écrit un AppleScript qui tentait d'interagir avec Chrome mais a complètement ignoré la composante Keyboard Maestro.

De plus, l'AppleScript contenait une erreur de syntaxe. En essayant de rendre la correspondance insensible à la casse, Claude a généré une ligne qui provoquerait une erreur d'exécution :

if theTab's title contains input ignoring case then

L'instruction "contains" est déjà insensible à la casse, et la phrase "ignoring case" était mal placée, entraînant une erreur.

Voici les résultats agrégés :

Claude 3.5 Sonnet : Échec
ChatGPT GPT-4o : Succès mais avec des réserves
Microsoft Copilot : Échec
Meta AI : Échec
Meta Code Llama : Échec
Google Gemini Advanced : Succès
ChatGPT 4 : Succès
ChatGPT 3.5 : Échec

Résultats globaux

Voici les performances globales de Claude 3.5 Sonnet comparées à d'autres AIs :

Claude 3.5 Sonnet : 1 sur 4 réussi
ChatGPT GPT-4o : 4 sur 4 réussis, mais avec une réponse étrange à double choix
Microsoft Copilot : 0 sur 4 réussi
Meta AI : 1 sur 4 réussi
Meta Code Llama : 1 sur 4 réussi
Google Gemini Advanced : 1 sur 4 réussi
ChatGPT 4 : 4 sur 4 réussis
ChatGPT 3.5 : 3 sur 4 réussis

J'ai été assez déçu par Claude 3.5 Sonnet. Anthropic avait promis qu'il était adapté à la programmation, mais il n'a pas répondu à ces attentes. Ce n'est pas qu'il ne peut pas programmer ; il ne programme tout simplement pas correctement. J'espère toujours trouver une AI qui surpasse ChatGPT, surtout à mesure que ces modèles sont intégrés dans des environnements de programmation. Mais pour l'instant, je reste avec ChatGPT pour l'aide à la programmation, et je vous recommande de faire de même.

Avez-vous utilisé une AI pour programmer ? Laquelle, et comment cela s'est-il passé ? Partagez vos expériences dans les commentaires ci-dessous.

Suivez les mises à jour de mon projet sur les réseaux sociaux, abonnez-vous à ma newsletter hebdomadaire, et connectez-vous avec moi sur Twitter/X à @DavidGewirtz, sur Facebook à Facebook.com/DavidGewirtz, sur Instagram à Instagram.com/DavidGewirtz, et sur YouTube à YouTube.com/DavidGewirtzTV.

Article connexe

Le paiement par agent de Mastercard améliore la recherche par IA avec des transactions fluides Les plateformes de recherche traditionnelles et les agents IA nécessitent souvent que les utilisateurs changent de fenêtre pour finaliser leurs achats après avoir trouvé des produits ou services.Maste

OpenAI s'engage à corriger après les réponses trop conciliantes de ChatGPT OpenAI prévoit de réviser son processus de mise à jour du modèle AI pour ChatGPT après qu'une mise à jour a provoqué des réponses excessivement flatteuses, suscitant de nombreux retours d'utilisateurs

OpenAI Dévoile des Modèles d'IA Avancés pour le Raisonnement, o3 et o4-mini OpenAI a présenté mercredi o3 et o4-mini, de nouveaux modèles d'IA conçus pour faire une pause et analyser les questions avant de répondre.OpenAI présente o3 comme son modèle de raisonnement le plus s

commentaires (10)

0/200

Soumettre

ScottMitchell

5 mai 2025 15:17:31 UTC+02:00

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller

5 mai 2025 10:59:50 UTC+02:00

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson

5 mai 2025 09:23:24 UTC+02:00

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです！😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも？

JoseDavis

5 mai 2025 08:46:04 UTC+02:00

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez

5 mai 2025 06:06:54 UTC+02:00

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas

5 mai 2025 00:30:08 UTC+02:00

Claude 3.5 Sonnet居然在编程测试中表现一般？有点失望，感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈，Anthropic得加把劲了！

Top nouvelles

Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois OpenAI améliore l'assistant vocal AI pour de meilleurs chats Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie Google utilise l'IA pour suspendre plus de 39 millions de comptes d'annonces pour une fraude présumée Clonage Vocal IA: Guide Ultime pour Maîtriser la Conversion de Voix

Plus

En vedette