Claude 3.5 Sonnet lutte de manière créative dans les tests de codage AI dominés par le chatppt
Tester les capacités du nouveau sonnet d'Anthropic Claude 3.5
La semaine dernière, j'ai reçu un e-mail d'Anthropic annonçant la sortie de Claude 3.5 Sonnet. Ils se vantaient que cela "augmente la barre de l'industrie pour l'intelligence, surprenant les modèles concurrents et Claude 3 Opus sur un large éventail d'évaluations". Ils ont également affirmé qu'il était parfait pour des tâches complexes comme la génération de code. Naturellement, j'ai dû mettre ces affirmations à l'épreuve.
J'ai exécuté une série de tests de codage sur diverses IA, et vous pouvez aussi. Rendez-vous simplement sur la façon dont je teste la capacité de codage d'un chatbot AI - et vous pouvez aussi trouver tous les détails. Plongeons dans la façon dont Claude 3.5 Sonnet a fonctionné contre mes tests standard, et voyons comment il s'accumule à d'autres IA comme Microsoft Copilot, Meta Ai, Meta Code Llama, Google Gemini Advanced et Chatgpt.
1. Écriture d'un plugin WordPress
Initialement, Claude 3.5 Sonnet a montré beaucoup de promesses. L'interface utilisateur qu'il a générée était impressionnante, avec une disposition propre qui a placé les champs de données côte à côte pour la première fois parmi les AIS que j'ai testés.
Capture d'écran de David Gewirtz / ZDNET
Ce qui a attiré mon attention, c'est comment Claude a approché la génération de code. Au lieu des fichiers séparés habituels pour PHP, JavaScript et CSS, il a fourni un seul fichier PHP qui a généré automatiquement les fichiers JavaScript et CSS dans le répertoire du plugin. Bien qu'il s'agisse d'une approche innovante, elle est risquée car elle dépend des paramètres du système d'exploitation permettant à un plugin d'écrire dans son propre dossier - un défaut de sécurité majeur dans un environnement de production.
Malheureusement, malgré la solution créative, le plugin n'a pas fonctionné. Le bouton "randomisé" n'a rien fait, ce qui était décevant compte tenu de sa promesse initiale.
Voici les résultats agrégés par rapport aux tests précédents:
- Claude 3.5 Sonnet: Interface: Bonne, Fonctionnalité: FAIL
- Chatgpt GPT-4O: Interface: Bon, Fonctionnalité: Bon
- Microsoft Copilot: Interface: adéquate, fonctionnalité: échec
- Meta Ai: Interface: adéquate, fonctionnalité: échouer
- Meta Code Llama: échec complet
- Google Gemini Advanced: Interface: bonne, fonctionnalité: échouer
- Chatgpt 4: Interface: Bon, fonctionnalité: bon
- Chatgpt 3.5: Interface: bonne, fonctionnalité: bon
2. Réécriture d'une fonction de chaîne
Ce test évalue la façon dont une IA peut réécrire du code pour répondre aux besoins spécifiques, dans ce cas, pour les conversions en dollars et cent. Claude 3.5 Sonnet a fait un bon travail en supprimant correctement les zéros, manipuler les entiers et les décimales et empêcher les valeurs négatives. Il a également renvoyé intelligemment "0" pour les entrées inattendues, ce qui aide à éviter les erreurs.
Cependant, il n'a pas permis de permettre des entrées comme ".50" pour 50 cents, ce qui était une exigence. Cela signifie que le code révisé ne fonctionnerait pas dans un scénario du monde réel, donc je dois le marquer en échec.
Voici les résultats agrégés:
- Claude 3.5 Sonnet: Échec
- Chatppt gpt-4o: réussi
- Microsoft Copilot: Échec
- Meta Ai: Échec
- Méta-code lama: succédé
- Google Gemini Advanced: échoué
- Chatgpt 4: succédé
- Chatgpt 3.5: succédé
3. Trouver un bug ennuyeux
Ce test est délicat car il nécessite que l'IA trouve un bug subtil qui a besoin de connaissances WordPress spécifiques. C'est un bug que je me suis manqué et j'ai dû se tourner vers Chatgpt pour résoudre initialement.
Claude 3.5 Sonnet a non seulement trouvé et corrigé le bug, mais a également remarqué une erreur introduite pendant le processus de publication, que j'ai ensuite corrigé. C'était une première parmi les AIS que j'ai testées depuis la publication de l'ensemble complet de tests.
Voici les résultats agrégés:
- Claude 3.5 Sonnet: réussi
- Chatppt gpt-4o: réussi
- Microsoft Copilot: Échec. Spectaculairement. Enthousiaste. Emojical.
- Meta Ai: succédé
- Meta Code Llama: a échoué
- Google Gemini Advanced: échoué
- Chatgpt 4: succédé
- Chatgpt 3.5: succédé
Jusqu'à présent, Claude 3.5 Sonnet a échoué deux des trois tests sur trois. Voyons comment il se fait avec le dernier.
4. Écrire un script
Ce test vérifie les connaissances de l'IA sur les outils de programmation spécialisés comme Applescript et Keyboard Maestro. Bien que Chatgpt ait montré une compétence dans les deux, Claude 3.5 Sonnet ne s'est pas aussi bien comporté. Il a écrit un Applescript qui a tenté d'interagir avec Chrome mais a complètement ignoré le composant Clavier Maestro.
De plus, le Applescript contenait une erreur de syntaxe. En essayant de rendre le match insensible à la casse, Claude a généré une ligne qui entraînerait une erreur d'exécution:
Si le titre de Thetab contient un cas d'ignorance d'entrée, alors
L'instruction "contient" est déjà insensible à la cas, et la phrase "Ignorer Case" a été déplacée, ce qui a entraîné une erreur.
Voici les résultats agrégés:
- Claude 3.5 Sonnet: Échec
- Chatppt gpt-4o: réussi mais avec les réservations
- Microsoft Copilot: Échec
- Meta Ai: Échec
- Meta Code Llama: a échoué
- Google Gemini Advanced: a réussi
- Chatgpt 4: succédé
- Chatgpt 3.5: Échec
Résultats globaux
Voici comment Claude 3.5 Sonnet a fonctionné globalement par rapport aux autres IA:
- Claude 3.5 Sonnet: 1 sur 4 a réussi
- Chatgpt gpt-4o: 4 sur 4 ont réussi, mais avec une réponse à double choix étrange
- Microsoft Copilot: 0 sur 4 a réussi
- Meta Ai: 1 sur 4 a réussi
- Meta Code Lama: 1 sur 4 a réussi
- Google Gemini Advanced: 1 sur 4 a réussi
- Chatgpt 4: 4 sur 4 ont réussi
- Chatgpt 3.5: 3 sur 4 ont réussi
J'ai été assez déçu par Claude 3.5 Sonnet. Anthropic a promis qu'il était adapté à la programmation, mais il n'a pas répondu à ces attentes. Ce n'est pas qu'il ne peut pas programmer; il ne peut pas programmer correctement. J'espère continuer à trouver une IA qui peut surpasser le chatppt, d'autant plus que ces modèles s'intégreront dans des environnements de programmation. Mais pour l'instant, je m'en tiens à Chatgpt pour une aide en programmation, et je vous recommande de faire de même.
Avez-vous utilisé une IA pour la programmation? Lequel, et comment ça s'est passé? Partagez vos expériences dans les commentaires ci-dessous.
Suivez mes mises à jour de projet sur les réseaux sociaux, abonnez-vous à ma newsletter hebdomadaire et connectez-vous avec moi sur Twitter / X à @davidgewirtz, sur Facebook sur Facebook.com/davidgewirtz , sur Instagram sur Instagram.com/davidgewirtz , et sur YouTube sur YouTube.com/davidgewirtztv .
Article connexe
DeepSeek AI挑战Chatgpt并塑造了AI的未来
DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建
用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版
OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
commentaires (5)
0/200
ScottMitchell
5 mai 2025 00:00:00 UTC
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
0
StevenNelson
5 mai 2025 00:00:00 UTC
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
0
HaroldLopez
5 mai 2025 00:00:00 UTC
클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!
0
JamesMiller
5 mai 2025 00:00:00 UTC
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
0
SebastianAnderson
5 mai 2025 00:00:00 UTC
Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!
0
Tester les capacités du nouveau sonnet d'Anthropic Claude 3.5
La semaine dernière, j'ai reçu un e-mail d'Anthropic annonçant la sortie de Claude 3.5 Sonnet. Ils se vantaient que cela "augmente la barre de l'industrie pour l'intelligence, surprenant les modèles concurrents et Claude 3 Opus sur un large éventail d'évaluations". Ils ont également affirmé qu'il était parfait pour des tâches complexes comme la génération de code. Naturellement, j'ai dû mettre ces affirmations à l'épreuve.
J'ai exécuté une série de tests de codage sur diverses IA, et vous pouvez aussi. Rendez-vous simplement sur la façon dont je teste la capacité de codage d'un chatbot AI - et vous pouvez aussi trouver tous les détails. Plongeons dans la façon dont Claude 3.5 Sonnet a fonctionné contre mes tests standard, et voyons comment il s'accumule à d'autres IA comme Microsoft Copilot, Meta Ai, Meta Code Llama, Google Gemini Advanced et Chatgpt.
1. Écriture d'un plugin WordPress
Initialement, Claude 3.5 Sonnet a montré beaucoup de promesses. L'interface utilisateur qu'il a générée était impressionnante, avec une disposition propre qui a placé les champs de données côte à côte pour la première fois parmi les AIS que j'ai testés.
Capture d'écran de David Gewirtz / ZDNET
Ce qui a attiré mon attention, c'est comment Claude a approché la génération de code. Au lieu des fichiers séparés habituels pour PHP, JavaScript et CSS, il a fourni un seul fichier PHP qui a généré automatiquement les fichiers JavaScript et CSS dans le répertoire du plugin. Bien qu'il s'agisse d'une approche innovante, elle est risquée car elle dépend des paramètres du système d'exploitation permettant à un plugin d'écrire dans son propre dossier - un défaut de sécurité majeur dans un environnement de production.
Malheureusement, malgré la solution créative, le plugin n'a pas fonctionné. Le bouton "randomisé" n'a rien fait, ce qui était décevant compte tenu de sa promesse initiale.
Voici les résultats agrégés par rapport aux tests précédents:
- Claude 3.5 Sonnet: Interface: Bonne, Fonctionnalité: FAIL
- Chatgpt GPT-4O: Interface: Bon, Fonctionnalité: Bon
- Microsoft Copilot: Interface: adéquate, fonctionnalité: échec
- Meta Ai: Interface: adéquate, fonctionnalité: échouer
- Meta Code Llama: échec complet
- Google Gemini Advanced: Interface: bonne, fonctionnalité: échouer
- Chatgpt 4: Interface: Bon, fonctionnalité: bon
- Chatgpt 3.5: Interface: bonne, fonctionnalité: bon
2. Réécriture d'une fonction de chaîne
Ce test évalue la façon dont une IA peut réécrire du code pour répondre aux besoins spécifiques, dans ce cas, pour les conversions en dollars et cent. Claude 3.5 Sonnet a fait un bon travail en supprimant correctement les zéros, manipuler les entiers et les décimales et empêcher les valeurs négatives. Il a également renvoyé intelligemment "0" pour les entrées inattendues, ce qui aide à éviter les erreurs.
Cependant, il n'a pas permis de permettre des entrées comme ".50" pour 50 cents, ce qui était une exigence. Cela signifie que le code révisé ne fonctionnerait pas dans un scénario du monde réel, donc je dois le marquer en échec.
Voici les résultats agrégés:
- Claude 3.5 Sonnet: Échec
- Chatppt gpt-4o: réussi
- Microsoft Copilot: Échec
- Meta Ai: Échec
- Méta-code lama: succédé
- Google Gemini Advanced: échoué
- Chatgpt 4: succédé
- Chatgpt 3.5: succédé
3. Trouver un bug ennuyeux
Ce test est délicat car il nécessite que l'IA trouve un bug subtil qui a besoin de connaissances WordPress spécifiques. C'est un bug que je me suis manqué et j'ai dû se tourner vers Chatgpt pour résoudre initialement.
Claude 3.5 Sonnet a non seulement trouvé et corrigé le bug, mais a également remarqué une erreur introduite pendant le processus de publication, que j'ai ensuite corrigé. C'était une première parmi les AIS que j'ai testées depuis la publication de l'ensemble complet de tests.
Voici les résultats agrégés:
- Claude 3.5 Sonnet: réussi
- Chatppt gpt-4o: réussi
- Microsoft Copilot: Échec. Spectaculairement. Enthousiaste. Emojical.
- Meta Ai: succédé
- Meta Code Llama: a échoué
- Google Gemini Advanced: échoué
- Chatgpt 4: succédé
- Chatgpt 3.5: succédé
Jusqu'à présent, Claude 3.5 Sonnet a échoué deux des trois tests sur trois. Voyons comment il se fait avec le dernier.
4. Écrire un script
Ce test vérifie les connaissances de l'IA sur les outils de programmation spécialisés comme Applescript et Keyboard Maestro. Bien que Chatgpt ait montré une compétence dans les deux, Claude 3.5 Sonnet ne s'est pas aussi bien comporté. Il a écrit un Applescript qui a tenté d'interagir avec Chrome mais a complètement ignoré le composant Clavier Maestro.
De plus, le Applescript contenait une erreur de syntaxe. En essayant de rendre le match insensible à la casse, Claude a généré une ligne qui entraînerait une erreur d'exécution:
Si le titre de Thetab contient un cas d'ignorance d'entrée, alors
L'instruction "contient" est déjà insensible à la cas, et la phrase "Ignorer Case" a été déplacée, ce qui a entraîné une erreur.
Voici les résultats agrégés:
- Claude 3.5 Sonnet: Échec
- Chatppt gpt-4o: réussi mais avec les réservations
- Microsoft Copilot: Échec
- Meta Ai: Échec
- Meta Code Llama: a échoué
- Google Gemini Advanced: a réussi
- Chatgpt 4: succédé
- Chatgpt 3.5: Échec
Résultats globaux
Voici comment Claude 3.5 Sonnet a fonctionné globalement par rapport aux autres IA:
- Claude 3.5 Sonnet: 1 sur 4 a réussi
- Chatgpt gpt-4o: 4 sur 4 ont réussi, mais avec une réponse à double choix étrange
- Microsoft Copilot: 0 sur 4 a réussi
- Meta Ai: 1 sur 4 a réussi
- Meta Code Lama: 1 sur 4 a réussi
- Google Gemini Advanced: 1 sur 4 a réussi
- Chatgpt 4: 4 sur 4 ont réussi
- Chatgpt 3.5: 3 sur 4 ont réussi
J'ai été assez déçu par Claude 3.5 Sonnet. Anthropic a promis qu'il était adapté à la programmation, mais il n'a pas répondu à ces attentes. Ce n'est pas qu'il ne peut pas programmer; il ne peut pas programmer correctement. J'espère continuer à trouver une IA qui peut surpasser le chatppt, d'autant plus que ces modèles s'intégreront dans des environnements de programmation. Mais pour l'instant, je m'en tiens à Chatgpt pour une aide en programmation, et je vous recommande de faire de même.
Avez-vous utilisé une IA pour la programmation? Lequel, et comment ça s'est passé? Partagez vos expériences dans les commentaires ci-dessous.
Suivez mes mises à jour de projet sur les réseaux sociaux, abonnez-vous à ma newsletter hebdomadaire et connectez-vous avec moi sur Twitter / X à @davidgewirtz, sur Facebook sur Facebook.com/davidgewirtz , sur Instagram sur Instagram.com/davidgewirtz , et sur YouTube sur YouTube.com/davidgewirtztv .




Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!




クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?




클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!




Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!




Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!












