Claude 3.5 Sonett kämpft kreativ in KI -Codierungstests, die von Chatgpt dominiert werden
Testen der Fähigkeiten von Anthropics neuem Claude 3.5 Sonnet
Letzte Woche erhielt ich eine E-Mail von Anthropic, in der die Veröffentlichung von Claude 3.5 Sonnet angekündigt wurde. Sie prahlten damit, dass es "die Messlatte der Branche für Intelligenz hebt und konkurrierende Modelle sowie Claude 3 Opus in einer Vielzahl von Bewertungen übertrifft." Sie behaupteten auch, es sei perfekt für komplexe Aufgaben wie die Codegenerierung. Natürlich musste ich diese Behauptungen auf die Probe stellen.
Ich habe eine Reihe von Codierungstests an verschiedenen AIs durchgeführt, und Sie können das auch. Besuchen Sie einfach Wie ich die Programmierfähigkeiten eines AI-Chatbots teste - und Sie können es auch, um alle Details zu erfahren. Lassen Sie uns untersuchen, wie Claude 3.5 Sonnet in meinen Standardtests abgeschnitten hat und wie es im Vergleich zu anderen AIs wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und ChatGPT abschneidet.
1. Schreiben eines WordPress-Plugins
Anfangs zeigte Claude 3.5 Sonnet vielversprechende Ergebnisse. Die Benutzeroberfläche, die es generierte, war beeindruckend, mit einem sauberen Layout, das Datenfelder erstmals nebeneinander platzierte unter den AIs, die ich getestet habe.
Screenshot von David Gewirtz/ZDNET
Was meine Aufmerksamkeit erregte, war, wie Claude die Codegenerierung anging. Anstelle der üblichen separaten Dateien für PHP, JavaScript und CSS lieferte es eine einzige PHP-Datei, die die JavaScript- und CSS-Dateien automatisch in das Verzeichnis des Plugins generierte. Obwohl dies ein innovativer Ansatz war, ist er riskant, da er davon abhängt, dass die Betriebssystemeinstellungen es einem Plugin erlauben, in seinen eigenen Ordner zu schreiben – ein schwerwiegender Sicherheitsmangel in einer Produktionsumgebung.
Leider funktionierte das Plugin trotz der kreativen Lösung nicht. Der Button "Randomize" tat nichts, was angesichts des anfänglichen Versprechens enttäuschend war.
Hier sind die aggregierten Ergebnisse im Vergleich zu früheren Tests:
- Claude 3.5 Sonnet: Oberfläche: gut, Funktionalität: fehlgeschlagen
- ChatGPT GPT-4o: Oberfläche: gut, Funktionalität: gut
- Microsoft Copilot: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta AI: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta Code Llama: Kompletter Fehlschlag
- Google Gemini Advanced: Oberfläche: gut, Funktionalität: fehlgeschlagen
- ChatGPT 4: Oberfläche: gut, Funktionalität: gut
- ChatGPT 3.5: Oberfläche: gut, Funktionalität: gut
2. Umschreiben einer String-Funktion
Dieser Test bewertet, wie gut eine AI Code umschreiben kann, um spezifische Anforderungen zu erfüllen, in diesem Fall für Dollar- und Cent-Umrechnungen. Claude 3.5 Sonnet hat gute Arbeit geleistet, führende Nullen zu entfernen, Ganzzahlen und Dezimalzahlen korrekt zu behandeln und negative Werte zu verhindern. Es gab auch intelligent "0" für unerwartete Eingaben zurück, was hilft, Fehler zu vermeiden.
Es versäumte jedoch, Eingaben wie ".50" für 50 Cent zuzulassen, was eine Anforderung war. Das bedeutet, dass der überarbeitete Code in einem realen Szenario nicht funktionieren würde, weshalb ich ihn als Fehlschlag bewerten muss.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Fehlgeschlagen
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Erfolgreich
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
3. Finden eines lästigen Fehlers
Dieser Test ist knifflig, da er erfordert, dass die AI einen subtilen Fehler findet, der spezifisches WordPress-Wissen erfordert. Es ist ein Fehler, den ich selbst übersehen habe und den ich zunächst an ChatGPT wenden musste, um ihn zu lösen.
Claude 3.5 Sonnet fand und behebte nicht nur den Fehler, sondern bemerkte auch einen während des Veröffentlichungsprozesses eingeführten Fehler, den ich dann korrigierte. Dies war das erste Mal unter den AIs, die ich seit der Veröffentlichung des vollständigen Testsets getestet habe.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Erfolgreich
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen. Spektakulär. Begeistert. Emojisch.
- Meta AI: Erfolgreich
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
Bis jetzt hat Claude 3.5 Sonnet zwei von drei Tests nicht bestanden. Mal sehen, wie es beim letzten abschneidet.
4. Schreiben eines Skripts
Dieser Test prüft das Wissen der AI über spezialisierte Programmierwerkzeuge wie AppleScript und Keyboard Maestro. Während ChatGPT in beiden Bereichen Kompetenz gezeigt hatte, schnitt Claude 3.5 Sonnet nicht so gut ab. Es schrieb ein AppleScript, das versuchte, mit Chrome zu interagieren, ignorierte jedoch die Keyboard Maestro-Komponente vollständig.
Darüber hinaus enthielt das AppleScript einen Syntaxfehler. Beim Versuch, die Übereinstimmung unabhängig von der Groß-/Kleinschreibung zu gestalten, generierte Claude eine Zeile, die einen Laufzeitfehler verursachen würde:
if theTab's title contains input ignoring case then
Die "contains"-Anweisung ist bereits unabhängig von der Groß-/Kleinschreibung, und die Phrase "ignoring case" war fehlplatziert, was zu einem Fehler führte.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Fehlgeschlagen
- ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Erfolgreich
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Fehlgeschlagen
Gesamtergebnisse
So hat Claude 3.5 Sonnet insgesamt im Vergleich zu anderen AIs abgeschnitten:
- Claude 3.5 Sonnet: 1 von 4 erfolgreich
- ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit einer seltsamen Doppelwahlantwort
- Microsoft Copilot: 0 von 4 erfolgreich
- Meta AI: 1 von 4 erfolgreich
- Meta Code Llama: 1 von 4 erfolgreich
- Google Gemini Advanced: 1 von 4 erfolgreich
- ChatGPT 4: 4 von 4 erfolgreich
- ChatGPT 3.5: 3 von 4 erfolgreich
Ich war ziemlich enttäuscht von Claude 3.5 Sonnet. Anthropic versprach, es sei für die Programmierung geeignet, aber es erfüllte diese Erwartungen nicht. Es ist nicht so, dass es nicht programmieren kann; es kann nur nicht korrekt programmieren. Ich hoffe weiterhin, eine AI zu finden, die ChatGPT übertrifft, besonders da diese Modelle in Programmierumgebungen integriert werden. Aber fürs Erste bleibe ich bei ChatGPT für Programmierhilfe, und ich empfehle Ihnen, dasselbe zu tun.
Haben Sie eine AI zum Programmieren verwendet? Welche, und wie lief es? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.
Folgen Sie meinen Projektaktualisierungen in den sozialen Medien, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @DavidGewirtz, auf Facebook unter Facebook.com/DavidGewirtz, auf Instagram unter Instagram.com/DavidGewirtz und auf YouTube unter YouTube.com/DavidGewirtzTV.
Verwandter Artikel
Mastercards Agent Pay verbessert die KI-Suche mit nahtlosen Transaktionen
Traditionelle Suchplattformen und KI-Agenten erfordern oft, dass Nutzer Fenster wechseln, um Käufe abzuschließen, nachdem sie Produkte oder Dienstleistungen gefunden haben.Mastercard revolutioniert di
OpenAI verpflichtet sich zu Korrekturen nach übermäßig zustimmenden Antworten von ChatGPT
OpenAI plant, den Aktualisierungsprozess seines KI-Modells für ChatGPT zu überarbeiten, nachdem ein Update übermäßig schmeichlerische Antworten verursacht hat, was zu weit verbreitetem Nutzerfeedback
OpenAI stellt fortschrittliche KI-Argumentationsmodelle vor, o3 und o4-mini
OpenAI hat am Mittwoch o3 und o4-mini vorgestellt, neue KI-Modelle, die entwickelt wurden, um Fragen vor der Beantwortung zu pausieren und zu analysieren.OpenAI preist o3 als sein bisher ausgeklügelts
Kommentare (10)
0/200
ScottMitchell
5. Mai 2025 15:17:31 MESZ
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
0
JamesMiller
5. Mai 2025 10:59:50 MESZ
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
0
StevenNelson
5. Mai 2025 09:23:24 MESZ
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
0
JoseDavis
5. Mai 2025 08:46:04 MESZ
Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !
0
HaroldLopez
5. Mai 2025 06:06:54 MESZ
클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!
0
AveryThomas
5. Mai 2025 00:30:08 MESZ
Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!
0
Testen der Fähigkeiten von Anthropics neuem Claude 3.5 Sonnet
Letzte Woche erhielt ich eine E-Mail von Anthropic, in der die Veröffentlichung von Claude 3.5 Sonnet angekündigt wurde. Sie prahlten damit, dass es "die Messlatte der Branche für Intelligenz hebt und konkurrierende Modelle sowie Claude 3 Opus in einer Vielzahl von Bewertungen übertrifft." Sie behaupteten auch, es sei perfekt für komplexe Aufgaben wie die Codegenerierung. Natürlich musste ich diese Behauptungen auf die Probe stellen.
Ich habe eine Reihe von Codierungstests an verschiedenen AIs durchgeführt, und Sie können das auch. Besuchen Sie einfach Wie ich die Programmierfähigkeiten eines AI-Chatbots teste - und Sie können es auch, um alle Details zu erfahren. Lassen Sie uns untersuchen, wie Claude 3.5 Sonnet in meinen Standardtests abgeschnitten hat und wie es im Vergleich zu anderen AIs wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und ChatGPT abschneidet.
1. Schreiben eines WordPress-Plugins
Anfangs zeigte Claude 3.5 Sonnet vielversprechende Ergebnisse. Die Benutzeroberfläche, die es generierte, war beeindruckend, mit einem sauberen Layout, das Datenfelder erstmals nebeneinander platzierte unter den AIs, die ich getestet habe.
Screenshot von David Gewirtz/ZDNET
Was meine Aufmerksamkeit erregte, war, wie Claude die Codegenerierung anging. Anstelle der üblichen separaten Dateien für PHP, JavaScript und CSS lieferte es eine einzige PHP-Datei, die die JavaScript- und CSS-Dateien automatisch in das Verzeichnis des Plugins generierte. Obwohl dies ein innovativer Ansatz war, ist er riskant, da er davon abhängt, dass die Betriebssystemeinstellungen es einem Plugin erlauben, in seinen eigenen Ordner zu schreiben – ein schwerwiegender Sicherheitsmangel in einer Produktionsumgebung.
Leider funktionierte das Plugin trotz der kreativen Lösung nicht. Der Button "Randomize" tat nichts, was angesichts des anfänglichen Versprechens enttäuschend war.
Hier sind die aggregierten Ergebnisse im Vergleich zu früheren Tests:
- Claude 3.5 Sonnet: Oberfläche: gut, Funktionalität: fehlgeschlagen
- ChatGPT GPT-4o: Oberfläche: gut, Funktionalität: gut
- Microsoft Copilot: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta AI: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta Code Llama: Kompletter Fehlschlag
- Google Gemini Advanced: Oberfläche: gut, Funktionalität: fehlgeschlagen
- ChatGPT 4: Oberfläche: gut, Funktionalität: gut
- ChatGPT 3.5: Oberfläche: gut, Funktionalität: gut
2. Umschreiben einer String-Funktion
Dieser Test bewertet, wie gut eine AI Code umschreiben kann, um spezifische Anforderungen zu erfüllen, in diesem Fall für Dollar- und Cent-Umrechnungen. Claude 3.5 Sonnet hat gute Arbeit geleistet, führende Nullen zu entfernen, Ganzzahlen und Dezimalzahlen korrekt zu behandeln und negative Werte zu verhindern. Es gab auch intelligent "0" für unerwartete Eingaben zurück, was hilft, Fehler zu vermeiden.
Es versäumte jedoch, Eingaben wie ".50" für 50 Cent zuzulassen, was eine Anforderung war. Das bedeutet, dass der überarbeitete Code in einem realen Szenario nicht funktionieren würde, weshalb ich ihn als Fehlschlag bewerten muss.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Fehlgeschlagen
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Erfolgreich
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
3. Finden eines lästigen Fehlers
Dieser Test ist knifflig, da er erfordert, dass die AI einen subtilen Fehler findet, der spezifisches WordPress-Wissen erfordert. Es ist ein Fehler, den ich selbst übersehen habe und den ich zunächst an ChatGPT wenden musste, um ihn zu lösen.
Claude 3.5 Sonnet fand und behebte nicht nur den Fehler, sondern bemerkte auch einen während des Veröffentlichungsprozesses eingeführten Fehler, den ich dann korrigierte. Dies war das erste Mal unter den AIs, die ich seit der Veröffentlichung des vollständigen Testsets getestet habe.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Erfolgreich
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen. Spektakulär. Begeistert. Emojisch.
- Meta AI: Erfolgreich
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
Bis jetzt hat Claude 3.5 Sonnet zwei von drei Tests nicht bestanden. Mal sehen, wie es beim letzten abschneidet.
4. Schreiben eines Skripts
Dieser Test prüft das Wissen der AI über spezialisierte Programmierwerkzeuge wie AppleScript und Keyboard Maestro. Während ChatGPT in beiden Bereichen Kompetenz gezeigt hatte, schnitt Claude 3.5 Sonnet nicht so gut ab. Es schrieb ein AppleScript, das versuchte, mit Chrome zu interagieren, ignorierte jedoch die Keyboard Maestro-Komponente vollständig.
Darüber hinaus enthielt das AppleScript einen Syntaxfehler. Beim Versuch, die Übereinstimmung unabhängig von der Groß-/Kleinschreibung zu gestalten, generierte Claude eine Zeile, die einen Laufzeitfehler verursachen würde:
Die "contains"-Anweisung ist bereits unabhängig von der Groß-/Kleinschreibung, und die Phrase "ignoring case" war fehlplatziert, was zu einem Fehler führte.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Fehlgeschlagen
- ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Erfolgreich
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Fehlgeschlagen
Gesamtergebnisse
So hat Claude 3.5 Sonnet insgesamt im Vergleich zu anderen AIs abgeschnitten:
- Claude 3.5 Sonnet: 1 von 4 erfolgreich
- ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit einer seltsamen Doppelwahlantwort
- Microsoft Copilot: 0 von 4 erfolgreich
- Meta AI: 1 von 4 erfolgreich
- Meta Code Llama: 1 von 4 erfolgreich
- Google Gemini Advanced: 1 von 4 erfolgreich
- ChatGPT 4: 4 von 4 erfolgreich
- ChatGPT 3.5: 3 von 4 erfolgreich
Ich war ziemlich enttäuscht von Claude 3.5 Sonnet. Anthropic versprach, es sei für die Programmierung geeignet, aber es erfüllte diese Erwartungen nicht. Es ist nicht so, dass es nicht programmieren kann; es kann nur nicht korrekt programmieren. Ich hoffe weiterhin, eine AI zu finden, die ChatGPT übertrifft, besonders da diese Modelle in Programmierumgebungen integriert werden. Aber fürs Erste bleibe ich bei ChatGPT für Programmierhilfe, und ich empfehle Ihnen, dasselbe zu tun.
Haben Sie eine AI zum Programmieren verwendet? Welche, und wie lief es? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.
Folgen Sie meinen Projektaktualisierungen in den sozialen Medien, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @DavidGewirtz, auf Facebook unter Facebook.com/DavidGewirtz, auf Instagram unter Instagram.com/DavidGewirtz und auf YouTube unter YouTube.com/DavidGewirtzTV.




Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!




Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!




クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?




Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !




클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!




Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!












