Option
Heim
Nachricht
Claude 3.5 Sonett kämpft kreativ in KI -Codierungstests, die von Chatgpt dominiert werden

Claude 3.5 Sonett kämpft kreativ in KI -Codierungstests, die von Chatgpt dominiert werden

4. Mai 2025
169

Testen der Fähigkeiten von Anthropics neuem Claude 3.5 Sonnet

Letzte Woche erhielt ich eine E-Mail von Anthropic, in der die Veröffentlichung von Claude 3.5 Sonnet angekündigt wurde. Sie prahlten damit, dass es "die Messlatte der Branche für Intelligenz hebt und konkurrierende Modelle sowie Claude 3 Opus in einer Vielzahl von Bewertungen übertrifft." Sie behaupteten auch, es sei perfekt für komplexe Aufgaben wie die Codegenerierung. Natürlich musste ich diese Behauptungen auf die Probe stellen.

Ich habe eine Reihe von Codierungstests an verschiedenen AIs durchgeführt, und Sie können das auch. Besuchen Sie einfach Wie ich die Programmierfähigkeiten eines AI-Chatbots teste - und Sie können es auch, um alle Details zu erfahren. Lassen Sie uns untersuchen, wie Claude 3.5 Sonnet in meinen Standardtests abgeschnitten hat und wie es im Vergleich zu anderen AIs wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und ChatGPT abschneidet.

1. Schreiben eines WordPress-Plugins

Anfangs zeigte Claude 3.5 Sonnet vielversprechende Ergebnisse. Die Benutzeroberfläche, die es generierte, war beeindruckend, mit einem sauberen Layout, das Datenfelder erstmals nebeneinander platzierte unter den AIs, die ich getestet habe.

Screenshot der von Claude 3.5 Sonnet erstellten WordPress-Plugin-OberflächeScreenshot von David Gewirtz/ZDNET

Was meine Aufmerksamkeit erregte, war, wie Claude die Codegenerierung anging. Anstelle der üblichen separaten Dateien für PHP, JavaScript und CSS lieferte es eine einzige PHP-Datei, die die JavaScript- und CSS-Dateien automatisch in das Verzeichnis des Plugins generierte. Obwohl dies ein innovativer Ansatz war, ist er riskant, da er davon abhängt, dass die Betriebssystemeinstellungen es einem Plugin erlauben, in seinen eigenen Ordner zu schreiben – ein schwerwiegender Sicherheitsmangel in einer Produktionsumgebung.

Leider funktionierte das Plugin trotz der kreativen Lösung nicht. Der Button "Randomize" tat nichts, was angesichts des anfänglichen Versprechens enttäuschend war.

Hier sind die aggregierten Ergebnisse im Vergleich zu früheren Tests:

  • Claude 3.5 Sonnet: Oberfläche: gut, Funktionalität: fehlgeschlagen
  • ChatGPT GPT-4o: Oberfläche: gut, Funktionalität: gut
  • Microsoft Copilot: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
  • Meta AI: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
  • Meta Code Llama: Kompletter Fehlschlag
  • Google Gemini Advanced: Oberfläche: gut, Funktionalität: fehlgeschlagen
  • ChatGPT 4: Oberfläche: gut, Funktionalität: gut
  • ChatGPT 3.5: Oberfläche: gut, Funktionalität: gut

2. Umschreiben einer String-Funktion

Dieser Test bewertet, wie gut eine AI Code umschreiben kann, um spezifische Anforderungen zu erfüllen, in diesem Fall für Dollar- und Cent-Umrechnungen. Claude 3.5 Sonnet hat gute Arbeit geleistet, führende Nullen zu entfernen, Ganzzahlen und Dezimalzahlen korrekt zu behandeln und negative Werte zu verhindern. Es gab auch intelligent "0" für unerwartete Eingaben zurück, was hilft, Fehler zu vermeiden.

Es versäumte jedoch, Eingaben wie ".50" für 50 Cent zuzulassen, was eine Anforderung war. Das bedeutet, dass der überarbeitete Code in einem realen Szenario nicht funktionieren würde, weshalb ich ihn als Fehlschlag bewerten muss.

Hier sind die aggregierten Ergebnisse:

  • Claude 3.5 Sonnet: Fehlgeschlagen
  • ChatGPT GPT-4o: Erfolgreich
  • Microsoft Copilot: Fehlgeschlagen
  • Meta AI: Fehlgeschlagen
  • Meta Code Llama: Erfolgreich
  • Google Gemini Advanced: Fehlgeschlagen
  • ChatGPT 4: Erfolgreich
  • ChatGPT 3.5: Erfolgreich

3. Finden eines lästigen Fehlers

Dieser Test ist knifflig, da er erfordert, dass die AI einen subtilen Fehler findet, der spezifisches WordPress-Wissen erfordert. Es ist ein Fehler, den ich selbst übersehen habe und den ich zunächst an ChatGPT wenden musste, um ihn zu lösen.

Claude 3.5 Sonnet fand und behebte nicht nur den Fehler, sondern bemerkte auch einen während des Veröffentlichungsprozesses eingeführten Fehler, den ich dann korrigierte. Dies war das erste Mal unter den AIs, die ich seit der Veröffentlichung des vollständigen Testsets getestet habe.

Hier sind die aggregierten Ergebnisse:

  • Claude 3.5 Sonnet: Erfolgreich
  • ChatGPT GPT-4o: Erfolgreich
  • Microsoft Copilot: Fehlgeschlagen. Spektakulär. Begeistert. Emojisch.
  • Meta AI: Erfolgreich
  • Meta Code Llama: Fehlgeschlagen
  • Google Gemini Advanced: Fehlgeschlagen
  • ChatGPT 4: Erfolgreich
  • ChatGPT 3.5: Erfolgreich

Bis jetzt hat Claude 3.5 Sonnet zwei von drei Tests nicht bestanden. Mal sehen, wie es beim letzten abschneidet.

4. Schreiben eines Skripts

Dieser Test prüft das Wissen der AI über spezialisierte Programmierwerkzeuge wie AppleScript und Keyboard Maestro. Während ChatGPT in beiden Bereichen Kompetenz gezeigt hatte, schnitt Claude 3.5 Sonnet nicht so gut ab. Es schrieb ein AppleScript, das versuchte, mit Chrome zu interagieren, ignorierte jedoch die Keyboard Maestro-Komponente vollständig.

Darüber hinaus enthielt das AppleScript einen Syntaxfehler. Beim Versuch, die Übereinstimmung unabhängig von der Groß-/Kleinschreibung zu gestalten, generierte Claude eine Zeile, die einen Laufzeitfehler verursachen würde:

if theTab's title contains input ignoring case then

Die "contains"-Anweisung ist bereits unabhängig von der Groß-/Kleinschreibung, und die Phrase "ignoring case" war fehlplatziert, was zu einem Fehler führte.

Hier sind die aggregierten Ergebnisse:

  • Claude 3.5 Sonnet: Fehlgeschlagen
  • ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
  • Microsoft Copilot: Fehlgeschlagen
  • Meta AI: Fehlgeschlagen
  • Meta Code Llama: Fehlgeschlagen
  • Google Gemini Advanced: Erfolgreich
  • ChatGPT 4: Erfolgreich
  • ChatGPT 3.5: Fehlgeschlagen

Gesamtergebnisse

So hat Claude 3.5 Sonnet insgesamt im Vergleich zu anderen AIs abgeschnitten:

  • Claude 3.5 Sonnet: 1 von 4 erfolgreich
  • ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit einer seltsamen Doppelwahlantwort
  • Microsoft Copilot: 0 von 4 erfolgreich
  • Meta AI: 1 von 4 erfolgreich
  • Meta Code Llama: 1 von 4 erfolgreich
  • Google Gemini Advanced: 1 von 4 erfolgreich
  • ChatGPT 4: 4 von 4 erfolgreich
  • ChatGPT 3.5: 3 von 4 erfolgreich

Ich war ziemlich enttäuscht von Claude 3.5 Sonnet. Anthropic versprach, es sei für die Programmierung geeignet, aber es erfüllte diese Erwartungen nicht. Es ist nicht so, dass es nicht programmieren kann; es kann nur nicht korrekt programmieren. Ich hoffe weiterhin, eine AI zu finden, die ChatGPT übertrifft, besonders da diese Modelle in Programmierumgebungen integriert werden. Aber fürs Erste bleibe ich bei ChatGPT für Programmierhilfe, und ich empfehle Ihnen, dasselbe zu tun.

Haben Sie eine AI zum Programmieren verwendet? Welche, und wie lief es? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.

Folgen Sie meinen Projektaktualisierungen in den sozialen Medien, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @DavidGewirtz, auf Facebook unter Facebook.com/DavidGewirtz, auf Instagram unter Instagram.com/DavidGewirtz und auf YouTube unter YouTube.com/DavidGewirtzTV.

Verwandter Artikel
OpenAI stärkt die Sicherheit von ChatGPT durch eine Partnerschaft mit Yubico für einen verbesserten Kontoschutz OpenAI stärkt die Sicherheit von ChatGPT durch eine Partnerschaft mit Yubico für einen verbesserten Kontoschutz OpenAI unternimmt wichtige Schritte zur Verbesserung der Kontosicherheit.Am Donnerstag stellte das Unternehmen „Advanced Account Security“ vor, eine Reihe optionaler Schutzmaßnahmen für ChatGPT-Nutzer
OpenAI bringt ChatGPT für die private Finanzplanung mit Bankkonto-Integration auf den Markt OpenAI bringt ChatGPT für die private Finanzplanung mit Bankkonto-Integration auf den Markt Am Freitag stellte OpenAI eine neue Reihe von Tools für die persönliche Finanzverwaltung in der Vorschaufunktion für ChatGPT-Pro-Abonnenten in den USA vor. Mit dieser Funktion können Nutzer ihre Finan
OpenAI verkündet einen echten Durchbruch bei der Lösung eines jahrzehntealten mathematischen Rätsels OpenAI verkündet einen echten Durchbruch bei der Lösung eines jahrzehntealten mathematischen Rätsels OpenAI behauptet, sein neuestes Schlussfolgerungsmodell habe einen originellen mathematischen Beweis erbracht, der eine berühmte ungelöste Vermutung aus der Geometrie widerlegt, die erstmals 1946 von
Empfehlungen zu verwandten Spezialthemen
Geschäft Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren
Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren

Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!

10 Tools
xix.ai
Produktivität KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern
KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools
xix.ai
Chatbot Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf
Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools
xix.ai
Bildung und Lernen Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.
Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools
xix.ai
Chatbot Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit
Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools
xix.ai
Code Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.
Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.

Entdecken Sie die neuesten, hochbewerteten KI-Tools von 2026 für den automatisierten Unit-Testing-Prozess. Unsere sorgfältig ausgewählten Lösungen bieten leistungsstarke und bahnbrechende Funktionen, um sofort Jest-, PyTest- und JUnit-Testfälle zu generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von tatsächlichen Tests sowie wöchentlich aktualisierten Rankings auf XIX.AI. Entfalten Sie Ihr KI-Potenzial und steigern Sie noch heute die Produktivität Ihrer Entwicklungstätigkeit.

10 Tools
xix.ai
Kommentare (11)
0/500
CharlesYoung
CharlesYoung 6. Oktober 2025 16:30:46 MESZ

Intéressant de voir Claude 3.5 Sonnet avoir du mal avec le codage créatif. Est-ce qu'on attend trop des IA actuellement ? Après tout, l'intelligence humaine reste unique 🤷‍♂️

ScottMitchell
ScottMitchell 5. Mai 2025 15:17:31 MESZ

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller
JamesMiller 5. Mai 2025 10:59:50 MESZ

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson
StevenNelson 5. Mai 2025 09:23:24 MESZ

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

JoseDavis
JoseDavis 5. Mai 2025 08:46:04 MESZ

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez
HaroldLopez 5. Mai 2025 06:06:54 MESZ

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

OR