Claude 3.5 Sonett kämpft kreativ in KI -Codierungstests, die von Chatgpt dominiert werden

Heim

Nachricht

4. Mai 2025

FrankWilliams

# ChatGPT

Testen der Fähigkeiten von Anthropics neuem Claude 3.5 Sonnet

Letzte Woche erhielt ich eine E-Mail von Anthropic, in der die Veröffentlichung von Claude 3.5 Sonnet angekündigt wurde. Sie prahlten damit, dass es "die Messlatte der Branche für Intelligenz hebt und konkurrierende Modelle sowie Claude 3 Opus in einer Vielzahl von Bewertungen übertrifft." Sie behaupteten auch, es sei perfekt für komplexe Aufgaben wie die Codegenerierung. Natürlich musste ich diese Behauptungen auf die Probe stellen.

Ich habe eine Reihe von Codierungstests an verschiedenen AIs durchgeführt, und Sie können das auch. Besuchen Sie einfach Wie ich die Programmierfähigkeiten eines AI-Chatbots teste - und Sie können es auch, um alle Details zu erfahren. Lassen Sie uns untersuchen, wie Claude 3.5 Sonnet in meinen Standardtests abgeschnitten hat und wie es im Vergleich zu anderen AIs wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und ChatGPT abschneidet.

1. Schreiben eines WordPress-Plugins

Anfangs zeigte Claude 3.5 Sonnet vielversprechende Ergebnisse. Die Benutzeroberfläche, die es generierte, war beeindruckend, mit einem sauberen Layout, das Datenfelder erstmals nebeneinander platzierte unter den AIs, die ich getestet habe.

Screenshot der von Claude 3.5 Sonnet erstellten WordPress-Plugin-Oberfläche Screenshot von David Gewirtz/ZDNET

Was meine Aufmerksamkeit erregte, war, wie Claude die Codegenerierung anging. Anstelle der üblichen separaten Dateien für PHP, JavaScript und CSS lieferte es eine einzige PHP-Datei, die die JavaScript- und CSS-Dateien automatisch in das Verzeichnis des Plugins generierte. Obwohl dies ein innovativer Ansatz war, ist er riskant, da er davon abhängt, dass die Betriebssystemeinstellungen es einem Plugin erlauben, in seinen eigenen Ordner zu schreiben – ein schwerwiegender Sicherheitsmangel in einer Produktionsumgebung.

Leider funktionierte das Plugin trotz der kreativen Lösung nicht. Der Button "Randomize" tat nichts, was angesichts des anfänglichen Versprechens enttäuschend war.

Hier sind die aggregierten Ergebnisse im Vergleich zu früheren Tests:

Claude 3.5 Sonnet: Oberfläche: gut, Funktionalität: fehlgeschlagen
ChatGPT GPT-4o: Oberfläche: gut, Funktionalität: gut
Microsoft Copilot: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
Meta AI: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
Meta Code Llama: Kompletter Fehlschlag
Google Gemini Advanced: Oberfläche: gut, Funktionalität: fehlgeschlagen
ChatGPT 4: Oberfläche: gut, Funktionalität: gut
ChatGPT 3.5: Oberfläche: gut, Funktionalität: gut

2. Umschreiben einer String-Funktion

Dieser Test bewertet, wie gut eine AI Code umschreiben kann, um spezifische Anforderungen zu erfüllen, in diesem Fall für Dollar- und Cent-Umrechnungen. Claude 3.5 Sonnet hat gute Arbeit geleistet, führende Nullen zu entfernen, Ganzzahlen und Dezimalzahlen korrekt zu behandeln und negative Werte zu verhindern. Es gab auch intelligent "0" für unerwartete Eingaben zurück, was hilft, Fehler zu vermeiden.

Es versäumte jedoch, Eingaben wie ".50" für 50 Cent zuzulassen, was eine Anforderung war. Das bedeutet, dass der überarbeitete Code in einem realen Szenario nicht funktionieren würde, weshalb ich ihn als Fehlschlag bewerten muss.

Hier sind die aggregierten Ergebnisse:

Claude 3.5 Sonnet: Fehlgeschlagen
ChatGPT GPT-4o: Erfolgreich
Microsoft Copilot: Fehlgeschlagen
Meta AI: Fehlgeschlagen
Meta Code Llama: Erfolgreich
Google Gemini Advanced: Fehlgeschlagen
ChatGPT 4: Erfolgreich
ChatGPT 3.5: Erfolgreich

3. Finden eines lästigen Fehlers

Dieser Test ist knifflig, da er erfordert, dass die AI einen subtilen Fehler findet, der spezifisches WordPress-Wissen erfordert. Es ist ein Fehler, den ich selbst übersehen habe und den ich zunächst an ChatGPT wenden musste, um ihn zu lösen.

Claude 3.5 Sonnet fand und behebte nicht nur den Fehler, sondern bemerkte auch einen während des Veröffentlichungsprozesses eingeführten Fehler, den ich dann korrigierte. Dies war das erste Mal unter den AIs, die ich seit der Veröffentlichung des vollständigen Testsets getestet habe.

Hier sind die aggregierten Ergebnisse:

Claude 3.5 Sonnet: Erfolgreich
ChatGPT GPT-4o: Erfolgreich
Microsoft Copilot: Fehlgeschlagen. Spektakulär. Begeistert. Emojisch.
Meta AI: Erfolgreich
Meta Code Llama: Fehlgeschlagen
Google Gemini Advanced: Fehlgeschlagen
ChatGPT 4: Erfolgreich
ChatGPT 3.5: Erfolgreich

Bis jetzt hat Claude 3.5 Sonnet zwei von drei Tests nicht bestanden. Mal sehen, wie es beim letzten abschneidet.

4. Schreiben eines Skripts

Dieser Test prüft das Wissen der AI über spezialisierte Programmierwerkzeuge wie AppleScript und Keyboard Maestro. Während ChatGPT in beiden Bereichen Kompetenz gezeigt hatte, schnitt Claude 3.5 Sonnet nicht so gut ab. Es schrieb ein AppleScript, das versuchte, mit Chrome zu interagieren, ignorierte jedoch die Keyboard Maestro-Komponente vollständig.

Darüber hinaus enthielt das AppleScript einen Syntaxfehler. Beim Versuch, die Übereinstimmung unabhängig von der Groß-/Kleinschreibung zu gestalten, generierte Claude eine Zeile, die einen Laufzeitfehler verursachen würde:

if theTab's title contains input ignoring case then

Die "contains"-Anweisung ist bereits unabhängig von der Groß-/Kleinschreibung, und die Phrase "ignoring case" war fehlplatziert, was zu einem Fehler führte.

Hier sind die aggregierten Ergebnisse:

Claude 3.5 Sonnet: Fehlgeschlagen
ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
Microsoft Copilot: Fehlgeschlagen
Meta AI: Fehlgeschlagen
Meta Code Llama: Fehlgeschlagen
Google Gemini Advanced: Erfolgreich
ChatGPT 4: Erfolgreich
ChatGPT 3.5: Fehlgeschlagen

Gesamtergebnisse

So hat Claude 3.5 Sonnet insgesamt im Vergleich zu anderen AIs abgeschnitten:

Claude 3.5 Sonnet: 1 von 4 erfolgreich
ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit einer seltsamen Doppelwahlantwort
Microsoft Copilot: 0 von 4 erfolgreich
Meta AI: 1 von 4 erfolgreich
Meta Code Llama: 1 von 4 erfolgreich
Google Gemini Advanced: 1 von 4 erfolgreich
ChatGPT 4: 4 von 4 erfolgreich
ChatGPT 3.5: 3 von 4 erfolgreich

Ich war ziemlich enttäuscht von Claude 3.5 Sonnet. Anthropic versprach, es sei für die Programmierung geeignet, aber es erfüllte diese Erwartungen nicht. Es ist nicht so, dass es nicht programmieren kann; es kann nur nicht korrekt programmieren. Ich hoffe weiterhin, eine AI zu finden, die ChatGPT übertrifft, besonders da diese Modelle in Programmierumgebungen integriert werden. Aber fürs Erste bleibe ich bei ChatGPT für Programmierhilfe, und ich empfehle Ihnen, dasselbe zu tun.

Haben Sie eine AI zum Programmieren verwendet? Welche, und wie lief es? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.

Folgen Sie meinen Projektaktualisierungen in den sozialen Medien, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @DavidGewirtz, auf Facebook unter Facebook.com/DavidGewirtz, auf Instagram unter Instagram.com/DavidGewirtz und auf YouTube unter YouTube.com/DavidGewirtzTV.

Verwandter Artikel

Mastercards Agent Pay verbessert die KI-Suche mit nahtlosen Transaktionen Traditionelle Suchplattformen und KI-Agenten erfordern oft, dass Nutzer Fenster wechseln, um Käufe abzuschließen, nachdem sie Produkte oder Dienstleistungen gefunden haben.Mastercard revolutioniert di

OpenAI verpflichtet sich zu Korrekturen nach übermäßig zustimmenden Antworten von ChatGPT OpenAI plant, den Aktualisierungsprozess seines KI-Modells für ChatGPT zu überarbeiten, nachdem ein Update übermäßig schmeichlerische Antworten verursacht hat, was zu weit verbreitetem Nutzerfeedback

OpenAI stellt fortschrittliche KI-Argumentationsmodelle vor, o3 und o4-mini OpenAI hat am Mittwoch o3 und o4-mini vorgestellt, neue KI-Modelle, die entwickelt wurden, um Fragen vor der Beantwortung zu pausieren und zu analysieren.OpenAI preist o3 als sein bisher ausgeklügelts

Kommentare (10)

0/200

Einreichen

ScottMitchell

5. Mai 2025 15:17:31 MESZ

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller

5. Mai 2025 10:59:50 MESZ

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson

5. Mai 2025 09:23:24 MESZ

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです！😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも？

JoseDavis

5. Mai 2025 08:46:04 MESZ

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez

5. Mai 2025 06:06:54 MESZ

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas

5. Mai 2025 00:30:08 MESZ

Claude 3.5 Sonnet居然在编程测试中表现一般？有点失望，感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈，Anthropic得加把劲了！

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung Die KI von Cambium verwandelt Abfall Holz in Holz OpenAI verbessert den AI -Sprachassistenten für bessere Chats So stellen Sie sicher, dass Ihre Daten für die KI -Integration vertrauenswürdig sind NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten Google nutzt KI, um über 39 Millionen Anzeigenkonten für mutmaßlichen Betrug auszusetzen Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung

Mehr

Vorgestellt