Heim
Claude 3.5 Sonett kämpft kreativ in KI -Codierungstests, die von Chatgpt dominiert werden
Testen der Fähigkeiten von Anthropics neuem Claude 3.5 Sonnet
Letzte Woche erhielt ich eine E-Mail von Anthropic, in der die Veröffentlichung von Claude 3.5 Sonnet angekündigt wurde. Sie prahlten damit, dass es "die Messlatte der Branche für Intelligenz hebt und konkurrierende Modelle sowie Claude 3 Opus in einer Vielzahl von Bewertungen übertrifft." Sie behaupteten auch, es sei perfekt für komplexe Aufgaben wie die Codegenerierung. Natürlich musste ich diese Behauptungen auf die Probe stellen.
Ich habe eine Reihe von Codierungstests an verschiedenen AIs durchgeführt, und Sie können das auch. Besuchen Sie einfach Wie ich die Programmierfähigkeiten eines AI-Chatbots teste - und Sie können es auch, um alle Details zu erfahren. Lassen Sie uns untersuchen, wie Claude 3.5 Sonnet in meinen Standardtests abgeschnitten hat und wie es im Vergleich zu anderen AIs wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und ChatGPT abschneidet.
1. Schreiben eines WordPress-Plugins
Anfangs zeigte Claude 3.5 Sonnet vielversprechende Ergebnisse. Die Benutzeroberfläche, die es generierte, war beeindruckend, mit einem sauberen Layout, das Datenfelder erstmals nebeneinander platzierte unter den AIs, die ich getestet habe.
Screenshot von David Gewirtz/ZDNET
Was meine Aufmerksamkeit erregte, war, wie Claude die Codegenerierung anging. Anstelle der üblichen separaten Dateien für PHP, JavaScript und CSS lieferte es eine einzige PHP-Datei, die die JavaScript- und CSS-Dateien automatisch in das Verzeichnis des Plugins generierte. Obwohl dies ein innovativer Ansatz war, ist er riskant, da er davon abhängt, dass die Betriebssystemeinstellungen es einem Plugin erlauben, in seinen eigenen Ordner zu schreiben – ein schwerwiegender Sicherheitsmangel in einer Produktionsumgebung.
Leider funktionierte das Plugin trotz der kreativen Lösung nicht. Der Button "Randomize" tat nichts, was angesichts des anfänglichen Versprechens enttäuschend war.
Hier sind die aggregierten Ergebnisse im Vergleich zu früheren Tests:
- Claude 3.5 Sonnet: Oberfläche: gut, Funktionalität: fehlgeschlagen
- ChatGPT GPT-4o: Oberfläche: gut, Funktionalität: gut
- Microsoft Copilot: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta AI: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta Code Llama: Kompletter Fehlschlag
- Google Gemini Advanced: Oberfläche: gut, Funktionalität: fehlgeschlagen
- ChatGPT 4: Oberfläche: gut, Funktionalität: gut
- ChatGPT 3.5: Oberfläche: gut, Funktionalität: gut
2. Umschreiben einer String-Funktion
Dieser Test bewertet, wie gut eine AI Code umschreiben kann, um spezifische Anforderungen zu erfüllen, in diesem Fall für Dollar- und Cent-Umrechnungen. Claude 3.5 Sonnet hat gute Arbeit geleistet, führende Nullen zu entfernen, Ganzzahlen und Dezimalzahlen korrekt zu behandeln und negative Werte zu verhindern. Es gab auch intelligent "0" für unerwartete Eingaben zurück, was hilft, Fehler zu vermeiden.
Es versäumte jedoch, Eingaben wie ".50" für 50 Cent zuzulassen, was eine Anforderung war. Das bedeutet, dass der überarbeitete Code in einem realen Szenario nicht funktionieren würde, weshalb ich ihn als Fehlschlag bewerten muss.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Fehlgeschlagen
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Erfolgreich
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
3. Finden eines lästigen Fehlers
Dieser Test ist knifflig, da er erfordert, dass die AI einen subtilen Fehler findet, der spezifisches WordPress-Wissen erfordert. Es ist ein Fehler, den ich selbst übersehen habe und den ich zunächst an ChatGPT wenden musste, um ihn zu lösen.
Claude 3.5 Sonnet fand und behebte nicht nur den Fehler, sondern bemerkte auch einen während des Veröffentlichungsprozesses eingeführten Fehler, den ich dann korrigierte. Dies war das erste Mal unter den AIs, die ich seit der Veröffentlichung des vollständigen Testsets getestet habe.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Erfolgreich
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen. Spektakulär. Begeistert. Emojisch.
- Meta AI: Erfolgreich
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
Bis jetzt hat Claude 3.5 Sonnet zwei von drei Tests nicht bestanden. Mal sehen, wie es beim letzten abschneidet.
4. Schreiben eines Skripts
Dieser Test prüft das Wissen der AI über spezialisierte Programmierwerkzeuge wie AppleScript und Keyboard Maestro. Während ChatGPT in beiden Bereichen Kompetenz gezeigt hatte, schnitt Claude 3.5 Sonnet nicht so gut ab. Es schrieb ein AppleScript, das versuchte, mit Chrome zu interagieren, ignorierte jedoch die Keyboard Maestro-Komponente vollständig.
Darüber hinaus enthielt das AppleScript einen Syntaxfehler. Beim Versuch, die Übereinstimmung unabhängig von der Groß-/Kleinschreibung zu gestalten, generierte Claude eine Zeile, die einen Laufzeitfehler verursachen würde:
if theTab's title contains input ignoring case then
Die "contains"-Anweisung ist bereits unabhängig von der Groß-/Kleinschreibung, und die Phrase "ignoring case" war fehlplatziert, was zu einem Fehler führte.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Fehlgeschlagen
- ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Erfolgreich
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Fehlgeschlagen
Gesamtergebnisse
So hat Claude 3.5 Sonnet insgesamt im Vergleich zu anderen AIs abgeschnitten:
- Claude 3.5 Sonnet: 1 von 4 erfolgreich
- ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit einer seltsamen Doppelwahlantwort
- Microsoft Copilot: 0 von 4 erfolgreich
- Meta AI: 1 von 4 erfolgreich
- Meta Code Llama: 1 von 4 erfolgreich
- Google Gemini Advanced: 1 von 4 erfolgreich
- ChatGPT 4: 4 von 4 erfolgreich
- ChatGPT 3.5: 3 von 4 erfolgreich
Ich war ziemlich enttäuscht von Claude 3.5 Sonnet. Anthropic versprach, es sei für die Programmierung geeignet, aber es erfüllte diese Erwartungen nicht. Es ist nicht so, dass es nicht programmieren kann; es kann nur nicht korrekt programmieren. Ich hoffe weiterhin, eine AI zu finden, die ChatGPT übertrifft, besonders da diese Modelle in Programmierumgebungen integriert werden. Aber fürs Erste bleibe ich bei ChatGPT für Programmierhilfe, und ich empfehle Ihnen, dasselbe zu tun.
Haben Sie eine AI zum Programmieren verwendet? Welche, und wie lief es? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.
Folgen Sie meinen Projektaktualisierungen in den sozialen Medien, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @DavidGewirtz, auf Facebook unter Facebook.com/DavidGewirtz, auf Instagram unter Instagram.com/DavidGewirtz und auf YouTube unter YouTube.com/DavidGewirtzTV.
Verwandter Artikel
OpenAI stärkt die Sicherheit von ChatGPT durch eine Partnerschaft mit Yubico für einen verbesserten Kontoschutz
OpenAI unternimmt wichtige Schritte zur Verbesserung der Kontosicherheit.Am Donnerstag stellte das Unternehmen „Advanced Account Security“ vor, eine Reihe optionaler Schutzmaßnahmen für ChatGPT-Nutzer
OpenAI bringt ChatGPT für die private Finanzplanung mit Bankkonto-Integration auf den Markt
Am Freitag stellte OpenAI eine neue Reihe von Tools für die persönliche Finanzverwaltung in der Vorschaufunktion für ChatGPT-Pro-Abonnenten in den USA vor. Mit dieser Funktion können Nutzer ihre Finan
OpenAI verkündet einen echten Durchbruch bei der Lösung eines jahrzehntealten mathematischen Rätsels
OpenAI behauptet, sein neuestes Schlussfolgerungsmodell habe einen originellen mathematischen Beweis erbracht, der eine berühmte ungelöste Vermutung aus der Geometrie widerlegt, die erstmals 1946 von
Empfehlungen zu verwandten Spezialthemen
Kommentare (11)
Intéressant de voir Claude 3.5 Sonnet avoir du mal avec le codage créatif. Est-ce qu'on attend trop des IA actuellement ? Après tout, l'intelligence humaine reste unique 🤷♂️
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !
Testen der Fähigkeiten von Anthropics neuem Claude 3.5 Sonnet
Letzte Woche erhielt ich eine E-Mail von Anthropic, in der die Veröffentlichung von Claude 3.5 Sonnet angekündigt wurde. Sie prahlten damit, dass es "die Messlatte der Branche für Intelligenz hebt und konkurrierende Modelle sowie Claude 3 Opus in einer Vielzahl von Bewertungen übertrifft." Sie behaupteten auch, es sei perfekt für komplexe Aufgaben wie die Codegenerierung. Natürlich musste ich diese Behauptungen auf die Probe stellen.
Ich habe eine Reihe von Codierungstests an verschiedenen AIs durchgeführt, und Sie können das auch. Besuchen Sie einfach Wie ich die Programmierfähigkeiten eines AI-Chatbots teste - und Sie können es auch, um alle Details zu erfahren. Lassen Sie uns untersuchen, wie Claude 3.5 Sonnet in meinen Standardtests abgeschnitten hat und wie es im Vergleich zu anderen AIs wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und ChatGPT abschneidet.
1. Schreiben eines WordPress-Plugins
Anfangs zeigte Claude 3.5 Sonnet vielversprechende Ergebnisse. Die Benutzeroberfläche, die es generierte, war beeindruckend, mit einem sauberen Layout, das Datenfelder erstmals nebeneinander platzierte unter den AIs, die ich getestet habe.
Screenshot von David Gewirtz/ZDNET
Was meine Aufmerksamkeit erregte, war, wie Claude die Codegenerierung anging. Anstelle der üblichen separaten Dateien für PHP, JavaScript und CSS lieferte es eine einzige PHP-Datei, die die JavaScript- und CSS-Dateien automatisch in das Verzeichnis des Plugins generierte. Obwohl dies ein innovativer Ansatz war, ist er riskant, da er davon abhängt, dass die Betriebssystemeinstellungen es einem Plugin erlauben, in seinen eigenen Ordner zu schreiben – ein schwerwiegender Sicherheitsmangel in einer Produktionsumgebung.
Leider funktionierte das Plugin trotz der kreativen Lösung nicht. Der Button "Randomize" tat nichts, was angesichts des anfänglichen Versprechens enttäuschend war.
Hier sind die aggregierten Ergebnisse im Vergleich zu früheren Tests:
- Claude 3.5 Sonnet: Oberfläche: gut, Funktionalität: fehlgeschlagen
- ChatGPT GPT-4o: Oberfläche: gut, Funktionalität: gut
- Microsoft Copilot: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta AI: Oberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta Code Llama: Kompletter Fehlschlag
- Google Gemini Advanced: Oberfläche: gut, Funktionalität: fehlgeschlagen
- ChatGPT 4: Oberfläche: gut, Funktionalität: gut
- ChatGPT 3.5: Oberfläche: gut, Funktionalität: gut
2. Umschreiben einer String-Funktion
Dieser Test bewertet, wie gut eine AI Code umschreiben kann, um spezifische Anforderungen zu erfüllen, in diesem Fall für Dollar- und Cent-Umrechnungen. Claude 3.5 Sonnet hat gute Arbeit geleistet, führende Nullen zu entfernen, Ganzzahlen und Dezimalzahlen korrekt zu behandeln und negative Werte zu verhindern. Es gab auch intelligent "0" für unerwartete Eingaben zurück, was hilft, Fehler zu vermeiden.
Es versäumte jedoch, Eingaben wie ".50" für 50 Cent zuzulassen, was eine Anforderung war. Das bedeutet, dass der überarbeitete Code in einem realen Szenario nicht funktionieren würde, weshalb ich ihn als Fehlschlag bewerten muss.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Fehlgeschlagen
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Erfolgreich
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
3. Finden eines lästigen Fehlers
Dieser Test ist knifflig, da er erfordert, dass die AI einen subtilen Fehler findet, der spezifisches WordPress-Wissen erfordert. Es ist ein Fehler, den ich selbst übersehen habe und den ich zunächst an ChatGPT wenden musste, um ihn zu lösen.
Claude 3.5 Sonnet fand und behebte nicht nur den Fehler, sondern bemerkte auch einen während des Veröffentlichungsprozesses eingeführten Fehler, den ich dann korrigierte. Dies war das erste Mal unter den AIs, die ich seit der Veröffentlichung des vollständigen Testsets getestet habe.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Erfolgreich
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen. Spektakulär. Begeistert. Emojisch.
- Meta AI: Erfolgreich
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
Bis jetzt hat Claude 3.5 Sonnet zwei von drei Tests nicht bestanden. Mal sehen, wie es beim letzten abschneidet.
4. Schreiben eines Skripts
Dieser Test prüft das Wissen der AI über spezialisierte Programmierwerkzeuge wie AppleScript und Keyboard Maestro. Während ChatGPT in beiden Bereichen Kompetenz gezeigt hatte, schnitt Claude 3.5 Sonnet nicht so gut ab. Es schrieb ein AppleScript, das versuchte, mit Chrome zu interagieren, ignorierte jedoch die Keyboard Maestro-Komponente vollständig.
Darüber hinaus enthielt das AppleScript einen Syntaxfehler. Beim Versuch, die Übereinstimmung unabhängig von der Groß-/Kleinschreibung zu gestalten, generierte Claude eine Zeile, die einen Laufzeitfehler verursachen würde:
Die "contains"-Anweisung ist bereits unabhängig von der Groß-/Kleinschreibung, und die Phrase "ignoring case" war fehlplatziert, was zu einem Fehler führte.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonnet: Fehlgeschlagen
- ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Erfolgreich
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Fehlgeschlagen
Gesamtergebnisse
So hat Claude 3.5 Sonnet insgesamt im Vergleich zu anderen AIs abgeschnitten:
- Claude 3.5 Sonnet: 1 von 4 erfolgreich
- ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit einer seltsamen Doppelwahlantwort
- Microsoft Copilot: 0 von 4 erfolgreich
- Meta AI: 1 von 4 erfolgreich
- Meta Code Llama: 1 von 4 erfolgreich
- Google Gemini Advanced: 1 von 4 erfolgreich
- ChatGPT 4: 4 von 4 erfolgreich
- ChatGPT 3.5: 3 von 4 erfolgreich
Ich war ziemlich enttäuscht von Claude 3.5 Sonnet. Anthropic versprach, es sei für die Programmierung geeignet, aber es erfüllte diese Erwartungen nicht. Es ist nicht so, dass es nicht programmieren kann; es kann nur nicht korrekt programmieren. Ich hoffe weiterhin, eine AI zu finden, die ChatGPT übertrifft, besonders da diese Modelle in Programmierumgebungen integriert werden. Aber fürs Erste bleibe ich bei ChatGPT für Programmierhilfe, und ich empfehle Ihnen, dasselbe zu tun.
Haben Sie eine AI zum Programmieren verwendet? Welche, und wie lief es? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.
Folgen Sie meinen Projektaktualisierungen in den sozialen Medien, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @DavidGewirtz, auf Facebook unter Facebook.com/DavidGewirtz, auf Instagram unter Instagram.com/DavidGewirtz und auf YouTube unter YouTube.com/DavidGewirtzTV.
OpenAI stärkt die Sicherheit von ChatGPT durch eine Partnerschaft mit Yubico für einen verbesserten Kontoschutz
OpenAI unternimmt wichtige Schritte zur Verbesserung der Kontosicherheit.Am Donnerstag stellte das Unternehmen „Advanced Account Security“ vor, eine Reihe optionaler Schutzmaßnahmen für ChatGPT-Nutzer
OpenAI bringt ChatGPT für die private Finanzplanung mit Bankkonto-Integration auf den Markt
Am Freitag stellte OpenAI eine neue Reihe von Tools für die persönliche Finanzverwaltung in der Vorschaufunktion für ChatGPT-Pro-Abonnenten in den USA vor. Mit dieser Funktion können Nutzer ihre Finan
OpenAI verkündet einen echten Durchbruch bei der Lösung eines jahrzehntealten mathematischen Rätsels
OpenAI behauptet, sein neuestes Schlussfolgerungsmodell habe einen originellen mathematischen Beweis erbracht, der eine berühmte ungelöste Vermutung aus der Geometrie widerlegt, die erstmals 1946 von
Intéressant de voir Claude 3.5 Sonnet avoir du mal avec le codage créatif. Est-ce qu'on attend trop des IA actuellement ? Après tout, l'intelligence humaine reste unique 🤷♂️
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !











