Claude 3.5 Sonett kämpft kreativ in KI -Codierungstests, die von Chatgpt dominiert werden
Testen der Fähigkeiten von Anthropics neuem Claude 3.5 -Sonett
Letzte Woche erhielt ich eine E -Mail von Anthropic, in der die Veröffentlichung von Claude 3.5 Sonnet angekündigt wurde. Sie rühmten sich, dass sie "die Branchenleiste für Intelligenz erhöht, Wettbewerbermodelle übertroffen und Claude 3 Opus auf einer Vielzahl von Bewertungen übertreffen". Sie behaupteten auch, es sei perfekt für komplexe Aufgaben wie Codegenerierung. Natürlich musste ich diese Ansprüche auf den Test stellen.
Ich habe eine Reihe von Codierungstests auf verschiedenen AIs durchgeführt, und Sie können es auch. Gehen Sie einfach zu dem Testen, wie ich die Codierungsfähigkeit eines KI -Chatbots teste - und Sie können auch alle Details finden. Lassen Sie uns darüber eingehen, wie Claude 3.5 Sonnet gegen meine Standardtests durchgeführt wurde, und sehen Sie, wie es sich gegen andere AIs wie Microsoft Copilot, Meta AI, Meta Code Lama, Google Gemini Advanced und Chatgpt anstapiert.
1. Schreiben eines WordPress -Plugins
Anfangs zeigte Claude 3.5 Sonett viel Versprechen. Die generierte Benutzeroberfläche war beeindruckend, mit einem sauberen Layout, in dem die Datenfelder zum ersten Mal unter den AIs, die ich getestet habe, nebeneinander platzierte.
Screenshot von David Gewirtz/Zdnet
Was meine Aufmerksamkeit auf sich zog, war, wie Claude der Codegenerierung näherte. Anstelle der üblichen separaten Dateien für PHP, JavaScript und CSS lieferte es eine einzelne PHP-Datei, die das JavaScript- und CSS-Dateien automatisch generierte. Dies war zwar ein innovativer Ansatz, aber es ist riskant, da es von den OS -Einstellungen abhängt, sodass ein Plugin in einen eigenen Ordner schreiben kann - ein Hauptsicherheitsfehler in einer Produktionsumgebung.
Leider funktionierte das Plugin trotz der kreativen Lösung nicht. Die Schaltfläche "Randomize" tat nichts, was angesichts ihres ersten Versprechens enttäuschend war.
Hier sind die aggregierten Ergebnisse im Vergleich zu früheren Tests:
- Claude 3.5 Sonett: Schnittstelle: Gut, Funktionalität: Fehler
- CHATGPT GPT-4O: Schnittstelle: Gut, Funktionalität: gut
- Microsoft Copilot: Schnittstelle: Angemessene Funktionalität: Fail
- Meta AI: Schnittstelle: Angemessene Funktionalität: Fail
- Metacode Lama: Vollständiger Fehler
- Google Gemini Erweitert: Schnittstelle: Gut, Funktionalität: Fail
- Chatgpt 4: Schnittstelle: Gut, Funktionalität: Gut
- Chatgpt 3.5: Schnittstelle: Gut, Funktionalität: Gut
2. Schreiben Sie eine String -Funktion um
In diesem Test wird bewertet, wie gut eine KI den Code umschreiben kann, um den bestimmten Bedürfnissen in diesem Fall für Dollar- und Cent -Conversions zu erfüllen. Claude 3.5 Sonett hat gute Arbeit geleistet, um führende Nullen zu entfernen, Ganzzahlen und Dezimalstellen korrekt zu behandeln und negative Werte zu verhindern. Es wurde auch intelligent "0" für unerwartete Eingaben zurückgegeben, was bei der Vermeidung von Fehlern hilft.
Es konnte jedoch keine Einträge wie ".50" für 50 Cent zulassen, was eine Anforderung darstellte. Dies bedeutet, dass der überarbeitete Code in einem realen Szenario nicht funktioniert, also muss ich ihn als Fehler markieren.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonett: Fehlgeschlagen
- CHATGPT GPT-4O: Erfolg
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: versagt
- Metacode Lama: erfolgreich
- Google Gemini Advanced: Fehlgeschlagen
- CHATGPT 4: Erfolg
- CHATGPT 3.5: Erfolg
3.. Einen nervigen Fehler finden
Dieser Test ist schwierig, da die KI einen subtilen Fehler finden muss, der spezifisches WordPress -Wissen benötigt. Es ist ein Fehler, den ich selbst vermisst habe und mich an Chatgpt wenden musste, um zunächst zu lösen.
Claude 3.5 Sonett fand und fixierte nicht nur den Fehler, sondern bemerkte auch einen Fehler, der während des Veröffentlichungsprozesses eingeführt wurde, den ich dann korrigierte. Dies war eine erste unter den AIs, die ich seit der Veröffentlichung des gesamten Tests getestet habe.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonett: erfolgreich
- CHATGPT GPT-4O: Erfolg
- Microsoft Copilot: Fehlgeschlagen. Spektakulär. Begeistert. Emojisch.
- Meta AI: Erfolg
- Metacode Lama: Fehlgeschlagen
- Google Gemini Advanced: Fehlgeschlagen
- CHATGPT 4: Erfolg
- CHATGPT 3.5: Erfolg
Bisher hat Claude 3.5 Sonett zwei von drei Tests nicht bestanden. Mal sehen, wie es mit dem letzten funktioniert.
4. Schreiben eines Skripts
Dieser Test überprüft das Wissen der KI über spezielle Programmierwerkzeuge wie AppleScript und Tastatur Maestro. Während Chatgpt in beiden Kenntnissen gezeigt hatte, ging Claude 3.5 Sonett nicht so gut ab. Es schrieb ein AppleScript, das versuchte, mit Chrom zu interagieren, aber die Tastatur -Maestro -Komponente vollständig ignorierte.
Darüber hinaus enthielt das AppleScript einen Syntaxfehler. Bei dem Versuch, die von Match-Fall unempfindlich zu machen, erzeugte Claude eine Zeile, die einen Laufzeitfehler verursachen würde:
Wenn der Titel von Thetab in Eingabe ignoriert wird, dann ignorieren Sie den Fall
Die Anweisung "enthält" ist bereits von Fall unempfindlich, und die Phrase "Ignoring Fall" wurde falsch platziert, was zu einem Fehler führte.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonett: Fehlgeschlagen
- CHATGPT GPT-4O: erfolgreich, aber mit Reservierungen
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: versagt
- Metacode Lama: Fehlgeschlagen
- Google Gemini Fortgeschrittene: erfolgreich war erfolgreich
- CHATGPT 4: Erfolg
- CHATGPT 3.5: fehlgeschlagen
Gesamtergebnisse
So hat Claude 3.5 Sonett im Vergleich zu anderen AIs insgesamt ausgeführt:
- Claude 3.5 Sonett: 1 von 4 war erfolgreich
- CHATGPT GPT-4O: 4 von 4 war erfolgreich, aber mit einer seltsamen Doppel-Wahl-Antwort
- Microsoft Copilot: 0 von 4 war erfolgreich
- Meta AI: 1 von 4 war erfolgreich
- Metacode Lama: 1 von 4 war erfolgreich
- Google Gemini Fortgeschrittene: 1 von 4 war erfolgreich
- Chatgpt 4: 4 von 4 war erfolgreich
- Chatgpt 3.5: 3 von 4 war erfolgreich
Ich war ziemlich enttäuscht von Claude 3.5 Sonett. Anthropic versprach, dass es für das Programmieren geeignet war, aber es hat diese Erwartungen nicht erfüllt. Es ist nicht so, dass es nicht programmieren kann. Es kann einfach nicht richtig programmieren. Ich hoffe immer, eine KI zu finden, die Chatgpt übertreffen kann, insbesondere wenn diese Modelle in Programmierumgebungen integriert werden. Aber im Moment halte ich mich bei Chatgpt für Programmierhilfe und empfehle Ihnen, dasselbe zu tun.
Haben Sie eine KI für das Programmieren verwendet? Welches und wie ist es gelaufen? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.
Folgen Sie meinen Projekt -Updates in den sozialen Medien, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @Davidgewirtz, auf Facebook unter Facebook.com/davidgewirtz , auf Instagram unter Instagram.com/davidgewirtz und auf YouTube unter youtube.com/davidgewirtvtv .
Verwandter Artikel
OpenAI verpflichtet sich zu Korrekturen nach übermäßig zustimmenden Antworten von ChatGPT
OpenAI plant, den Aktualisierungsprozess seines KI-Modells für ChatGPT zu überarbeiten, nachdem ein Update übermäßig schmeichlerische Antworten verursacht hat, was zu weit verbreitetem Nutzerfeedback
OpenAI stellt fortschrittliche KI-Argumentationsmodelle vor, o3 und o4-mini
OpenAI hat am Mittwoch o3 und o4-mini vorgestellt, neue KI-Modelle, die entwickelt wurden, um Fragen vor der Beantwortung zu pausieren und zu analysieren.OpenAI preist o3 als sein bisher ausgeklügelts
Überarbeiten Sie Ihr Zuhause: KI-gesteuerte Dekoration mit Pinterest & ChatGPT
Mühen Sie sich mit unzähligen Optionen beim Umgestalten Ihres Zuhauses ab? Kombinieren Sie künstliche Intelligenz mit der visuellen Inspiration von Pinterest, um Ihren idealen Raum zu schaffen. Dieser
Kommentare (10)
0/200
ScottMitchell
5. Mai 2025 15:17:31 MESZ
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
0
JamesMiller
5. Mai 2025 10:59:50 MESZ
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
0
StevenNelson
5. Mai 2025 09:23:24 MESZ
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
0
JoseDavis
5. Mai 2025 08:46:04 MESZ
Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !
0
HaroldLopez
5. Mai 2025 06:06:54 MESZ
클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!
0
AveryThomas
5. Mai 2025 00:30:08 MESZ
Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!
0
Testen der Fähigkeiten von Anthropics neuem Claude 3.5 -Sonett
Letzte Woche erhielt ich eine E -Mail von Anthropic, in der die Veröffentlichung von Claude 3.5 Sonnet angekündigt wurde. Sie rühmten sich, dass sie "die Branchenleiste für Intelligenz erhöht, Wettbewerbermodelle übertroffen und Claude 3 Opus auf einer Vielzahl von Bewertungen übertreffen". Sie behaupteten auch, es sei perfekt für komplexe Aufgaben wie Codegenerierung. Natürlich musste ich diese Ansprüche auf den Test stellen.
Ich habe eine Reihe von Codierungstests auf verschiedenen AIs durchgeführt, und Sie können es auch. Gehen Sie einfach zu dem Testen, wie ich die Codierungsfähigkeit eines KI -Chatbots teste - und Sie können auch alle Details finden. Lassen Sie uns darüber eingehen, wie Claude 3.5 Sonnet gegen meine Standardtests durchgeführt wurde, und sehen Sie, wie es sich gegen andere AIs wie Microsoft Copilot, Meta AI, Meta Code Lama, Google Gemini Advanced und Chatgpt anstapiert.
1. Schreiben eines WordPress -Plugins
Anfangs zeigte Claude 3.5 Sonett viel Versprechen. Die generierte Benutzeroberfläche war beeindruckend, mit einem sauberen Layout, in dem die Datenfelder zum ersten Mal unter den AIs, die ich getestet habe, nebeneinander platzierte.
Screenshot von David Gewirtz/Zdnet
Was meine Aufmerksamkeit auf sich zog, war, wie Claude der Codegenerierung näherte. Anstelle der üblichen separaten Dateien für PHP, JavaScript und CSS lieferte es eine einzelne PHP-Datei, die das JavaScript- und CSS-Dateien automatisch generierte. Dies war zwar ein innovativer Ansatz, aber es ist riskant, da es von den OS -Einstellungen abhängt, sodass ein Plugin in einen eigenen Ordner schreiben kann - ein Hauptsicherheitsfehler in einer Produktionsumgebung.
Leider funktionierte das Plugin trotz der kreativen Lösung nicht. Die Schaltfläche "Randomize" tat nichts, was angesichts ihres ersten Versprechens enttäuschend war.
Hier sind die aggregierten Ergebnisse im Vergleich zu früheren Tests:
- Claude 3.5 Sonett: Schnittstelle: Gut, Funktionalität: Fehler
- CHATGPT GPT-4O: Schnittstelle: Gut, Funktionalität: gut
- Microsoft Copilot: Schnittstelle: Angemessene Funktionalität: Fail
- Meta AI: Schnittstelle: Angemessene Funktionalität: Fail
- Metacode Lama: Vollständiger Fehler
- Google Gemini Erweitert: Schnittstelle: Gut, Funktionalität: Fail
- Chatgpt 4: Schnittstelle: Gut, Funktionalität: Gut
- Chatgpt 3.5: Schnittstelle: Gut, Funktionalität: Gut
2. Schreiben Sie eine String -Funktion um
In diesem Test wird bewertet, wie gut eine KI den Code umschreiben kann, um den bestimmten Bedürfnissen in diesem Fall für Dollar- und Cent -Conversions zu erfüllen. Claude 3.5 Sonett hat gute Arbeit geleistet, um führende Nullen zu entfernen, Ganzzahlen und Dezimalstellen korrekt zu behandeln und negative Werte zu verhindern. Es wurde auch intelligent "0" für unerwartete Eingaben zurückgegeben, was bei der Vermeidung von Fehlern hilft.
Es konnte jedoch keine Einträge wie ".50" für 50 Cent zulassen, was eine Anforderung darstellte. Dies bedeutet, dass der überarbeitete Code in einem realen Szenario nicht funktioniert, also muss ich ihn als Fehler markieren.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonett: Fehlgeschlagen
- CHATGPT GPT-4O: Erfolg
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: versagt
- Metacode Lama: erfolgreich
- Google Gemini Advanced: Fehlgeschlagen
- CHATGPT 4: Erfolg
- CHATGPT 3.5: Erfolg
3.. Einen nervigen Fehler finden
Dieser Test ist schwierig, da die KI einen subtilen Fehler finden muss, der spezifisches WordPress -Wissen benötigt. Es ist ein Fehler, den ich selbst vermisst habe und mich an Chatgpt wenden musste, um zunächst zu lösen.
Claude 3.5 Sonett fand und fixierte nicht nur den Fehler, sondern bemerkte auch einen Fehler, der während des Veröffentlichungsprozesses eingeführt wurde, den ich dann korrigierte. Dies war eine erste unter den AIs, die ich seit der Veröffentlichung des gesamten Tests getestet habe.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonett: erfolgreich
- CHATGPT GPT-4O: Erfolg
- Microsoft Copilot: Fehlgeschlagen. Spektakulär. Begeistert. Emojisch.
- Meta AI: Erfolg
- Metacode Lama: Fehlgeschlagen
- Google Gemini Advanced: Fehlgeschlagen
- CHATGPT 4: Erfolg
- CHATGPT 3.5: Erfolg
Bisher hat Claude 3.5 Sonett zwei von drei Tests nicht bestanden. Mal sehen, wie es mit dem letzten funktioniert.
4. Schreiben eines Skripts
Dieser Test überprüft das Wissen der KI über spezielle Programmierwerkzeuge wie AppleScript und Tastatur Maestro. Während Chatgpt in beiden Kenntnissen gezeigt hatte, ging Claude 3.5 Sonett nicht so gut ab. Es schrieb ein AppleScript, das versuchte, mit Chrom zu interagieren, aber die Tastatur -Maestro -Komponente vollständig ignorierte.
Darüber hinaus enthielt das AppleScript einen Syntaxfehler. Bei dem Versuch, die von Match-Fall unempfindlich zu machen, erzeugte Claude eine Zeile, die einen Laufzeitfehler verursachen würde:
Wenn der Titel von Thetab in Eingabe ignoriert wird, dann ignorieren Sie den Fall
Die Anweisung "enthält" ist bereits von Fall unempfindlich, und die Phrase "Ignoring Fall" wurde falsch platziert, was zu einem Fehler führte.
Hier sind die aggregierten Ergebnisse:
- Claude 3.5 Sonett: Fehlgeschlagen
- CHATGPT GPT-4O: erfolgreich, aber mit Reservierungen
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: versagt
- Metacode Lama: Fehlgeschlagen
- Google Gemini Fortgeschrittene: erfolgreich war erfolgreich
- CHATGPT 4: Erfolg
- CHATGPT 3.5: fehlgeschlagen
Gesamtergebnisse
So hat Claude 3.5 Sonett im Vergleich zu anderen AIs insgesamt ausgeführt:
- Claude 3.5 Sonett: 1 von 4 war erfolgreich
- CHATGPT GPT-4O: 4 von 4 war erfolgreich, aber mit einer seltsamen Doppel-Wahl-Antwort
- Microsoft Copilot: 0 von 4 war erfolgreich
- Meta AI: 1 von 4 war erfolgreich
- Metacode Lama: 1 von 4 war erfolgreich
- Google Gemini Fortgeschrittene: 1 von 4 war erfolgreich
- Chatgpt 4: 4 von 4 war erfolgreich
- Chatgpt 3.5: 3 von 4 war erfolgreich
Ich war ziemlich enttäuscht von Claude 3.5 Sonett. Anthropic versprach, dass es für das Programmieren geeignet war, aber es hat diese Erwartungen nicht erfüllt. Es ist nicht so, dass es nicht programmieren kann. Es kann einfach nicht richtig programmieren. Ich hoffe immer, eine KI zu finden, die Chatgpt übertreffen kann, insbesondere wenn diese Modelle in Programmierumgebungen integriert werden. Aber im Moment halte ich mich bei Chatgpt für Programmierhilfe und empfehle Ihnen, dasselbe zu tun.
Haben Sie eine KI für das Programmieren verwendet? Welches und wie ist es gelaufen? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.
Folgen Sie meinen Projekt -Updates in den sozialen Medien, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @Davidgewirtz, auf Facebook unter Facebook.com/davidgewirtz , auf Instagram unter Instagram.com/davidgewirtz und auf YouTube unter youtube.com/davidgewirtvtv .




Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!




Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!




クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?




Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !




클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!




Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!












