Heim Nachricht Claude 3.5 Sonett kämpft kreativ in KI -Codierungstests, die von Chatgpt dominiert werden

Claude 3.5 Sonett kämpft kreativ in KI -Codierungstests, die von Chatgpt dominiert werden

3. Mai 2025
FrankWilliams
2

Testen der Fähigkeiten von Anthropics neuem Claude 3.5 -Sonett

Letzte Woche erhielt ich eine E -Mail von Anthropic, in der die Veröffentlichung von Claude 3.5 Sonnet angekündigt wurde. Sie rühmten sich, dass sie "die Branchenleiste für Intelligenz erhöht, Wettbewerbermodelle übertroffen und Claude 3 Opus auf einer Vielzahl von Bewertungen übertreffen". Sie behaupteten auch, es sei perfekt für komplexe Aufgaben wie Codegenerierung. Natürlich musste ich diese Ansprüche auf den Test stellen.

Ich habe eine Reihe von Codierungstests auf verschiedenen AIs durchgeführt, und Sie können es auch. Gehen Sie einfach zu dem Testen, wie ich die Codierungsfähigkeit eines KI -Chatbots teste - und Sie können auch alle Details finden. Lassen Sie uns darüber eingehen, wie Claude 3.5 Sonnet gegen meine Standardtests durchgeführt wurde, und sehen Sie, wie es sich gegen andere AIs wie Microsoft Copilot, Meta AI, Meta Code Lama, Google Gemini Advanced und Chatgpt anstapiert.

1. Schreiben eines WordPress -Plugins

Anfangs zeigte Claude 3.5 Sonett viel Versprechen. Die generierte Benutzeroberfläche war beeindruckend, mit einem sauberen Layout, in dem die Datenfelder zum ersten Mal unter den AIs, die ich getestet habe, nebeneinander platzierte.

Screenshot der WordPress -Plugin -Schnittstelle erstellt von Claude 3.5 Sonnet Screenshot von David Gewirtz/Zdnet

Was meine Aufmerksamkeit auf sich zog, war, wie Claude der Codegenerierung näherte. Anstelle der üblichen separaten Dateien für PHP, JavaScript und CSS lieferte es eine einzelne PHP-Datei, die das JavaScript- und CSS-Dateien automatisch generierte. Dies war zwar ein innovativer Ansatz, aber es ist riskant, da es von den OS -Einstellungen abhängt, sodass ein Plugin in einen eigenen Ordner schreiben kann - ein Hauptsicherheitsfehler in einer Produktionsumgebung.

Leider funktionierte das Plugin trotz der kreativen Lösung nicht. Die Schaltfläche "Randomize" tat nichts, was angesichts ihres ersten Versprechens enttäuschend war.

Hier sind die aggregierten Ergebnisse im Vergleich zu früheren Tests:

  • Claude 3.5 Sonett: Schnittstelle: Gut, Funktionalität: Fehler
  • CHATGPT GPT-4O: Schnittstelle: Gut, Funktionalität: gut
  • Microsoft Copilot: Schnittstelle: Angemessene Funktionalität: Fail
  • Meta AI: Schnittstelle: Angemessene Funktionalität: Fail
  • Metacode Lama: Vollständiger Fehler
  • Google Gemini Erweitert: Schnittstelle: Gut, Funktionalität: Fail
  • Chatgpt 4: Schnittstelle: Gut, Funktionalität: Gut
  • Chatgpt 3.5: Schnittstelle: Gut, Funktionalität: Gut

2. Schreiben Sie eine String -Funktion um

In diesem Test wird bewertet, wie gut eine KI den Code umschreiben kann, um den bestimmten Bedürfnissen in diesem Fall für Dollar- und Cent -Conversions zu erfüllen. Claude 3.5 Sonett hat gute Arbeit geleistet, um führende Nullen zu entfernen, Ganzzahlen und Dezimalstellen korrekt zu behandeln und negative Werte zu verhindern. Es wurde auch intelligent "0" für unerwartete Eingaben zurückgegeben, was bei der Vermeidung von Fehlern hilft.

Es konnte jedoch keine Einträge wie ".50" für 50 Cent zulassen, was eine Anforderung darstellte. Dies bedeutet, dass der überarbeitete Code in einem realen Szenario nicht funktioniert, also muss ich ihn als Fehler markieren.

Hier sind die aggregierten Ergebnisse:

  • Claude 3.5 Sonett: Fehlgeschlagen
  • CHATGPT GPT-4O: Erfolg
  • Microsoft Copilot: Fehlgeschlagen
  • Meta AI: versagt
  • Metacode Lama: erfolgreich
  • Google Gemini Advanced: Fehlgeschlagen
  • CHATGPT 4: Erfolg
  • CHATGPT 3.5: Erfolg

3.. Einen nervigen Fehler finden

Dieser Test ist schwierig, da die KI einen subtilen Fehler finden muss, der spezifisches WordPress -Wissen benötigt. Es ist ein Fehler, den ich selbst vermisst habe und mich an Chatgpt wenden musste, um zunächst zu lösen.

Claude 3.5 Sonett fand und fixierte nicht nur den Fehler, sondern bemerkte auch einen Fehler, der während des Veröffentlichungsprozesses eingeführt wurde, den ich dann korrigierte. Dies war eine erste unter den AIs, die ich seit der Veröffentlichung des gesamten Tests getestet habe.

Hier sind die aggregierten Ergebnisse:

  • Claude 3.5 Sonett: erfolgreich
  • CHATGPT GPT-4O: Erfolg
  • Microsoft Copilot: Fehlgeschlagen. Spektakulär. Begeistert. Emojisch.
  • Meta AI: Erfolg
  • Metacode Lama: Fehlgeschlagen
  • Google Gemini Advanced: Fehlgeschlagen
  • CHATGPT 4: Erfolg
  • CHATGPT 3.5: Erfolg

Bisher hat Claude 3.5 Sonett zwei von drei Tests nicht bestanden. Mal sehen, wie es mit dem letzten funktioniert.

4. Schreiben eines Skripts

Dieser Test überprüft das Wissen der KI über spezielle Programmierwerkzeuge wie AppleScript und Tastatur Maestro. Während Chatgpt in beiden Kenntnissen gezeigt hatte, ging Claude 3.5 Sonett nicht so gut ab. Es schrieb ein AppleScript, das versuchte, mit Chrom zu interagieren, aber die Tastatur -Maestro -Komponente vollständig ignorierte.

Darüber hinaus enthielt das AppleScript einen Syntaxfehler. Bei dem Versuch, die von Match-Fall unempfindlich zu machen, erzeugte Claude eine Zeile, die einen Laufzeitfehler verursachen würde:

Wenn der Titel von Thetab in Eingabe ignoriert wird, dann ignorieren Sie den Fall

Die Anweisung "enthält" ist bereits von Fall unempfindlich, und die Phrase "Ignoring Fall" wurde falsch platziert, was zu einem Fehler führte.

Hier sind die aggregierten Ergebnisse:

  • Claude 3.5 Sonett: Fehlgeschlagen
  • CHATGPT GPT-4O: erfolgreich, aber mit Reservierungen
  • Microsoft Copilot: Fehlgeschlagen
  • Meta AI: versagt
  • Metacode Lama: Fehlgeschlagen
  • Google Gemini Fortgeschrittene: erfolgreich war erfolgreich
  • CHATGPT 4: Erfolg
  • CHATGPT 3.5: fehlgeschlagen

Gesamtergebnisse

So hat Claude 3.5 Sonett im Vergleich zu anderen AIs insgesamt ausgeführt:

  • Claude 3.5 Sonett: 1 von 4 war erfolgreich
  • CHATGPT GPT-4O: 4 von 4 war erfolgreich, aber mit einer seltsamen Doppel-Wahl-Antwort
  • Microsoft Copilot: 0 von 4 war erfolgreich
  • Meta AI: 1 von 4 war erfolgreich
  • Metacode Lama: 1 von 4 war erfolgreich
  • Google Gemini Fortgeschrittene: 1 von 4 war erfolgreich
  • Chatgpt 4: 4 von 4 war erfolgreich
  • Chatgpt 3.5: 3 von 4 war erfolgreich

Ich war ziemlich enttäuscht von Claude 3.5 Sonett. Anthropic versprach, dass es für das Programmieren geeignet war, aber es hat diese Erwartungen nicht erfüllt. Es ist nicht so, dass es nicht programmieren kann. Es kann einfach nicht richtig programmieren. Ich hoffe immer, eine KI zu finden, die Chatgpt übertreffen kann, insbesondere wenn diese Modelle in Programmierumgebungen integriert werden. Aber im Moment halte ich mich bei Chatgpt für Programmierhilfe und empfehle Ihnen, dasselbe zu tun.

Haben Sie eine KI für das Programmieren verwendet? Welches und wie ist es gelaufen? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.

Folgen Sie meinen Projekt -Updates in den sozialen Medien, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @Davidgewirtz, auf Facebook unter Facebook.com/davidgewirtz , auf Instagram unter Instagram.com/davidgewirtz und auf YouTube unter youtube.com/davidgewirtvtv .

Verwandter Artikel
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks Creating a resume that perfectly summarizes your career is challenging enough, but job applications often require a cover letter as well. This letter is your chance to dive into the specifics of why you're interested in the company, what qualifies you for the position, and why you're the best candid
Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner Ever felt the urge to escape the daily grind but found yourself stumped on where to go? Let's dive into a cool way to plan your next getaway without even stepping outside your door. By harnessing the power of ChatGPT and Google Earth, you can embark on a virtual vacation that's both exciting and rel
Kommentare (0)
0/200
Back to Top
OR