Option
Heim
Nachricht
Ich habe GPT -4O durch meine Codierungstests gestellt und sie hat sie geschnitten - bis auf ein seltsames Ergebnis

Ich habe GPT -4O durch meine Codierungstests gestellt und sie hat sie geschnitten - bis auf ein seltsames Ergebnis

17. April 2025
63

Ich habe GPT -4O durch meine Codierungstests gestellt und sie hat sie geschnitten - bis auf ein seltsames Ergebnis

Wenn du die Tech-Welt verfolgst, ist dir wahrscheinlich bewusst, dass OpenAI gerade sein neuestes großes Sprachmodell, GPT-4o, veröffentlicht hat, wobei das „o“ für „omni“ steht. Dieses neue Modell verspricht Vielseitigkeit bei Text, Grafiken und Sprache, und ich konnte es kaum erwarten, es mit meinem Standardset an Codierungstests auf die Probe zu stellen. Diese Tests wurden gegen eine Vielzahl von KI-Modellen durchgeführt und haben einige ziemlich faszinierende Ergebnisse geliefert. Bleib bis zum Ende dabei, denn es gibt eine Wendung, die du nicht verpassen willst.

Wenn du daran interessiert bist, deine eigenen Experimente durchzuführen, schau dir diese Anleitung an: Wie ich die Codierungsfähigkeit eines KI-Chatbots teste – und du kannst es auch. Sie beschreibt alle Tests, die ich verwende, zusammen mit detaillierten Erklärungen, wie sie funktionieren und worauf man bei den Ergebnissen achten sollte.

Jetzt lass uns in die Ergebnisse der einzelnen Tests eintauchen und sehen, wie GPT-4o im Vergleich zu früheren Konkurrenten wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und den früheren Versionen von ChatGPT abschneidet.

1. Erstellen eines WordPress-Plugins

Hier ist ein Einblick in die Benutzeroberfläche von GPT-4o:

Interessanterweise hat GPT-4o sich die Freiheit genommen, eine JavaScript-Datei einzufügen, die die Zeilenanzahl in beiden Feldern dynamisch aktualisiert. Obwohl die Eingabeaufforderung JavaScript nicht ausdrücklich ausgeschlossen hat, war dieser kreative Ansatz unerwartet und effektiv. Das JavaScript verbessert auch die Funktionalität des Randomize-Buttons, indem es mehrere Ergebnissätze ohne vollständiges Neuladen der Seite ermöglicht.

Die Zeilen wurden korrekt angeordnet, und Duplikate wurden gemäß den Spezifikationen angemessen getrennt. Es ist ein solides Stück Code, mit nur einem kleinen Kritikpunkt: Der Randomize-Button wurde nicht auf eine eigene Zeile gesetzt, obwohl ich das in der Eingabeaufforderung nicht spezifiziert hatte, also keine Punktabzüge dafür.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

  • ChatGPT GPT-4o: Benutzeroberfläche: gut, Funktionalität: gut
  • Microsoft Copilot: Benutzeroberfläche: ausreichend, Funktionalität: fehlgeschlagen
  • Meta AI: Benutzeroberfläche: ausreichend, Funktionalität: fehlgeschlagen
  • Meta Code Llama: Komplettes Versagen
  • Google Gemini Advanced: Benutzeroberfläche: gut, Funktionalität: fehlgeschlagen
  • ChatGPT 4: Benutzeroberfläche: gut, Funktionalität: gut
  • ChatGPT 3.5: Benutzeroberfläche: gut, Funktionalität: gut

2. Umschreiben einer Zeichenfolgenfunktion

Dieser Test bewertet die Fähigkeit des Modells, mit Umrechnungen von Dollar und Cent umzugehen. GPT-4o hat den Code erfolgreich umgeschrieben, um Eingaben abzulehnen, die Probleme mit nachfolgenden Zeilen verursachen könnten, und sichergestellt, dass nur gültige Dollar- und Cent-Werte verarbeitet werden.

Ich war ein wenig enttäuscht, dass es nicht automatisch eine führende Null zu Werten wie .75 hinzufügte, um sie in 0.75 umzuwandeln. Da ich diese Funktion jedoch nicht ausdrücklich angefordert habe, ist es kein Fehler der KI. Es ist eine Erinnerung daran, dass man selbst bei funktionsfähigem Code die Eingabeaufforderung verfeinern muss, um genau das zu bekommen, was man braucht.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

  • ChatGPT GPT-4o: Erfolgreich
  • Microsoft Copilot: Fehlgeschlagen
  • Meta AI: Fehlgeschlagen
  • Meta Code Llama: Erfolgreich
  • Google Gemini Advanced: Fehlgeschlagen
  • ChatGPT 4: Erfolgreich
  • ChatGPT 3.5: Erfolgreich

3. Finden eines lästigen Fehlers

Dieser Test ist faszinierend, weil die Lösung nicht sofort offensichtlich ist. Ich war zunächst selbst bei diesem Fehler während meines eigenen Codierens ratlos, also wandte ich mich an das erste ChatGPT-Modell um Hilfe. Es fand den Fehler sofort, was damals überwältigend war.

Im Gegensatz dazu übersahen drei der anderen getesteten LLMs die Irreführung in diesem Problem. Die Fehlermeldung deutet auf einen Teil des Codes hin, aber das eigentliche Problem liegt woanders und erfordert tiefes Wissen über das WordPress-Framework, um es zu identifizieren.

Glücklicherweise hat GPT-4o das Problem korrekt identifiziert und die Lösung genau beschrieben.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

  • ChatGPT GPT-4o: Erfolgreich
  • Microsoft Copilot: Fehlgeschlagen. Spektakulär. Enthusiastisch. Emojimäßig.
  • Meta AI: Erfolgreich
  • Meta Code Llama: Fehlgeschlagen
  • Google Gemini Advanced: Fehlgeschlagen
  • ChatGPT 4: Erfolgreich
  • ChatGPT 3.5: Erfolgreich

Bis jetzt hat GPT-4o in allen drei Tests bestanden. Mal sehen, wie es im letzten Test abschneidet.

4. Schreiben eines Skripts

Als Antwort auf diesen Test hat GPT-4o tatsächlich mehr geliefert, als ich verlangt habe. Der Test beinhaltet die Verwendung des obskuren Mac-Scripting-Tools Keyboard Maestro, Apples AppleScript und Chrome-Scripting-Verhalten. Keyboard Maestro ist übrigens für mich ein echter Gamechanger, da es Macs aufgrund seiner Fähigkeit, das Betriebssystem und Anwendungen umzuprogrammieren, zu meiner bevorzugten Wahl für Produktivität macht.

Um zu bestehen, muss die KI eine Lösung korrekt skizzieren, die eine Kombination aus Keyboard Maestro-Code, AppleScript und Chrome-API-Funktionalität verwendet.

Überraschenderweise hat GPT-4o mir zwei verschiedene Versionen geliefert:

Beide Versionen interagierten korrekt mit Keyboard Maestro, unterschieden sich jedoch in der Handhabung der Groß-/Kleinschreibung. Die linke Version war falsch, da AppleScript „as lowercase“ nicht unterstützt. Die rechte Version, die „contains“ verwendete und groß-/kleinschreibungsunabhängig war, funktionierte einwandfrei.

Ich gebe GPT-4o einen vorsichtigen Pass, da es funktionsfähigen Code geliefert hat. Allerdings hat das Zurückgeben von zwei Optionen, von denen eine falsch war, zusätzliche Arbeit verursacht, um die richtige auszuwählen. Das hätte genauso zeitaufwändig sein können, wie den Code selbst zu schreiben.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

  • ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
  • Microsoft Copilot: Fehlgeschlagen
  • Meta AI: Fehlgeschlagen
  • Meta Code Llama: Fehlgeschlagen
  • Google Gemini Advanced: Erfolgreich
  • ChatGPT 4: Erfolgreich
  • ChatGPT 3.5: Fehlgeschlagen

Gesamtergebnisse

So haben alle Modelle in den vier Tests abgeschnitten:

  • ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit dieser seltsamen Doppelantwort
  • Microsoft Copilot: 0 von 4 erfolgreich
  • Meta AI: 1 von 4 erfolgreich
  • Meta Code Llama: 1 von 4 erfolgreich
  • Google Gemini Advanced: 1 von 4 erfolgreich
  • ChatGPT 4: 4 von 4 erfolgreich
  • ChatGPT 3.5: 3 von 4 erfolgreich

Bis jetzt war ChatGPT meine erste Wahl für Programmierhilfe. Es hat immer geliefert (außer wenn es das nicht tat). Die anderen KIs blieben in meinen Tests meist hinter den Erwartungen zurück. Aber GPT-4o hat mich mit dieser letzten Doppelantwort überrascht. Es ließ mich fragen, was in diesem Modell vor sich geht, dass es zu einem solchen Stolperer kommen konnte.

Trotzdem bleibt GPT-4o in meinen Codierungstests der Spitzenreiter, also werde ich es wahrscheinlich weiter nutzen und mich mit seinen Eigenheiten vertrauter machen. Alternativ könnte ich zu GPT-3.5 oder GPT-4 in ChatGPT Plus zurückkehren. Bleibt dran; wenn ChatGPT das nächste Mal sein Modell aktualisiert, werde ich diese Tests definitiv erneut durchführen, um zu sehen, ob es durchgehend die richtige Antwort bei allen vier Tests liefern kann.

Hast du schon einmal mit einem dieser KI-Modelle programmiert? Was sind deine Erfahrungen? Lass es uns in den Kommentaren unten wissen.

Verwandter Artikel
Trumps 500-Milliarden-Dollar-Stargate-Projekt zur Führung der globalen KI-Innovation Trumps 500-Milliarden-Dollar-Stargate-Projekt zur Führung der globalen KI-Innovation In einer Ära des rasanten technologischen Fortschritts hat sich der Wettlauf um die Vorherrschaft in der künstlichen Intelligenz (KI) als entscheidende geopolitische und wirtschaftliche Herausforderun
AI-Musik-Cover: Ultimativer Leitfaden zur Erstellung einzigartiger Songs AI-Musik-Cover: Ultimativer Leitfaden zur Erstellung einzigartiger Songs Künstliche Intelligenz (AI) hat die Musikproduktion revolutioniert und innovative Wege eingeführt, um Songs neu zu interpretieren. AI-Musik-Cover ermöglichen es Nutzern, einzigartige Versionen populär
Top 10 Tools zur Verbesserung der Entwicklererfahrung im Jahr 2025 Top 10 Tools zur Verbesserung der Entwicklererfahrung im Jahr 2025 Die Entwicklererfahrung (DevEx) geht über bloße Terminologie hinaus. Da Technologie-Stacks immer komplexer werden, Remote-Teams zum Standard werden und die kontinuierliche Auslieferung beschleunigt wi
Kommentare (20)
0/200
JonathanAllen
JonathanAllen 26. April 2025 13:46:22 MESZ

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 25. April 2025 20:21:39 MESZ

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 24. April 2025 13:41:59 MESZ

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 23. April 2025 07:12:28 MESZ

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

NicholasClark
NicholasClark 23. April 2025 04:12:49 MESZ

GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅

DavidThomas
DavidThomas 22. April 2025 19:04:24 MESZ

GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔

Zurück nach oben
OR