Option
Heim
Nachricht
Ich habe GPT -4O durch meine Codierungstests gestellt und sie hat sie geschnitten - bis auf ein seltsames Ergebnis

Ich habe GPT -4O durch meine Codierungstests gestellt und sie hat sie geschnitten - bis auf ein seltsames Ergebnis

17. April 2025
141

Ich habe GPT -4O durch meine Codierungstests gestellt und sie hat sie geschnitten - bis auf ein seltsames Ergebnis

Wenn du die Tech-Welt verfolgst, ist dir wahrscheinlich bewusst, dass OpenAI gerade sein neuestes großes Sprachmodell, GPT-4o, veröffentlicht hat, wobei das „o“ für „omni“ steht. Dieses neue Modell verspricht Vielseitigkeit bei Text, Grafiken und Sprache, und ich konnte es kaum erwarten, es mit meinem Standardset an Codierungstests auf die Probe zu stellen. Diese Tests wurden gegen eine Vielzahl von KI-Modellen durchgeführt und haben einige ziemlich faszinierende Ergebnisse geliefert. Bleib bis zum Ende dabei, denn es gibt eine Wendung, die du nicht verpassen willst.

Wenn du daran interessiert bist, deine eigenen Experimente durchzuführen, schau dir diese Anleitung an: Wie ich die Codierungsfähigkeit eines KI-Chatbots teste – und du kannst es auch. Sie beschreibt alle Tests, die ich verwende, zusammen mit detaillierten Erklärungen, wie sie funktionieren und worauf man bei den Ergebnissen achten sollte.

Jetzt lass uns in die Ergebnisse der einzelnen Tests eintauchen und sehen, wie GPT-4o im Vergleich zu früheren Konkurrenten wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und den früheren Versionen von ChatGPT abschneidet.

1. Erstellen eines WordPress-Plugins

Hier ist ein Einblick in die Benutzeroberfläche von GPT-4o:

Interessanterweise hat GPT-4o sich die Freiheit genommen, eine JavaScript-Datei einzufügen, die die Zeilenanzahl in beiden Feldern dynamisch aktualisiert. Obwohl die Eingabeaufforderung JavaScript nicht ausdrücklich ausgeschlossen hat, war dieser kreative Ansatz unerwartet und effektiv. Das JavaScript verbessert auch die Funktionalität des Randomize-Buttons, indem es mehrere Ergebnissätze ohne vollständiges Neuladen der Seite ermöglicht.

Die Zeilen wurden korrekt angeordnet, und Duplikate wurden gemäß den Spezifikationen angemessen getrennt. Es ist ein solides Stück Code, mit nur einem kleinen Kritikpunkt: Der Randomize-Button wurde nicht auf eine eigene Zeile gesetzt, obwohl ich das in der Eingabeaufforderung nicht spezifiziert hatte, also keine Punktabzüge dafür.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

  • ChatGPT GPT-4o: Benutzeroberfläche: gut, Funktionalität: gut
  • Microsoft Copilot: Benutzeroberfläche: ausreichend, Funktionalität: fehlgeschlagen
  • Meta AI: Benutzeroberfläche: ausreichend, Funktionalität: fehlgeschlagen
  • Meta Code Llama: Komplettes Versagen
  • Google Gemini Advanced: Benutzeroberfläche: gut, Funktionalität: fehlgeschlagen
  • ChatGPT 4: Benutzeroberfläche: gut, Funktionalität: gut
  • ChatGPT 3.5: Benutzeroberfläche: gut, Funktionalität: gut

2. Umschreiben einer Zeichenfolgenfunktion

Dieser Test bewertet die Fähigkeit des Modells, mit Umrechnungen von Dollar und Cent umzugehen. GPT-4o hat den Code erfolgreich umgeschrieben, um Eingaben abzulehnen, die Probleme mit nachfolgenden Zeilen verursachen könnten, und sichergestellt, dass nur gültige Dollar- und Cent-Werte verarbeitet werden.

Ich war ein wenig enttäuscht, dass es nicht automatisch eine führende Null zu Werten wie .75 hinzufügte, um sie in 0.75 umzuwandeln. Da ich diese Funktion jedoch nicht ausdrücklich angefordert habe, ist es kein Fehler der KI. Es ist eine Erinnerung daran, dass man selbst bei funktionsfähigem Code die Eingabeaufforderung verfeinern muss, um genau das zu bekommen, was man braucht.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

  • ChatGPT GPT-4o: Erfolgreich
  • Microsoft Copilot: Fehlgeschlagen
  • Meta AI: Fehlgeschlagen
  • Meta Code Llama: Erfolgreich
  • Google Gemini Advanced: Fehlgeschlagen
  • ChatGPT 4: Erfolgreich
  • ChatGPT 3.5: Erfolgreich

3. Finden eines lästigen Fehlers

Dieser Test ist faszinierend, weil die Lösung nicht sofort offensichtlich ist. Ich war zunächst selbst bei diesem Fehler während meines eigenen Codierens ratlos, also wandte ich mich an das erste ChatGPT-Modell um Hilfe. Es fand den Fehler sofort, was damals überwältigend war.

Im Gegensatz dazu übersahen drei der anderen getesteten LLMs die Irreführung in diesem Problem. Die Fehlermeldung deutet auf einen Teil des Codes hin, aber das eigentliche Problem liegt woanders und erfordert tiefes Wissen über das WordPress-Framework, um es zu identifizieren.

Glücklicherweise hat GPT-4o das Problem korrekt identifiziert und die Lösung genau beschrieben.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

  • ChatGPT GPT-4o: Erfolgreich
  • Microsoft Copilot: Fehlgeschlagen. Spektakulär. Enthusiastisch. Emojimäßig.
  • Meta AI: Erfolgreich
  • Meta Code Llama: Fehlgeschlagen
  • Google Gemini Advanced: Fehlgeschlagen
  • ChatGPT 4: Erfolgreich
  • ChatGPT 3.5: Erfolgreich

Bis jetzt hat GPT-4o in allen drei Tests bestanden. Mal sehen, wie es im letzten Test abschneidet.

4. Schreiben eines Skripts

Als Antwort auf diesen Test hat GPT-4o tatsächlich mehr geliefert, als ich verlangt habe. Der Test beinhaltet die Verwendung des obskuren Mac-Scripting-Tools Keyboard Maestro, Apples AppleScript und Chrome-Scripting-Verhalten. Keyboard Maestro ist übrigens für mich ein echter Gamechanger, da es Macs aufgrund seiner Fähigkeit, das Betriebssystem und Anwendungen umzuprogrammieren, zu meiner bevorzugten Wahl für Produktivität macht.

Um zu bestehen, muss die KI eine Lösung korrekt skizzieren, die eine Kombination aus Keyboard Maestro-Code, AppleScript und Chrome-API-Funktionalität verwendet.

Überraschenderweise hat GPT-4o mir zwei verschiedene Versionen geliefert:

Beide Versionen interagierten korrekt mit Keyboard Maestro, unterschieden sich jedoch in der Handhabung der Groß-/Kleinschreibung. Die linke Version war falsch, da AppleScript „as lowercase“ nicht unterstützt. Die rechte Version, die „contains“ verwendete und groß-/kleinschreibungsunabhängig war, funktionierte einwandfrei.

Ich gebe GPT-4o einen vorsichtigen Pass, da es funktionsfähigen Code geliefert hat. Allerdings hat das Zurückgeben von zwei Optionen, von denen eine falsch war, zusätzliche Arbeit verursacht, um die richtige auszuwählen. Das hätte genauso zeitaufwändig sein können, wie den Code selbst zu schreiben.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

  • ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
  • Microsoft Copilot: Fehlgeschlagen
  • Meta AI: Fehlgeschlagen
  • Meta Code Llama: Fehlgeschlagen
  • Google Gemini Advanced: Erfolgreich
  • ChatGPT 4: Erfolgreich
  • ChatGPT 3.5: Fehlgeschlagen

Gesamtergebnisse

So haben alle Modelle in den vier Tests abgeschnitten:

  • ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit dieser seltsamen Doppelantwort
  • Microsoft Copilot: 0 von 4 erfolgreich
  • Meta AI: 1 von 4 erfolgreich
  • Meta Code Llama: 1 von 4 erfolgreich
  • Google Gemini Advanced: 1 von 4 erfolgreich
  • ChatGPT 4: 4 von 4 erfolgreich
  • ChatGPT 3.5: 3 von 4 erfolgreich

Bis jetzt war ChatGPT meine erste Wahl für Programmierhilfe. Es hat immer geliefert (außer wenn es das nicht tat). Die anderen KIs blieben in meinen Tests meist hinter den Erwartungen zurück. Aber GPT-4o hat mich mit dieser letzten Doppelantwort überrascht. Es ließ mich fragen, was in diesem Modell vor sich geht, dass es zu einem solchen Stolperer kommen konnte.

Trotzdem bleibt GPT-4o in meinen Codierungstests der Spitzenreiter, also werde ich es wahrscheinlich weiter nutzen und mich mit seinen Eigenheiten vertrauter machen. Alternativ könnte ich zu GPT-3.5 oder GPT-4 in ChatGPT Plus zurückkehren. Bleibt dran; wenn ChatGPT das nächste Mal sein Modell aktualisiert, werde ich diese Tests definitiv erneut durchführen, um zu sehen, ob es durchgehend die richtige Antwort bei allen vier Tests liefern kann.

Hast du schon einmal mit einem dieser KI-Modelle programmiert? Was sind deine Erfahrungen? Lass es uns in den Kommentaren unten wissen.

Verwandter Artikel
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Google stellt Gemini Notebooks vor und vereint NotebookLM mit einer persönlichen Wissensdatenbank Google stellt Gemini Notebooks vor und vereint NotebookLM mit einer persönlichen Wissensdatenbank Google hat kürzlich die Funktion „Notebooks“ für Gemini eingeführt, die Nutzern helfen soll, komplexe Projekte durch die Erstellung einer personalisierten Wissensdatenbank zu verwalten. Dieses Update
Luma AI stellt das autoregressive Modell „Uni-1“ vor, das gleichzeitig Text und Pixel generiert Luma AI stellt das autoregressive Modell „Uni-1“ vor, das gleichzeitig Text und Pixel generiert Luma Labs hat am 23. März sein Bildgenerierungsmodell Uni-1 vorgestellt – das erste öffentlich zugängliche Modell des Unternehmens, das auf der Unified-Intelligence-Architektur basiert. Auf der offizi
Empfehlungen zu verwandten Spezialthemen
Produktivität KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern
KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools
xix.ai
Chatbot Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf
Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools
xix.ai
Bildung und Lernen Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.
Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools
xix.ai
Chatbot Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit
Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools
xix.ai
Code Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.
Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.

Entdecken Sie die neuesten, hochbewerteten KI-Tools von 2026 für den automatisierten Unit-Testing-Prozess. Unsere sorgfältig ausgewählten Lösungen bieten leistungsstarke und bahnbrechende Funktionen, um sofort Jest-, PyTest- und JUnit-Testfälle zu generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von tatsächlichen Tests sowie wöchentlich aktualisierten Rankings auf XIX.AI. Entfalten Sie Ihr KI-Potenzial und steigern Sie noch heute die Produktivität Ihrer Entwicklungstätigkeit.

10 Tools
xix.ai
Datenanalyse Die besten KI-Tools zur Datenvisualisierung: Interaktive BI-Dashboards automatisch aus Rohdaten generieren
Die besten KI-Tools zur Datenvisualisierung: Interaktive BI-Dashboards automatisch aus Rohdaten generieren

Entdecken Sie bei XIX.AI die besten KI-Tools zur Datenvisualisierung für 2026. Unsere sorgfältig zusammengestellte Auswahl der besten Tools hilft Ihnen dabei, leistungsstarke, interaktive BI-Dashboards sofort aus Rohdaten automatisch zu erstellen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Schöpfen Sie noch heute das Potenzial Ihrer Daten aus.

10 Tools
xix.ai
Kommentare (22)
0/500
RoyMartínez
RoyMartínez 1. Mai 2026 04:01:09 MESZ

GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.

PaulYoung
PaulYoung 15. März 2026 01:00:58 MEZ

Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔

JonathanAllen
JonathanAllen 26. April 2025 13:46:22 MESZ

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 25. April 2025 20:21:39 MESZ

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 24. April 2025 13:41:59 MESZ

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 23. April 2025 07:12:28 MESZ

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

OR