Ich habe GPT -4O durch meine Codierungstests gestellt und sie hat sie geschnitten - bis auf ein seltsames Ergebnis

Heim

Nachricht

17. April 2025

TimothyGonzález

141

Ich habe GPT -4O durch meine Codierungstests gestellt und sie hat sie geschnitten - bis auf ein seltsames Ergebnis

Wenn du die Tech-Welt verfolgst, ist dir wahrscheinlich bewusst, dass OpenAI gerade sein neuestes großes Sprachmodell, GPT-4o, veröffentlicht hat, wobei das „o“ für „omni“ steht. Dieses neue Modell verspricht Vielseitigkeit bei Text, Grafiken und Sprache, und ich konnte es kaum erwarten, es mit meinem Standardset an Codierungstests auf die Probe zu stellen. Diese Tests wurden gegen eine Vielzahl von KI-Modellen durchgeführt und haben einige ziemlich faszinierende Ergebnisse geliefert. Bleib bis zum Ende dabei, denn es gibt eine Wendung, die du nicht verpassen willst.

Wenn du daran interessiert bist, deine eigenen Experimente durchzuführen, schau dir diese Anleitung an: Wie ich die Codierungsfähigkeit eines KI-Chatbots teste – und du kannst es auch. Sie beschreibt alle Tests, die ich verwende, zusammen mit detaillierten Erklärungen, wie sie funktionieren und worauf man bei den Ergebnissen achten sollte.

Jetzt lass uns in die Ergebnisse der einzelnen Tests eintauchen und sehen, wie GPT-4o im Vergleich zu früheren Konkurrenten wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und den früheren Versionen von ChatGPT abschneidet.

1. Erstellen eines WordPress-Plugins

Hier ist ein Einblick in die Benutzeroberfläche von GPT-4o:

Interessanterweise hat GPT-4o sich die Freiheit genommen, eine JavaScript-Datei einzufügen, die die Zeilenanzahl in beiden Feldern dynamisch aktualisiert. Obwohl die Eingabeaufforderung JavaScript nicht ausdrücklich ausgeschlossen hat, war dieser kreative Ansatz unerwartet und effektiv. Das JavaScript verbessert auch die Funktionalität des Randomize-Buttons, indem es mehrere Ergebnissätze ohne vollständiges Neuladen der Seite ermöglicht.

Die Zeilen wurden korrekt angeordnet, und Duplikate wurden gemäß den Spezifikationen angemessen getrennt. Es ist ein solides Stück Code, mit nur einem kleinen Kritikpunkt: Der Randomize-Button wurde nicht auf eine eigene Zeile gesetzt, obwohl ich das in der Eingabeaufforderung nicht spezifiziert hatte, also keine Punktabzüge dafür.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

ChatGPT GPT-4o: Benutzeroberfläche: gut, Funktionalität: gut
Microsoft Copilot: Benutzeroberfläche: ausreichend, Funktionalität: fehlgeschlagen
Meta AI: Benutzeroberfläche: ausreichend, Funktionalität: fehlgeschlagen
Meta Code Llama: Komplettes Versagen
Google Gemini Advanced: Benutzeroberfläche: gut, Funktionalität: fehlgeschlagen
ChatGPT 4: Benutzeroberfläche: gut, Funktionalität: gut
ChatGPT 3.5: Benutzeroberfläche: gut, Funktionalität: gut

2. Umschreiben einer Zeichenfolgenfunktion

Dieser Test bewertet die Fähigkeit des Modells, mit Umrechnungen von Dollar und Cent umzugehen. GPT-4o hat den Code erfolgreich umgeschrieben, um Eingaben abzulehnen, die Probleme mit nachfolgenden Zeilen verursachen könnten, und sichergestellt, dass nur gültige Dollar- und Cent-Werte verarbeitet werden.

Ich war ein wenig enttäuscht, dass es nicht automatisch eine führende Null zu Werten wie .75 hinzufügte, um sie in 0.75 umzuwandeln. Da ich diese Funktion jedoch nicht ausdrücklich angefordert habe, ist es kein Fehler der KI. Es ist eine Erinnerung daran, dass man selbst bei funktionsfähigem Code die Eingabeaufforderung verfeinern muss, um genau das zu bekommen, was man braucht.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

ChatGPT GPT-4o: Erfolgreich
Microsoft Copilot: Fehlgeschlagen
Meta AI: Fehlgeschlagen
Meta Code Llama: Erfolgreich
Google Gemini Advanced: Fehlgeschlagen
ChatGPT 4: Erfolgreich
ChatGPT 3.5: Erfolgreich

3. Finden eines lästigen Fehlers

Dieser Test ist faszinierend, weil die Lösung nicht sofort offensichtlich ist. Ich war zunächst selbst bei diesem Fehler während meines eigenen Codierens ratlos, also wandte ich mich an das erste ChatGPT-Modell um Hilfe. Es fand den Fehler sofort, was damals überwältigend war.

Im Gegensatz dazu übersahen drei der anderen getesteten LLMs die Irreführung in diesem Problem. Die Fehlermeldung deutet auf einen Teil des Codes hin, aber das eigentliche Problem liegt woanders und erfordert tiefes Wissen über das WordPress-Framework, um es zu identifizieren.

Glücklicherweise hat GPT-4o das Problem korrekt identifiziert und die Lösung genau beschrieben.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

ChatGPT GPT-4o: Erfolgreich
Microsoft Copilot: Fehlgeschlagen. Spektakulär. Enthusiastisch. Emojimäßig.
Meta AI: Erfolgreich
Meta Code Llama: Fehlgeschlagen
Google Gemini Advanced: Fehlgeschlagen
ChatGPT 4: Erfolgreich
ChatGPT 3.5: Erfolgreich

Bis jetzt hat GPT-4o in allen drei Tests bestanden. Mal sehen, wie es im letzten Test abschneidet.

4. Schreiben eines Skripts

Als Antwort auf diesen Test hat GPT-4o tatsächlich mehr geliefert, als ich verlangt habe. Der Test beinhaltet die Verwendung des obskuren Mac-Scripting-Tools Keyboard Maestro, Apples AppleScript und Chrome-Scripting-Verhalten. Keyboard Maestro ist übrigens für mich ein echter Gamechanger, da es Macs aufgrund seiner Fähigkeit, das Betriebssystem und Anwendungen umzuprogrammieren, zu meiner bevorzugten Wahl für Produktivität macht.

Um zu bestehen, muss die KI eine Lösung korrekt skizzieren, die eine Kombination aus Keyboard Maestro-Code, AppleScript und Chrome-API-Funktionalität verwendet.

Überraschenderweise hat GPT-4o mir zwei verschiedene Versionen geliefert:

Beide Versionen interagierten korrekt mit Keyboard Maestro, unterschieden sich jedoch in der Handhabung der Groß-/Kleinschreibung. Die linke Version war falsch, da AppleScript „as lowercase“ nicht unterstützt. Die rechte Version, die „contains“ verwendete und groß-/kleinschreibungsunabhängig war, funktionierte einwandfrei.

Ich gebe GPT-4o einen vorsichtigen Pass, da es funktionsfähigen Code geliefert hat. Allerdings hat das Zurückgeben von zwei Optionen, von denen eine falsch war, zusätzliche Arbeit verursacht, um die richtige auszuwählen. Das hätte genauso zeitaufwändig sein können, wie den Code selbst zu schreiben.

Hier sind die Gesamtergebnisse für diesen und frühere Tests:

ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
Microsoft Copilot: Fehlgeschlagen
Meta AI: Fehlgeschlagen
Meta Code Llama: Fehlgeschlagen
Google Gemini Advanced: Erfolgreich
ChatGPT 4: Erfolgreich
ChatGPT 3.5: Fehlgeschlagen

Gesamtergebnisse

So haben alle Modelle in den vier Tests abgeschnitten:

ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit dieser seltsamen Doppelantwort
Microsoft Copilot: 0 von 4 erfolgreich
Meta AI: 1 von 4 erfolgreich
Meta Code Llama: 1 von 4 erfolgreich
Google Gemini Advanced: 1 von 4 erfolgreich
ChatGPT 4: 4 von 4 erfolgreich
ChatGPT 3.5: 3 von 4 erfolgreich

Bis jetzt war ChatGPT meine erste Wahl für Programmierhilfe. Es hat immer geliefert (außer wenn es das nicht tat). Die anderen KIs blieben in meinen Tests meist hinter den Erwartungen zurück. Aber GPT-4o hat mich mit dieser letzten Doppelantwort überrascht. Es ließ mich fragen, was in diesem Modell vor sich geht, dass es zu einem solchen Stolperer kommen konnte.

Trotzdem bleibt GPT-4o in meinen Codierungstests der Spitzenreiter, also werde ich es wahrscheinlich weiter nutzen und mich mit seinen Eigenheiten vertrauter machen. Alternativ könnte ich zu GPT-3.5 oder GPT-4 in ChatGPT Plus zurückkehren. Bleibt dran; wenn ChatGPT das nächste Mal sein Modell aktualisiert, werde ich diese Tests definitiv erneut durchführen, um zu sehen, ob es durchgehend die richtige Antwort bei allen vier Tests liefern kann.

Hast du schon einmal mit einem dieser KI-Modelle programmiert? Was sind deine Erfahrungen? Lass es uns in den Kommentaren unten wissen.

Verwandter Artikel

OpenAI ändert heimlich seine Satzung, um die Entlassung von Altman zu erschweren Nach dem putschähnlichen Vorfall im Jahr 2023 hat OpenAI den Schutz für CEO Sam Altman durch eine Aktualisierung der Unternehmenssatzung weiter gefestigt. Kürzlich veröffentlichte Gerichtsdokumente ze

Meta AI beantwortet nun Nachrichten von Käufern auf dem Facebook Marketplace Facebook Marketplace führt neue Meta-KI-Funktionen ein, darunter automatische Antworten auf Käuferanfragen, wie das Unternehmen am Donnerstag bekannt gab. Die Plattform nutzt KI außerdem, um die Erste

OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir

Empfehlungen zu verwandten Spezialthemen

Produktivität

KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools

xix.ai

Chatbot

Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools

xix.ai

Bildung und Lernen

Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools

xix.ai

Chatbot

Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools

xix.ai

Code

Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.

Entdecken Sie die neuesten, hochbewerteten KI-Tools von 2026 für den automatisierten Unit-Testing-Prozess. Unsere sorgfältig ausgewählten Lösungen bieten leistungsstarke und bahnbrechende Funktionen, um sofort Jest-, PyTest- und JUnit-Testfälle zu generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von tatsächlichen Tests sowie wöchentlich aktualisierten Rankings auf XIX.AI. Entfalten Sie Ihr KI-Potenzial und steigern Sie noch heute die Produktivität Ihrer Entwicklungstätigkeit.

10 Tools

xix.ai

Datenanalyse

Die besten KI-Tools zur Datenvisualisierung: Interaktive BI-Dashboards automatisch aus Rohdaten generieren

Entdecken Sie bei XIX.AI die besten KI-Tools zur Datenvisualisierung für 2026. Unsere sorgfältig zusammengestellte Auswahl der besten Tools hilft Ihnen dabei, leistungsstarke, interaktive BI-Dashboards sofort aus Rohdaten automatisch zu erstellen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Schöpfen Sie noch heute das Potenzial Ihrer Daten aus.

10 Tools

xix.ai

Kommentare (22)

0/500

Bitte melden Sie sich zuerst an

RoyMartínez

1. Mai 2026 04:01:09 MESZ

GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.

PaulYoung

15. März 2026 01:00:58 MEZ

Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔

JonathanAllen

26. April 2025 13:46:22 MESZ

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris

25. April 2025 20:21:39 MESZ

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález

24. April 2025 13:41:59 MESZ

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました！しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに！🤔

JustinAnderson

23. April 2025 07:12:28 MESZ

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

Top -Nachrichten

AI Builder und Power Automate Revolutionieren die Dokumentenzusammenfassung KI -Hosts des Notebooklm -Podcasts, das jetzt für Interviews verfügbar ist China stellt nationale Standards für humanoide Roboter und verkörperte Intelligenz vor Ramp-Daten zeigen, dass die Akzeptanz von KI in Unternehmen sinkt Bing Image Creator Tutorial: Anleitung zur KI-Kunstgenerierung Lernen Sie, AI-Musik mit Ihrer Stimme zu erstellen: ein Schritt-für-Schritt-Suno-Tutorial iMyFone MagicMic: Echtzeit-AI-Stimmerveränderer Bewertung und Tutorial Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen DeepSeek V4 revolutioniert multimodale KI Embodied Intelligence stellt ersten Branchenstandard zur Eindämmung unkontrollierten Wachstums vor

Mehr

Vorgestellt