Heim
Ich habe GPT -4O durch meine Codierungstests gestellt und sie hat sie geschnitten - bis auf ein seltsames Ergebnis

Wenn du die Tech-Welt verfolgst, ist dir wahrscheinlich bewusst, dass OpenAI gerade sein neuestes großes Sprachmodell, GPT-4o, veröffentlicht hat, wobei das „o“ für „omni“ steht. Dieses neue Modell verspricht Vielseitigkeit bei Text, Grafiken und Sprache, und ich konnte es kaum erwarten, es mit meinem Standardset an Codierungstests auf die Probe zu stellen. Diese Tests wurden gegen eine Vielzahl von KI-Modellen durchgeführt und haben einige ziemlich faszinierende Ergebnisse geliefert. Bleib bis zum Ende dabei, denn es gibt eine Wendung, die du nicht verpassen willst.
Wenn du daran interessiert bist, deine eigenen Experimente durchzuführen, schau dir diese Anleitung an: Wie ich die Codierungsfähigkeit eines KI-Chatbots teste – und du kannst es auch. Sie beschreibt alle Tests, die ich verwende, zusammen mit detaillierten Erklärungen, wie sie funktionieren und worauf man bei den Ergebnissen achten sollte.
Jetzt lass uns in die Ergebnisse der einzelnen Tests eintauchen und sehen, wie GPT-4o im Vergleich zu früheren Konkurrenten wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und den früheren Versionen von ChatGPT abschneidet.
1. Erstellen eines WordPress-Plugins
Hier ist ein Einblick in die Benutzeroberfläche von GPT-4o:
Interessanterweise hat GPT-4o sich die Freiheit genommen, eine JavaScript-Datei einzufügen, die die Zeilenanzahl in beiden Feldern dynamisch aktualisiert. Obwohl die Eingabeaufforderung JavaScript nicht ausdrücklich ausgeschlossen hat, war dieser kreative Ansatz unerwartet und effektiv. Das JavaScript verbessert auch die Funktionalität des Randomize-Buttons, indem es mehrere Ergebnissätze ohne vollständiges Neuladen der Seite ermöglicht.
Die Zeilen wurden korrekt angeordnet, und Duplikate wurden gemäß den Spezifikationen angemessen getrennt. Es ist ein solides Stück Code, mit nur einem kleinen Kritikpunkt: Der Randomize-Button wurde nicht auf eine eigene Zeile gesetzt, obwohl ich das in der Eingabeaufforderung nicht spezifiziert hatte, also keine Punktabzüge dafür.
Hier sind die Gesamtergebnisse für diesen und frühere Tests:
- ChatGPT GPT-4o: Benutzeroberfläche: gut, Funktionalität: gut
- Microsoft Copilot: Benutzeroberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta AI: Benutzeroberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta Code Llama: Komplettes Versagen
- Google Gemini Advanced: Benutzeroberfläche: gut, Funktionalität: fehlgeschlagen
- ChatGPT 4: Benutzeroberfläche: gut, Funktionalität: gut
- ChatGPT 3.5: Benutzeroberfläche: gut, Funktionalität: gut
2. Umschreiben einer Zeichenfolgenfunktion
Dieser Test bewertet die Fähigkeit des Modells, mit Umrechnungen von Dollar und Cent umzugehen. GPT-4o hat den Code erfolgreich umgeschrieben, um Eingaben abzulehnen, die Probleme mit nachfolgenden Zeilen verursachen könnten, und sichergestellt, dass nur gültige Dollar- und Cent-Werte verarbeitet werden.
Ich war ein wenig enttäuscht, dass es nicht automatisch eine führende Null zu Werten wie .75 hinzufügte, um sie in 0.75 umzuwandeln. Da ich diese Funktion jedoch nicht ausdrücklich angefordert habe, ist es kein Fehler der KI. Es ist eine Erinnerung daran, dass man selbst bei funktionsfähigem Code die Eingabeaufforderung verfeinern muss, um genau das zu bekommen, was man braucht.
Hier sind die Gesamtergebnisse für diesen und frühere Tests:
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Erfolgreich
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
3. Finden eines lästigen Fehlers
Dieser Test ist faszinierend, weil die Lösung nicht sofort offensichtlich ist. Ich war zunächst selbst bei diesem Fehler während meines eigenen Codierens ratlos, also wandte ich mich an das erste ChatGPT-Modell um Hilfe. Es fand den Fehler sofort, was damals überwältigend war.
Im Gegensatz dazu übersahen drei der anderen getesteten LLMs die Irreführung in diesem Problem. Die Fehlermeldung deutet auf einen Teil des Codes hin, aber das eigentliche Problem liegt woanders und erfordert tiefes Wissen über das WordPress-Framework, um es zu identifizieren.
Glücklicherweise hat GPT-4o das Problem korrekt identifiziert und die Lösung genau beschrieben.
Hier sind die Gesamtergebnisse für diesen und frühere Tests:
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen. Spektakulär. Enthusiastisch. Emojimäßig.
- Meta AI: Erfolgreich
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
Bis jetzt hat GPT-4o in allen drei Tests bestanden. Mal sehen, wie es im letzten Test abschneidet.
4. Schreiben eines Skripts
Als Antwort auf diesen Test hat GPT-4o tatsächlich mehr geliefert, als ich verlangt habe. Der Test beinhaltet die Verwendung des obskuren Mac-Scripting-Tools Keyboard Maestro, Apples AppleScript und Chrome-Scripting-Verhalten. Keyboard Maestro ist übrigens für mich ein echter Gamechanger, da es Macs aufgrund seiner Fähigkeit, das Betriebssystem und Anwendungen umzuprogrammieren, zu meiner bevorzugten Wahl für Produktivität macht.
Um zu bestehen, muss die KI eine Lösung korrekt skizzieren, die eine Kombination aus Keyboard Maestro-Code, AppleScript und Chrome-API-Funktionalität verwendet.
Überraschenderweise hat GPT-4o mir zwei verschiedene Versionen geliefert:
Beide Versionen interagierten korrekt mit Keyboard Maestro, unterschieden sich jedoch in der Handhabung der Groß-/Kleinschreibung. Die linke Version war falsch, da AppleScript „as lowercase“ nicht unterstützt. Die rechte Version, die „contains“ verwendete und groß-/kleinschreibungsunabhängig war, funktionierte einwandfrei.
Ich gebe GPT-4o einen vorsichtigen Pass, da es funktionsfähigen Code geliefert hat. Allerdings hat das Zurückgeben von zwei Optionen, von denen eine falsch war, zusätzliche Arbeit verursacht, um die richtige auszuwählen. Das hätte genauso zeitaufwändig sein können, wie den Code selbst zu schreiben.
Hier sind die Gesamtergebnisse für diesen und frühere Tests:
- ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Erfolgreich
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Fehlgeschlagen
Gesamtergebnisse
So haben alle Modelle in den vier Tests abgeschnitten:
- ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit dieser seltsamen Doppelantwort
- Microsoft Copilot: 0 von 4 erfolgreich
- Meta AI: 1 von 4 erfolgreich
- Meta Code Llama: 1 von 4 erfolgreich
- Google Gemini Advanced: 1 von 4 erfolgreich
- ChatGPT 4: 4 von 4 erfolgreich
- ChatGPT 3.5: 3 von 4 erfolgreich
Bis jetzt war ChatGPT meine erste Wahl für Programmierhilfe. Es hat immer geliefert (außer wenn es das nicht tat). Die anderen KIs blieben in meinen Tests meist hinter den Erwartungen zurück. Aber GPT-4o hat mich mit dieser letzten Doppelantwort überrascht. Es ließ mich fragen, was in diesem Modell vor sich geht, dass es zu einem solchen Stolperer kommen konnte.
Trotzdem bleibt GPT-4o in meinen Codierungstests der Spitzenreiter, also werde ich es wahrscheinlich weiter nutzen und mich mit seinen Eigenheiten vertrauter machen. Alternativ könnte ich zu GPT-3.5 oder GPT-4 in ChatGPT Plus zurückkehren. Bleibt dran; wenn ChatGPT das nächste Mal sein Modell aktualisiert, werde ich diese Tests definitiv erneut durchführen, um zu sehen, ob es durchgehend die richtige Antwort bei allen vier Tests liefern kann.
Hast du schon einmal mit einem dieser KI-Modelle programmiert? Was sind deine Erfahrungen? Lass es uns in den Kommentaren unten wissen.
Verwandter Artikel
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Google stellt Gemini Notebooks vor und vereint NotebookLM mit einer persönlichen Wissensdatenbank
Google hat kürzlich die Funktion „Notebooks“ für Gemini eingeführt, die Nutzern helfen soll, komplexe Projekte durch die Erstellung einer personalisierten Wissensdatenbank zu verwalten. Dieses Update
Luma AI stellt das autoregressive Modell „Uni-1“ vor, das gleichzeitig Text und Pixel generiert
Luma Labs hat am 23. März sein Bildgenerierungsmodell Uni-1 vorgestellt – das erste öffentlich zugängliche Modell des Unternehmens, das auf der Unified-Intelligence-Architektur basiert. Auf der offizi
Empfehlungen zu verwandten Spezialthemen
Kommentare (22)
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

Wenn du die Tech-Welt verfolgst, ist dir wahrscheinlich bewusst, dass OpenAI gerade sein neuestes großes Sprachmodell, GPT-4o, veröffentlicht hat, wobei das „o“ für „omni“ steht. Dieses neue Modell verspricht Vielseitigkeit bei Text, Grafiken und Sprache, und ich konnte es kaum erwarten, es mit meinem Standardset an Codierungstests auf die Probe zu stellen. Diese Tests wurden gegen eine Vielzahl von KI-Modellen durchgeführt und haben einige ziemlich faszinierende Ergebnisse geliefert. Bleib bis zum Ende dabei, denn es gibt eine Wendung, die du nicht verpassen willst.
Wenn du daran interessiert bist, deine eigenen Experimente durchzuführen, schau dir diese Anleitung an: Wie ich die Codierungsfähigkeit eines KI-Chatbots teste – und du kannst es auch. Sie beschreibt alle Tests, die ich verwende, zusammen mit detaillierten Erklärungen, wie sie funktionieren und worauf man bei den Ergebnissen achten sollte.
Jetzt lass uns in die Ergebnisse der einzelnen Tests eintauchen und sehen, wie GPT-4o im Vergleich zu früheren Konkurrenten wie Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced und den früheren Versionen von ChatGPT abschneidet.
1. Erstellen eines WordPress-Plugins
Hier ist ein Einblick in die Benutzeroberfläche von GPT-4o:
Interessanterweise hat GPT-4o sich die Freiheit genommen, eine JavaScript-Datei einzufügen, die die Zeilenanzahl in beiden Feldern dynamisch aktualisiert. Obwohl die Eingabeaufforderung JavaScript nicht ausdrücklich ausgeschlossen hat, war dieser kreative Ansatz unerwartet und effektiv. Das JavaScript verbessert auch die Funktionalität des Randomize-Buttons, indem es mehrere Ergebnissätze ohne vollständiges Neuladen der Seite ermöglicht.
Die Zeilen wurden korrekt angeordnet, und Duplikate wurden gemäß den Spezifikationen angemessen getrennt. Es ist ein solides Stück Code, mit nur einem kleinen Kritikpunkt: Der Randomize-Button wurde nicht auf eine eigene Zeile gesetzt, obwohl ich das in der Eingabeaufforderung nicht spezifiziert hatte, also keine Punktabzüge dafür.
Hier sind die Gesamtergebnisse für diesen und frühere Tests:
- ChatGPT GPT-4o: Benutzeroberfläche: gut, Funktionalität: gut
- Microsoft Copilot: Benutzeroberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta AI: Benutzeroberfläche: ausreichend, Funktionalität: fehlgeschlagen
- Meta Code Llama: Komplettes Versagen
- Google Gemini Advanced: Benutzeroberfläche: gut, Funktionalität: fehlgeschlagen
- ChatGPT 4: Benutzeroberfläche: gut, Funktionalität: gut
- ChatGPT 3.5: Benutzeroberfläche: gut, Funktionalität: gut
2. Umschreiben einer Zeichenfolgenfunktion
Dieser Test bewertet die Fähigkeit des Modells, mit Umrechnungen von Dollar und Cent umzugehen. GPT-4o hat den Code erfolgreich umgeschrieben, um Eingaben abzulehnen, die Probleme mit nachfolgenden Zeilen verursachen könnten, und sichergestellt, dass nur gültige Dollar- und Cent-Werte verarbeitet werden.
Ich war ein wenig enttäuscht, dass es nicht automatisch eine führende Null zu Werten wie .75 hinzufügte, um sie in 0.75 umzuwandeln. Da ich diese Funktion jedoch nicht ausdrücklich angefordert habe, ist es kein Fehler der KI. Es ist eine Erinnerung daran, dass man selbst bei funktionsfähigem Code die Eingabeaufforderung verfeinern muss, um genau das zu bekommen, was man braucht.
Hier sind die Gesamtergebnisse für diesen und frühere Tests:
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Erfolgreich
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
3. Finden eines lästigen Fehlers
Dieser Test ist faszinierend, weil die Lösung nicht sofort offensichtlich ist. Ich war zunächst selbst bei diesem Fehler während meines eigenen Codierens ratlos, also wandte ich mich an das erste ChatGPT-Modell um Hilfe. Es fand den Fehler sofort, was damals überwältigend war.
Im Gegensatz dazu übersahen drei der anderen getesteten LLMs die Irreführung in diesem Problem. Die Fehlermeldung deutet auf einen Teil des Codes hin, aber das eigentliche Problem liegt woanders und erfordert tiefes Wissen über das WordPress-Framework, um es zu identifizieren.
Glücklicherweise hat GPT-4o das Problem korrekt identifiziert und die Lösung genau beschrieben.
Hier sind die Gesamtergebnisse für diesen und frühere Tests:
- ChatGPT GPT-4o: Erfolgreich
- Microsoft Copilot: Fehlgeschlagen. Spektakulär. Enthusiastisch. Emojimäßig.
- Meta AI: Erfolgreich
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Fehlgeschlagen
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Erfolgreich
Bis jetzt hat GPT-4o in allen drei Tests bestanden. Mal sehen, wie es im letzten Test abschneidet.
4. Schreiben eines Skripts
Als Antwort auf diesen Test hat GPT-4o tatsächlich mehr geliefert, als ich verlangt habe. Der Test beinhaltet die Verwendung des obskuren Mac-Scripting-Tools Keyboard Maestro, Apples AppleScript und Chrome-Scripting-Verhalten. Keyboard Maestro ist übrigens für mich ein echter Gamechanger, da es Macs aufgrund seiner Fähigkeit, das Betriebssystem und Anwendungen umzuprogrammieren, zu meiner bevorzugten Wahl für Produktivität macht.
Um zu bestehen, muss die KI eine Lösung korrekt skizzieren, die eine Kombination aus Keyboard Maestro-Code, AppleScript und Chrome-API-Funktionalität verwendet.
Überraschenderweise hat GPT-4o mir zwei verschiedene Versionen geliefert:
Beide Versionen interagierten korrekt mit Keyboard Maestro, unterschieden sich jedoch in der Handhabung der Groß-/Kleinschreibung. Die linke Version war falsch, da AppleScript „as lowercase“ nicht unterstützt. Die rechte Version, die „contains“ verwendete und groß-/kleinschreibungsunabhängig war, funktionierte einwandfrei.
Ich gebe GPT-4o einen vorsichtigen Pass, da es funktionsfähigen Code geliefert hat. Allerdings hat das Zurückgeben von zwei Optionen, von denen eine falsch war, zusätzliche Arbeit verursacht, um die richtige auszuwählen. Das hätte genauso zeitaufwändig sein können, wie den Code selbst zu schreiben.
Hier sind die Gesamtergebnisse für diesen und frühere Tests:
- ChatGPT GPT-4o: Erfolgreich, aber mit Vorbehalten
- Microsoft Copilot: Fehlgeschlagen
- Meta AI: Fehlgeschlagen
- Meta Code Llama: Fehlgeschlagen
- Google Gemini Advanced: Erfolgreich
- ChatGPT 4: Erfolgreich
- ChatGPT 3.5: Fehlgeschlagen
Gesamtergebnisse
So haben alle Modelle in den vier Tests abgeschnitten:
- ChatGPT GPT-4o: 4 von 4 erfolgreich, aber mit dieser seltsamen Doppelantwort
- Microsoft Copilot: 0 von 4 erfolgreich
- Meta AI: 1 von 4 erfolgreich
- Meta Code Llama: 1 von 4 erfolgreich
- Google Gemini Advanced: 1 von 4 erfolgreich
- ChatGPT 4: 4 von 4 erfolgreich
- ChatGPT 3.5: 3 von 4 erfolgreich
Bis jetzt war ChatGPT meine erste Wahl für Programmierhilfe. Es hat immer geliefert (außer wenn es das nicht tat). Die anderen KIs blieben in meinen Tests meist hinter den Erwartungen zurück. Aber GPT-4o hat mich mit dieser letzten Doppelantwort überrascht. Es ließ mich fragen, was in diesem Modell vor sich geht, dass es zu einem solchen Stolperer kommen konnte.
Trotzdem bleibt GPT-4o in meinen Codierungstests der Spitzenreiter, also werde ich es wahrscheinlich weiter nutzen und mich mit seinen Eigenheiten vertrauter machen. Alternativ könnte ich zu GPT-3.5 oder GPT-4 in ChatGPT Plus zurückkehren. Bleibt dran; wenn ChatGPT das nächste Mal sein Modell aktualisiert, werde ich diese Tests definitiv erneut durchführen, um zu sehen, ob es durchgehend die richtige Antwort bei allen vier Tests liefern kann.
Hast du schon einmal mit einem dieser KI-Modelle programmiert? Was sind deine Erfahrungen? Lass es uns in den Kommentaren unten wissen.
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Google stellt Gemini Notebooks vor und vereint NotebookLM mit einer persönlichen Wissensdatenbank
Google hat kürzlich die Funktion „Notebooks“ für Gemini eingeführt, die Nutzern helfen soll, komplexe Projekte durch die Erstellung einer personalisierten Wissensdatenbank zu verwalten. Dieses Update
Luma AI stellt das autoregressive Modell „Uni-1“ vor, das gleichzeitig Text und Pixel generiert
Luma Labs hat am 23. März sein Bildgenerierungsmodell Uni-1 vorgestellt – das erste öffentlich zugängliche Modell des Unternehmens, das auf der Unified-Intelligence-Architektur basiert. Auf der offizi
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔











