Github Copilots KI getestet: Mischkodierer Erfolg lässt mich verblüfft
Erforschung der Inkonsistenzen in KI-Coding-Tools
Es ist wirklich rätselhaft, wie KI-Tools, die alle auf demselben grundlegenden großen Sprachmodell basieren, so unterschiedliche Ergebnisse liefern können. Zum Beispiel nutzen ChatGPT, Perplexity und GitHub Copilot alle das GPT-4-Modell von OpenAI. Dennoch zeigten meine jüngsten Tests starke Leistungsunterschiede: Während ChatGPT und die Pro-Pläne von Perplexity hervorragten, hatte GitHub Copilot eine Erfolgsquote von 50 %.
Ich habe diese Tests mit GitHub Copilot durchgeführt, das in eine VS Code-Umgebung integriert war. Ich werde in einem kommenden Artikel eine detaillierte Anleitung zur Einrichtung teilen. Fürs Erste tauchen wir in die Details der von mir durchgeführten Tests ein.
Wenn Sie neugierig auf meine Testmethodik und die verwendeten Prompts sind, können Sie meinen detaillierten Leitfaden zur Bewertung der Programmierfähigkeiten eines KI-Chatbots lesen.
TL;DR: GitHub Copilot hat zwei von den vier durchgeführten Tests bestanden.
Test 1: Erstellung eines WordPress-Plugins
Dieser Test war eine völlige Enttäuschung. Es war mein erster Versuch, und ich war mir unsicher, ob GitHub Copilot Schwierigkeiten mit dem Programmieren hat oder ob die Interaktionsbeschränkungen innerhalb von VS Code seine Fähigkeiten einschränken.
Hier ist der Kontext: Ich habe die KI gebeten, ein voll funktionsfähiges WordPress-Plugin zu entwickeln, das eine Admin-Oberfläche und funktionale Logik enthält. Die Aufgabe des Plugins war es, eine Liste von Namen zu akzeptieren, sie zu sortieren und doppelte Einträge zu trennen, um eine benachbarte Anordnung zu vermeiden.
Diese Aufgabe entstand aus einem realen Bedarf aus dem E-Commerce-Geschäft meiner Frau mit digitalen Gütern, wo sie eine aktive Facebook-Gruppe verwaltet.
Während fünf der zehn getesteten KI-Modelle diesen Test vollständig bestanden, drei teilweise bestanden und zwei, einschließlich Microsoft Copilot, komplett scheiterten, erzeugte GitHub Copilot trotz desselben Prompts nur PHP-Code. Obwohl das Problem tatsächlich allein mit PHP gelöst werden konnte, versuchte GitHub Copilot, auf JavaScript zu verweisen, ohne es tatsächlich zu generieren.

Screenshot von David Gewirtz/ZDNET Als ich versuchte, GitHub Copilot aus einer JavaScript-Datei heraus zu bitten, die Aufgabe zu vervollständigen, antwortete es seltsamerweise mit weiterem PHP-Code, der immer noch auf eine nicht existierende JavaScript-Datei verwies.

Screenshot von David Gewirtz/ZDNET Test 2: Umschreiben einer String-Funktion
Dieser Test war relativ einfach: Ich stellte eine Funktion bereit, die Dollar und Cent validieren sollte, aber nur ganze Dollar überprüfte. Die Herausforderung bestand darin, dass die KI die Funktion korrigiert.
GitHub Copilot hat den Code zwar modifiziert, aber das Ergebnis war problematisch. Es nahm an, dass jeder Eingabestring gültig war, was Fehler verursachen würde, wenn der String leer war. Außerdem konnte der aktualisierte reguläre Ausdruck verschiedene Randfälle nicht handhaben, wie Eingaben wie "3.", ".3" oder "00.30". Für eine Funktion, die Währungen validieren soll, sind solche Versäumnisse inakzeptabel, was einen weiteren Misserfolg für GitHub Copilot markiert.
Test 3: Finden eines lästigen Fehlers
Hier glänzte GitHub Copilot. Dieser Test basierte auf einer echten Programmierherausforderung, die ich hatte, bei der die Fehlermeldung nicht direkt auf das eigentliche Problem hinwies. Es ist ein bisschen wie ein Programmierrätsel, das ein tiefes Verständnis von WordPress-API-Aufrufen erfordert, um gelöst zu werden.
Während Microsoft Copilot, Gemini und Meta Code Llama bei diesem Test scheiterten, meisterte GitHub Copilot ihn und zeigte seine Fähigkeit, komplexe, reale Probleme zu lösen.
Test 4: Erstellung eines Skripts
GitHub Copilot war auch in diesem Test erfolgreich, wo Microsoft Copilot versagte. Die Aufgabe bestand darin, ein Skript zu erstellen, das AppleScript, das Chrome-Objektmodell und ein Mac-spezifisches Dienstprogramm namens Keyboard Maestro integrieren musste.
Um zu bestehen, musste die KI die Nuancen aller drei Umgebungen erkennen und berücksichtigen, und GitHub Copilot hat genau das getan.
Schlussgedanken
Es ist enttäuschend zu sehen, dass GitHub Copilot, das das fortschrittliche GPT-4-Modell verwendet, die Hälfte der Tests nicht bestanden hat. Angesichts des Status von GitHub als führende Quellverwaltungsplattform würde man erwarten, dass die KI-Programmierunterstützung zuverlässiger ist.
Die Welt der KI entwickelt sich jedoch ständig weiter, und ich bin optimistisch, dass die Leistung von GitHub Copilot mit der Zeit verbessert wird. Wir werden in ein paar Monaten darauf zurückkommen, um zu sehen, wie es sich entwickelt hat.
Verlassen Sie sich auf KI für Programmierunterstützung? Welches KI-Tool ist Ihr Favorit? Haben Sie GitHub Copilot ausprobiert? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.
Bleiben Sie mit meinen täglichen Projektfortschritten auf sozialen Medien auf dem Laufenden. Vergessen Sie nicht, sich für meinen wöchentlichen Newsletter anzumelden, und folgen Sie mir auf Twitter/X unter @DavidGewirtz, auf Facebook unter Facebook.com/DavidGewirtz, auf Instagram unter Instagram.com/DavidGewirtz, auf Bluesky unter @DavidGewirtz.com und auf YouTube unter YouTube.com/DavidGewirtzTV.
Verwandter Artikel
OpenAI ändert heimlich seine Satzung, um die Entlassung von Altman zu erschweren
Nach dem putschähnlichen Vorfall im Jahr 2023 hat OpenAI den Schutz für CEO Sam Altman durch eine Aktualisierung der Unternehmenssatzung weiter gefestigt. Kürzlich veröffentlichte Gerichtsdokumente ze
Meta AI beantwortet nun Nachrichten von Käufern auf dem Facebook Marketplace
Facebook Marketplace führt neue Meta-KI-Funktionen ein, darunter automatische Antworten auf Käuferanfragen, wie das Unternehmen am Donnerstag bekannt gab. Die Plattform nutzt KI außerdem, um die Erste
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Empfehlungen zu verwandten Spezialthemen
Kommentare (40)
Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔
Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.
Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.
이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!
Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔
Erforschung der Inkonsistenzen in KI-Coding-Tools
Es ist wirklich rätselhaft, wie KI-Tools, die alle auf demselben grundlegenden großen Sprachmodell basieren, so unterschiedliche Ergebnisse liefern können. Zum Beispiel nutzen ChatGPT, Perplexity und GitHub Copilot alle das GPT-4-Modell von OpenAI. Dennoch zeigten meine jüngsten Tests starke Leistungsunterschiede: Während ChatGPT und die Pro-Pläne von Perplexity hervorragten, hatte GitHub Copilot eine Erfolgsquote von 50 %.
Ich habe diese Tests mit GitHub Copilot durchgeführt, das in eine VS Code-Umgebung integriert war. Ich werde in einem kommenden Artikel eine detaillierte Anleitung zur Einrichtung teilen. Fürs Erste tauchen wir in die Details der von mir durchgeführten Tests ein.
Wenn Sie neugierig auf meine Testmethodik und die verwendeten Prompts sind, können Sie meinen detaillierten Leitfaden zur Bewertung der Programmierfähigkeiten eines KI-Chatbots lesen.
TL;DR: GitHub Copilot hat zwei von den vier durchgeführten Tests bestanden.
Test 1: Erstellung eines WordPress-Plugins
Dieser Test war eine völlige Enttäuschung. Es war mein erster Versuch, und ich war mir unsicher, ob GitHub Copilot Schwierigkeiten mit dem Programmieren hat oder ob die Interaktionsbeschränkungen innerhalb von VS Code seine Fähigkeiten einschränken.
Hier ist der Kontext: Ich habe die KI gebeten, ein voll funktionsfähiges WordPress-Plugin zu entwickeln, das eine Admin-Oberfläche und funktionale Logik enthält. Die Aufgabe des Plugins war es, eine Liste von Namen zu akzeptieren, sie zu sortieren und doppelte Einträge zu trennen, um eine benachbarte Anordnung zu vermeiden.
Diese Aufgabe entstand aus einem realen Bedarf aus dem E-Commerce-Geschäft meiner Frau mit digitalen Gütern, wo sie eine aktive Facebook-Gruppe verwaltet.
Während fünf der zehn getesteten KI-Modelle diesen Test vollständig bestanden, drei teilweise bestanden und zwei, einschließlich Microsoft Copilot, komplett scheiterten, erzeugte GitHub Copilot trotz desselben Prompts nur PHP-Code. Obwohl das Problem tatsächlich allein mit PHP gelöst werden konnte, versuchte GitHub Copilot, auf JavaScript zu verweisen, ohne es tatsächlich zu generieren.
Als ich versuchte, GitHub Copilot aus einer JavaScript-Datei heraus zu bitten, die Aufgabe zu vervollständigen, antwortete es seltsamerweise mit weiterem PHP-Code, der immer noch auf eine nicht existierende JavaScript-Datei verwies.
Test 2: Umschreiben einer String-Funktion
Dieser Test war relativ einfach: Ich stellte eine Funktion bereit, die Dollar und Cent validieren sollte, aber nur ganze Dollar überprüfte. Die Herausforderung bestand darin, dass die KI die Funktion korrigiert.
GitHub Copilot hat den Code zwar modifiziert, aber das Ergebnis war problematisch. Es nahm an, dass jeder Eingabestring gültig war, was Fehler verursachen würde, wenn der String leer war. Außerdem konnte der aktualisierte reguläre Ausdruck verschiedene Randfälle nicht handhaben, wie Eingaben wie "3.", ".3" oder "00.30". Für eine Funktion, die Währungen validieren soll, sind solche Versäumnisse inakzeptabel, was einen weiteren Misserfolg für GitHub Copilot markiert.
Test 3: Finden eines lästigen Fehlers
Hier glänzte GitHub Copilot. Dieser Test basierte auf einer echten Programmierherausforderung, die ich hatte, bei der die Fehlermeldung nicht direkt auf das eigentliche Problem hinwies. Es ist ein bisschen wie ein Programmierrätsel, das ein tiefes Verständnis von WordPress-API-Aufrufen erfordert, um gelöst zu werden.
Während Microsoft Copilot, Gemini und Meta Code Llama bei diesem Test scheiterten, meisterte GitHub Copilot ihn und zeigte seine Fähigkeit, komplexe, reale Probleme zu lösen.
Test 4: Erstellung eines Skripts
GitHub Copilot war auch in diesem Test erfolgreich, wo Microsoft Copilot versagte. Die Aufgabe bestand darin, ein Skript zu erstellen, das AppleScript, das Chrome-Objektmodell und ein Mac-spezifisches Dienstprogramm namens Keyboard Maestro integrieren musste.
Um zu bestehen, musste die KI die Nuancen aller drei Umgebungen erkennen und berücksichtigen, und GitHub Copilot hat genau das getan.
Schlussgedanken
Es ist enttäuschend zu sehen, dass GitHub Copilot, das das fortschrittliche GPT-4-Modell verwendet, die Hälfte der Tests nicht bestanden hat. Angesichts des Status von GitHub als führende Quellverwaltungsplattform würde man erwarten, dass die KI-Programmierunterstützung zuverlässiger ist.
Die Welt der KI entwickelt sich jedoch ständig weiter, und ich bin optimistisch, dass die Leistung von GitHub Copilot mit der Zeit verbessert wird. Wir werden in ein paar Monaten darauf zurückkommen, um zu sehen, wie es sich entwickelt hat.
Verlassen Sie sich auf KI für Programmierunterstützung? Welches KI-Tool ist Ihr Favorit? Haben Sie GitHub Copilot ausprobiert? Teilen Sie Ihre Erfahrungen in den Kommentaren unten.
Bleiben Sie mit meinen täglichen Projektfortschritten auf sozialen Medien auf dem Laufenden. Vergessen Sie nicht, sich für meinen wöchentlichen Newsletter anzumelden, und folgen Sie mir auf Twitter/X unter @DavidGewirtz, auf Facebook unter Facebook.com/DavidGewirtz, auf Instagram unter Instagram.com/DavidGewirtz, auf Bluesky unter @DavidGewirtz.com und auf YouTube unter YouTube.com/DavidGewirtzTV.
OpenAI ändert heimlich seine Satzung, um die Entlassung von Altman zu erschweren
Nach dem putschähnlichen Vorfall im Jahr 2023 hat OpenAI den Schutz für CEO Sam Altman durch eine Aktualisierung der Unternehmenssatzung weiter gefestigt. Kürzlich veröffentlichte Gerichtsdokumente ze
Meta AI beantwortet nun Nachrichten von Käufern auf dem Facebook Marketplace
Facebook Marketplace führt neue Meta-KI-Funktionen ein, darunter automatische Antworten auf Käuferanfragen, wie das Unternehmen am Donnerstag bekannt gab. Die Plattform nutzt KI außerdem, um die Erste
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔
Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.
Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.
이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!
Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔





Heim






