L'IA de Github Copilot testé: le succès du codage mixte me laisse déconcerté
Exploration des incohérences dans les outils de codage IA
Il est vraiment déroutant de constater comment les outils d'IA, tous construits sur le même modèle de langage large de base, peuvent produire des résultats aussi variés. Par exemple, ChatGPT, Perplexity et GitHub Copilot exploitent tous le modèle GPT-4 d'OpenAI. Pourtant, mes tests récents ont montré des différences marquées dans les performances : tandis que ChatGPT et les plans pro de Perplexity ont excellé, GitHub Copilot n'a eu qu'un taux de réussite de 50 %.
J'ai effectué ces tests en utilisant GitHub Copilot intégré dans un environnement VS Code. Je partagerai un guide détaillé sur la configuration de cet environnement dans un prochain article. Pour l'instant, plongeons dans les spécificités des tests que j'ai réalisés.
Si vous êtes curieux de connaître ma méthodologie de test et les invites utilisées, vous pouvez consulter mon guide détaillé sur l'évaluation des capacités de codage d'un chatbot IA.
TL;DR : GitHub Copilot a réussi deux des quatre tests que j'ai effectués.
Test 1 : Écriture d'un plugin WordPress
Ce test a été une complète déception. C'était mon expérience initiale, me laissant incertain si GitHub Copilot a des difficultés avec le codage ou si les contraintes d'interaction dans VS Code limitent ses capacités.
Voici le contexte : j'ai demandé à l'IA de développer un plugin WordPress entièrement fonctionnel incluant une interface d'administration et une logique opérationnelle. La tâche du plugin était d'accepter une liste de noms, de les trier et de séparer les doublons pour éviter leur adjacence.
Cette tâche découlait d'un besoin réel de l'entreprise de commerce électronique de biens numériques de ma femme, où elle gère un groupe Facebook actif.
Alors que cinq des dix modèles d'IA testés ont réussi ce test entièrement, trois ont réussi partiellement, et deux, y compris Microsoft Copilot, ont complètement échoué. GitHub Copilot, bien qu'ayant reçu la même invite, n'a produit que du code PHP. Bien que le problème puisse effectivement être résolu uniquement avec PHP, GitHub Copilot a tenté de référencer JavaScript sans réellement le générer.

Capture d'écran par David Gewirtz/ZDNET Lorsque j'ai essayé de pousser GitHub Copilot à partir d'un fichier JavaScript pour compléter la tâche, il a bizarrement répondu avec encore plus de code PHP, tout en référenciant un fichier JavaScript inexistant.

Capture d'écran par David Gewirtz/ZDNET Test 2 : Réécriture d'une fonction de chaîne
Ce test était relativement simple : j'ai fourni une fonction destinée à valider les dollars et les cents, mais qui ne vérifiait que les dollars entiers. Le défi était pour l'IA de corriger la fonction.
GitHub Copilot a modifié le code, mais le résultat était problématique. Il supposait que toute chaîne d'entrée était valide, ce qui provoquerait des erreurs si la chaîne était vide. De plus, l'expression régulière mise à jour ne pouvait pas gérer divers cas limites, comme les entrées "3.", ".3" ou "00.30". Pour une fonction destinée à valider une monnaie, de telles négligences sont inacceptables, marquant un autre échec pour GitHub Copilot.
Test 3 : Trouver un bogue agaçant
Ici, GitHub Copilot a brillé. Ce test était basé sur un véritable défi de codage auquel j'ai été confronté, où le message d'erreur ne pointait pas directement vers le problème réel. C'est un peu comme une énigme de codage, nécessitant une compréhension approfondie des appels d'API WordPress pour résoudre.
Alors que Microsoft Copilot, Gemini et Meta Code Llama ont trébuché sur ce test, GitHub Copilot l'a réussi brillamment, démontrant sa capacité à résoudre des problèmes complexes du monde réel.
Test 4 : Écriture d'un script
GitHub Copilot a également réussi ce test, là où Microsoft Copilot a échoué. La tâche impliquait de créer un script qui devait intégrer AppleScript, le modèle d'objet Chrome, et un utilitaire spécifique à Mac appelé Keyboard Maestro.
Pour réussir, l'IA devait reconnaître et gérer les nuances des trois environnements, et GitHub Copilot l'a fait avec brio.
Réflexions finales
Il est décevant de voir GitHub Copilot, qui utilise le modèle avancé GPT-4, échouer la moitié des tests. Étant donné le statut de GitHub en tant que plateforme de gestion de sources de premier plan, on pourrait s'attendre à ce que son support de codage IA soit plus fiable.
Cependant, le monde de l'IA évolue constamment, et je suis optimiste quant à l'amélioration des performances de GitHub Copilot avec le temps. Nous reviendrons sur ce sujet dans quelques mois pour voir comment il a progressé.
Vous fiez-vous à l'IA pour une assistance au codage ? Quel outil IA est votre préféré ? Avez-vous essayé GitHub Copilot ? Partagez vos expériences dans les commentaires ci-dessous.
Restez à jour avec mes progrès quotidiens sur les projets via les réseaux sociaux. N'oubliez pas de vous abonner à ma newsletter hebdomadaire, et suivez-moi sur Twitter/X à @DavidGewirtz, sur Facebook à Facebook.com/DavidGewirtz, sur Instagram à Instagram.com/DavidGewirtz, sur Bluesky à @DavidGewirtz.com, et sur YouTube à YouTube.com/DavidGewirtzTV.
Article connexe
Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ?
Elon Musk passe enfin à l'action.Dans la course à la programmation de l'IA, OpenAI et Anthropic accélèrent, tandis que xAI semble à la traîne. Musk a souvent affirmé son objectif de rivaliser avec Cla
OpenAI modifie discrètement ses statuts pour compliquer le licenciement d'Altman
À la suite de l'incident de 2023, qui s'apparentait à un coup d'État, OpenAI a encore renforcé les protections dont bénéficie son PDG, Sam Altman, en mettant à jour ses statuts. Des doc
Meta AI répond désormais aux messages des acheteurs sur Facebook Marketplace
Facebook Marketplace lance de nouvelles fonctionnalités basées sur l'IA de Meta, notamment des réponses automatiques aux demandes des acheteurs, a annoncé jeudi l'entreprise. La plateforme u
Recommandations de sujets spéciaux liés
commentaires (40)
Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔
Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.
Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.
이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!
Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔
Exploration des incohérences dans les outils de codage IA
Il est vraiment déroutant de constater comment les outils d'IA, tous construits sur le même modèle de langage large de base, peuvent produire des résultats aussi variés. Par exemple, ChatGPT, Perplexity et GitHub Copilot exploitent tous le modèle GPT-4 d'OpenAI. Pourtant, mes tests récents ont montré des différences marquées dans les performances : tandis que ChatGPT et les plans pro de Perplexity ont excellé, GitHub Copilot n'a eu qu'un taux de réussite de 50 %.
J'ai effectué ces tests en utilisant GitHub Copilot intégré dans un environnement VS Code. Je partagerai un guide détaillé sur la configuration de cet environnement dans un prochain article. Pour l'instant, plongeons dans les spécificités des tests que j'ai réalisés.
Si vous êtes curieux de connaître ma méthodologie de test et les invites utilisées, vous pouvez consulter mon guide détaillé sur l'évaluation des capacités de codage d'un chatbot IA.
TL;DR : GitHub Copilot a réussi deux des quatre tests que j'ai effectués.
Test 1 : Écriture d'un plugin WordPress
Ce test a été une complète déception. C'était mon expérience initiale, me laissant incertain si GitHub Copilot a des difficultés avec le codage ou si les contraintes d'interaction dans VS Code limitent ses capacités.
Voici le contexte : j'ai demandé à l'IA de développer un plugin WordPress entièrement fonctionnel incluant une interface d'administration et une logique opérationnelle. La tâche du plugin était d'accepter une liste de noms, de les trier et de séparer les doublons pour éviter leur adjacence.
Cette tâche découlait d'un besoin réel de l'entreprise de commerce électronique de biens numériques de ma femme, où elle gère un groupe Facebook actif.
Alors que cinq des dix modèles d'IA testés ont réussi ce test entièrement, trois ont réussi partiellement, et deux, y compris Microsoft Copilot, ont complètement échoué. GitHub Copilot, bien qu'ayant reçu la même invite, n'a produit que du code PHP. Bien que le problème puisse effectivement être résolu uniquement avec PHP, GitHub Copilot a tenté de référencer JavaScript sans réellement le générer.
Lorsque j'ai essayé de pousser GitHub Copilot à partir d'un fichier JavaScript pour compléter la tâche, il a bizarrement répondu avec encore plus de code PHP, tout en référenciant un fichier JavaScript inexistant.
Test 2 : Réécriture d'une fonction de chaîne
Ce test était relativement simple : j'ai fourni une fonction destinée à valider les dollars et les cents, mais qui ne vérifiait que les dollars entiers. Le défi était pour l'IA de corriger la fonction.
GitHub Copilot a modifié le code, mais le résultat était problématique. Il supposait que toute chaîne d'entrée était valide, ce qui provoquerait des erreurs si la chaîne était vide. De plus, l'expression régulière mise à jour ne pouvait pas gérer divers cas limites, comme les entrées "3.", ".3" ou "00.30". Pour une fonction destinée à valider une monnaie, de telles négligences sont inacceptables, marquant un autre échec pour GitHub Copilot.
Test 3 : Trouver un bogue agaçant
Ici, GitHub Copilot a brillé. Ce test était basé sur un véritable défi de codage auquel j'ai été confronté, où le message d'erreur ne pointait pas directement vers le problème réel. C'est un peu comme une énigme de codage, nécessitant une compréhension approfondie des appels d'API WordPress pour résoudre.
Alors que Microsoft Copilot, Gemini et Meta Code Llama ont trébuché sur ce test, GitHub Copilot l'a réussi brillamment, démontrant sa capacité à résoudre des problèmes complexes du monde réel.
Test 4 : Écriture d'un script
GitHub Copilot a également réussi ce test, là où Microsoft Copilot a échoué. La tâche impliquait de créer un script qui devait intégrer AppleScript, le modèle d'objet Chrome, et un utilitaire spécifique à Mac appelé Keyboard Maestro.
Pour réussir, l'IA devait reconnaître et gérer les nuances des trois environnements, et GitHub Copilot l'a fait avec brio.
Réflexions finales
Il est décevant de voir GitHub Copilot, qui utilise le modèle avancé GPT-4, échouer la moitié des tests. Étant donné le statut de GitHub en tant que plateforme de gestion de sources de premier plan, on pourrait s'attendre à ce que son support de codage IA soit plus fiable.
Cependant, le monde de l'IA évolue constamment, et je suis optimiste quant à l'amélioration des performances de GitHub Copilot avec le temps. Nous reviendrons sur ce sujet dans quelques mois pour voir comment il a progressé.
Vous fiez-vous à l'IA pour une assistance au codage ? Quel outil IA est votre préféré ? Avez-vous essayé GitHub Copilot ? Partagez vos expériences dans les commentaires ci-dessous.
Restez à jour avec mes progrès quotidiens sur les projets via les réseaux sociaux. N'oubliez pas de vous abonner à ma newsletter hebdomadaire, et suivez-moi sur Twitter/X à @DavidGewirtz, sur Facebook à Facebook.com/DavidGewirtz, sur Instagram à Instagram.com/DavidGewirtz, sur Bluesky à @DavidGewirtz.com, et sur YouTube à YouTube.com/DavidGewirtzTV.
Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ?
Elon Musk passe enfin à l'action.Dans la course à la programmation de l'IA, OpenAI et Anthropic accélèrent, tandis que xAI semble à la traîne. Musk a souvent affirmé son objectif de rivaliser avec Cla
OpenAI modifie discrètement ses statuts pour compliquer le licenciement d'Altman
À la suite de l'incident de 2023, qui s'apparentait à un coup d'État, OpenAI a encore renforcé les protections dont bénéficie son PDG, Sam Altman, en mettant à jour ses statuts. Des doc
Meta AI répond désormais aux messages des acheteurs sur Facebook Marketplace
Facebook Marketplace lance de nouvelles fonctionnalités basées sur l'IA de Meta, notamment des réponses automatiques aux demandes des acheteurs, a annoncé jeudi l'entreprise. La plateforme u
Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔
Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.
Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.
이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!
Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔





Maison






