option
Maison
Nouvelles
Je mets GPT-4O à travers mes tests de codage et cela les a accédés - sauf pour un résultat étrange

Je mets GPT-4O à travers mes tests de codage et cela les a accédés - sauf pour un résultat étrange

17 avril 2025
63

Je mets GPT-4O à travers mes tests de codage et cela les a accédés - sauf pour un résultat étrange

Si vous suivez l'actualité du monde technologique, vous savez probablement qu'OpenAI vient de lancer son dernier grand modèle de langage, GPT-4o, où le "o" signifie "omni". Ce nouveau modèle promet une polyvalence à travers le texte, les graphiques et la voix, et j'étais impatient de le tester avec mon ensemble standard de tests de codage. Ces tests ont été effectués sur un large éventail de modèles d'IA, produisant des résultats plutôt fascinants. Restez avec moi jusqu'à la fin, car il y a une surprise que vous ne voudrez pas manquer.

Si vous souhaitez réaliser vos propres expériences, consultez ce guide : Comment je teste les capacités de codage d'un chatbot IA - et vous pouvez le faire aussi. Il décrit tous les tests que j'utilise, accompagnés d'explications détaillées sur leur fonctionnement et ce qu'il faut rechercher dans les résultats.

Maintenant, plongeons dans les résultats de chaque test et voyons comment GPT-4o se compare aux précédents concurrents comme Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced, et les versions antérieures de ChatGPT.

1. Écrire un plugin WordPress

Voici un aperçu de l'interface utilisateur de GPT-4o :

Intéressant, GPT-4o a pris la liberté d'inclure un fichier JavaScript, qui met à jour dynamiquement le comptage des lignes dans les deux champs. Bien que la consigne n'excluait pas explicitement JavaScript, cette approche créative était inattendue et efficace. Le JavaScript améliore également la fonctionnalité du bouton Randomize, permettant plusieurs ensembles de résultats sans rechargement complet de la page.

Les lignes étaient correctement disposées, et les doublons étaient séparés conformément aux spécifications. C'est un code solide, avec un seul petit bémol : le bouton Randomize n'était pas placé sur sa propre ligne, bien que je ne l'aie pas précisé dans la consigne, donc aucun point en moins pour cela.

Voici les résultats agrégés pour ce test et les précédents :

  • ChatGPT GPT-4o : Interface : bonne, fonctionnalité : bonne
  • Microsoft Copilot : Interface : adéquate, fonctionnalité : échec
  • Meta AI : Interface : adéquate, fonctionnalité : échec
  • Meta Code Llama : Échec complet
  • Google Gemini Advanced : Interface : bonne, fonctionnalité : échec
  • ChatGPT 4 : Interface : bonne, fonctionnalité : bonne
  • ChatGPT 3.5 : Interface : bonne, fonctionnalité : bonne

2. Réécrire une fonction de chaîne

Ce test évalue la capacité du modèle à gérer les conversions de dollars et de cents. GPT-4o a réussi à réécrire le code pour rejeter les entrées qui pourraient causer des problèmes avec les lignes suivantes, garantissant que seules les valeurs valides de dollars et de cents sont traitées.

J'étais un peu déçu qu'il n'ajoute pas automatiquement un zéro initial à des valeurs comme .75, les convertissant en 0.75. Cependant, comme je n'avais pas explicitement demandé cette fonctionnalité, ce n'est pas une faute de l'IA. Cela rappelle que même lorsque l'IA fournit un code fonctionnel, vous devrez peut-être affiner la consigne pour obtenir exactement ce dont vous avez besoin.

Voici les résultats agrégés pour ce test et les précédents :

  • ChatGPT GPT-4o : Réussi
  • Microsoft Copilot : Échoué
  • Meta AI : Échoué
  • Meta Code Llama : Réussi
  • Google Gemini Advanced : Échoué
  • ChatGPT 4 : Réussi
  • ChatGPT 3.5 : Réussi

3. Trouver un bogue gênant

Ce test est intrigant car la solution n'est pas immédiatement évidente. J'ai moi-même été initialement perplexe face à cette erreur lors de mon propre codage, alors je me suis tourné vers le premier modèle ChatGPT pour obtenir de l'aide. Il a trouvé l'erreur instantanément, ce qui était époustouflant à l'époque.

En revanche, trois des autres LLM que j'ai testés ont manqué la fausse piste dans ce problème. Le message d'erreur pointe vers une partie du code, mais le véritable problème se trouve ailleurs, nécessitant une connaissance approfondie du framework WordPress pour l'identifier.

Fort heureusement, GPT-4o a correctement identifié le problème et décrit la correction avec précision.

Voici les résultats agrégés pour ce test et les précédents :

  • ChatGPT GPT-4o : Réussi
  • Microsoft Copilot : Échoué. Spectaculairement. Enthousiastement. Avec des emojis.
  • Meta AI : Réussi
  • Meta Code Llama : Échoué
  • Google Gemini Advanced : Échoué
  • ChatGPT 4 : Réussi
  • ChatGPT 3.5 : Réussi

Jusqu'à présent, GPT-4o obtient trois sur trois. Voyons comment il se débrouille avec le test final.

4. Écrire un script

En réponse à ce test, GPT-4o a en fait fourni plus que ce que j'avais demandé. Le test implique l'utilisation de l'outil de script Mac peu connu Keyboard Maestro, AppleScript d'Apple, et le comportement de script de Chrome. Keyboard Maestro, d'ailleurs, est un véritable game-changer pour moi, rendant les Macs mon choix de prédilection pour la productivité grâce à sa capacité à reprogrammer le système d'exploitation et les applications.

Pour réussir, l'IA doit correctement décrire une solution utilisant une combinaison de code Keyboard Maestro, AppleScript, et la fonctionnalité de l'API Chrome.

Étonnamment, GPT-4o m'a donné deux versions différentes :

Les deux versions interagissaient correctement avec Keyboard Maestro, mais elles différaient dans la gestion de la sensibilité à la casse. La version de gauche était incorrecte car AppleScript ne prend pas en charge "as lowercase". La version de droite, qui utilisait "contains" et était insensible à la casse, fonctionnait bien.

Je donne un feu vert à GPT-4o, bien que prudemment, car il a fourni un code fonctionnel. Cependant, fournir deux options, dont une incorrecte, m'a fait faire un travail supplémentaire pour évaluer et choisir la bonne. Cela aurait pu être aussi chronophage que d'écrire le code moi-même.

Voici les résultats agrégés pour ce test et les précédents :

  • ChatGPT GPT-4o : Réussi, mais avec des réserves
  • Microsoft Copilot : Échoué
  • Meta AI : Échoué
  • Meta Code Llama : Échoué
  • Google Gemini Advanced : Réussi
  • ChatGPT 4 : Réussi
  • ChatGPT 3.5 : Échoué

Résultats globaux

Voici comment tous les modèles se sont comportés à travers les quatre tests :

  • ChatGPT GPT-4o : 4 sur 4 réussis, mais avec cette réponse à double choix étrange
  • Microsoft Copilot : 0 sur 4 réussis
  • Meta AI : 1 sur 4 réussi
  • Meta Code Llama : 1 sur 4 réussi
  • Google Gemini Advanced : 1 sur 4 réussi
  • ChatGPT 4 : 4 sur 4 réussis
  • ChatGPT 3.5 : 3 sur 4 réussis

Jusqu'à présent, ChatGPT a été mon choix de prédilection pour l'assistance au codage. Il a toujours répondu (sauf quand ce n'était pas le cas). Les autres IA ont généralement échoué dans mes tests. Mais GPT-4o m'a surpris avec cette dernière réponse à double choix. Cela m'a fait me demander ce qui se passe à l'intérieur de ce modèle qui pourrait causer un tel accroc.

Malgré cela, GPT-4o reste le meilleur performeur dans mes tests de codage, donc je vais probablement continuer à l'utiliser et me familiariser avec ses particularités. Alternativement, je pourrais revenir à GPT-3.5 ou GPT-4 dans ChatGPT Plus. Restez à l'écoute ; la prochaine fois que ChatGPT mettra à jour son modèle, je relancerai certainement ces tests pour voir s'il peut constamment choisir la bonne réponse à travers les quatre tests.

Avez-vous essayé de coder avec l'un de ces modèles d'IA ? Quelle a été votre expérience ? Faites-nous savoir dans les commentaires ci-dessous.

Article connexe
Top 10 Outils pour Améliorer l'Expérience des Développeurs en 2025 Top 10 Outils pour Améliorer l'Expérience des Développeurs en 2025 L'expérience des développeurs (DevEx) va au-delà d'une simple terminologie. À mesure que les piles technologiques deviennent plus complexes, que les équipes à distance deviennent la norme et que la li
Guide pour créer des images virales d'officiers IPS générées par IA Guide pour créer des images virales d'officiers IPS générées par IA Dans le monde rapide des réseaux sociaux, les tendances évoluent rapidement. Une tendance captivante qui gagne en popularité est la création d'images générées par IA représentant des individus en tant
Google Cloud Améliore les Outils Multimédias IA avec de Nouvelles Fonctionnalités Musicales et Vidéo Google Cloud Améliore les Outils Multimédias IA avec de Nouvelles Fonctionnalités Musicales et Vidéo Mercredi, Google a dévoilé des améliorations de sa plateforme cloud Vertex AI, renforçant plusieurs modèles d'IA propriétaires pour la génération de contenus multimédias.Lyria, l'IA de Google pour la
commentaires (20)
0/200
JonathanAllen
JonathanAllen 26 avril 2025 13:46:22 UTC+02:00

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 25 avril 2025 20:21:39 UTC+02:00

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 24 avril 2025 13:41:59 UTC+02:00

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 23 avril 2025 07:12:28 UTC+02:00

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

NicholasClark
NicholasClark 23 avril 2025 04:12:49 UTC+02:00

GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅

DavidThomas
DavidThomas 22 avril 2025 19:04:24 UTC+02:00

GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔

Retour en haut
OR