Je mets GPT-4O à travers mes tests de codage et cela les a accédés

Maison

Nouvelles

Je mets GPT-4O à travers mes tests de codage et cela les a accédés - sauf pour un résultat étrange

17 avril 2025

TimothyGonzález

Je mets GPT-4O à travers mes tests de codage et cela les a accédés - sauf pour un résultat étrange

Si vous suivez l'actualité du monde technologique, vous savez probablement qu'OpenAI vient de lancer son dernier grand modèle de langage, GPT-4o, où le "o" signifie "omni". Ce nouveau modèle promet une polyvalence à travers le texte, les graphiques et la voix, et j'étais impatient de le tester avec mon ensemble standard de tests de codage. Ces tests ont été effectués sur un large éventail de modèles d'IA, produisant des résultats plutôt fascinants. Restez avec moi jusqu'à la fin, car il y a une surprise que vous ne voudrez pas manquer.

Si vous souhaitez réaliser vos propres expériences, consultez ce guide : Comment je teste les capacités de codage d'un chatbot IA - et vous pouvez le faire aussi. Il décrit tous les tests que j'utilise, accompagnés d'explications détaillées sur leur fonctionnement et ce qu'il faut rechercher dans les résultats.

Maintenant, plongeons dans les résultats de chaque test et voyons comment GPT-4o se compare aux précédents concurrents comme Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced, et les versions antérieures de ChatGPT.

1. Écrire un plugin WordPress

Voici un aperçu de l'interface utilisateur de GPT-4o :

Intéressant, GPT-4o a pris la liberté d'inclure un fichier JavaScript, qui met à jour dynamiquement le comptage des lignes dans les deux champs. Bien que la consigne n'excluait pas explicitement JavaScript, cette approche créative était inattendue et efficace. Le JavaScript améliore également la fonctionnalité du bouton Randomize, permettant plusieurs ensembles de résultats sans rechargement complet de la page.

Les lignes étaient correctement disposées, et les doublons étaient séparés conformément aux spécifications. C'est un code solide, avec un seul petit bémol : le bouton Randomize n'était pas placé sur sa propre ligne, bien que je ne l'aie pas précisé dans la consigne, donc aucun point en moins pour cela.

Voici les résultats agrégés pour ce test et les précédents :

ChatGPT GPT-4o : Interface : bonne, fonctionnalité : bonne
Microsoft Copilot : Interface : adéquate, fonctionnalité : échec
Meta AI : Interface : adéquate, fonctionnalité : échec
Meta Code Llama : Échec complet
Google Gemini Advanced : Interface : bonne, fonctionnalité : échec
ChatGPT 4 : Interface : bonne, fonctionnalité : bonne
ChatGPT 3.5 : Interface : bonne, fonctionnalité : bonne

2. Réécrire une fonction de chaîne

Ce test évalue la capacité du modèle à gérer les conversions de dollars et de cents. GPT-4o a réussi à réécrire le code pour rejeter les entrées qui pourraient causer des problèmes avec les lignes suivantes, garantissant que seules les valeurs valides de dollars et de cents sont traitées.

J'étais un peu déçu qu'il n'ajoute pas automatiquement un zéro initial à des valeurs comme .75, les convertissant en 0.75. Cependant, comme je n'avais pas explicitement demandé cette fonctionnalité, ce n'est pas une faute de l'IA. Cela rappelle que même lorsque l'IA fournit un code fonctionnel, vous devrez peut-être affiner la consigne pour obtenir exactement ce dont vous avez besoin.

Voici les résultats agrégés pour ce test et les précédents :

ChatGPT GPT-4o : Réussi
Microsoft Copilot : Échoué
Meta AI : Échoué
Meta Code Llama : Réussi
Google Gemini Advanced : Échoué
ChatGPT 4 : Réussi
ChatGPT 3.5 : Réussi

3. Trouver un bogue gênant

Ce test est intrigant car la solution n'est pas immédiatement évidente. J'ai moi-même été initialement perplexe face à cette erreur lors de mon propre codage, alors je me suis tourné vers le premier modèle ChatGPT pour obtenir de l'aide. Il a trouvé l'erreur instantanément, ce qui était époustouflant à l'époque.

En revanche, trois des autres LLM que j'ai testés ont manqué la fausse piste dans ce problème. Le message d'erreur pointe vers une partie du code, mais le véritable problème se trouve ailleurs, nécessitant une connaissance approfondie du framework WordPress pour l'identifier.

Fort heureusement, GPT-4o a correctement identifié le problème et décrit la correction avec précision.

Voici les résultats agrégés pour ce test et les précédents :

ChatGPT GPT-4o : Réussi
Microsoft Copilot : Échoué. Spectaculairement. Enthousiastement. Avec des emojis.
Meta AI : Réussi
Meta Code Llama : Échoué
Google Gemini Advanced : Échoué
ChatGPT 4 : Réussi
ChatGPT 3.5 : Réussi

Jusqu'à présent, GPT-4o obtient trois sur trois. Voyons comment il se débrouille avec le test final.

4. Écrire un script

En réponse à ce test, GPT-4o a en fait fourni plus que ce que j'avais demandé. Le test implique l'utilisation de l'outil de script Mac peu connu Keyboard Maestro, AppleScript d'Apple, et le comportement de script de Chrome. Keyboard Maestro, d'ailleurs, est un véritable game-changer pour moi, rendant les Macs mon choix de prédilection pour la productivité grâce à sa capacité à reprogrammer le système d'exploitation et les applications.

Pour réussir, l'IA doit correctement décrire une solution utilisant une combinaison de code Keyboard Maestro, AppleScript, et la fonctionnalité de l'API Chrome.

Étonnamment, GPT-4o m'a donné deux versions différentes :

Les deux versions interagissaient correctement avec Keyboard Maestro, mais elles différaient dans la gestion de la sensibilité à la casse. La version de gauche était incorrecte car AppleScript ne prend pas en charge "as lowercase". La version de droite, qui utilisait "contains" et était insensible à la casse, fonctionnait bien.

Je donne un feu vert à GPT-4o, bien que prudemment, car il a fourni un code fonctionnel. Cependant, fournir deux options, dont une incorrecte, m'a fait faire un travail supplémentaire pour évaluer et choisir la bonne. Cela aurait pu être aussi chronophage que d'écrire le code moi-même.

Voici les résultats agrégés pour ce test et les précédents :

ChatGPT GPT-4o : Réussi, mais avec des réserves
Microsoft Copilot : Échoué
Meta AI : Échoué
Meta Code Llama : Échoué
Google Gemini Advanced : Réussi
ChatGPT 4 : Réussi
ChatGPT 3.5 : Échoué

Résultats globaux

Voici comment tous les modèles se sont comportés à travers les quatre tests :

ChatGPT GPT-4o : 4 sur 4 réussis, mais avec cette réponse à double choix étrange
Microsoft Copilot : 0 sur 4 réussis
Meta AI : 1 sur 4 réussi
Meta Code Llama : 1 sur 4 réussi
Google Gemini Advanced : 1 sur 4 réussi
ChatGPT 4 : 4 sur 4 réussis
ChatGPT 3.5 : 3 sur 4 réussis

Jusqu'à présent, ChatGPT a été mon choix de prédilection pour l'assistance au codage. Il a toujours répondu (sauf quand ce n'était pas le cas). Les autres IA ont généralement échoué dans mes tests. Mais GPT-4o m'a surpris avec cette dernière réponse à double choix. Cela m'a fait me demander ce qui se passe à l'intérieur de ce modèle qui pourrait causer un tel accroc.

Malgré cela, GPT-4o reste le meilleur performeur dans mes tests de codage, donc je vais probablement continuer à l'utiliser et me familiariser avec ses particularités. Alternativement, je pourrais revenir à GPT-3.5 ou GPT-4 dans ChatGPT Plus. Restez à l'écoute ; la prochaine fois que ChatGPT mettra à jour son modèle, je relancerai certainement ces tests pour voir s'il peut constamment choisir la bonne réponse à travers les quatre tests.

Avez-vous essayé de coder avec l'un de ces modèles d'IA ? Quelle a été votre expérience ? Faites-nous savoir dans les commentaires ci-dessous.

Article connexe

L'IA Stitch de Google simplifie le processus de conception d'applications Google dévoile l'outil de conception Stitch AI lors de la conférence I/O 2025Google a présenté Stitch, son outil révolutionnaire de conception d'interface alimenté par l'IA, lors de la keynote de Goog

Claude 4 L'IA surpasse ses prédécesseurs dans les tâches de codage et de raisonnement logique Anthropic a dévoilé ses modèles d'IA Claude de nouvelle génération - Claude Opus 4 et Claude Sonnet 4 - qui représentent des avancées majeures dans les capacités de raisonnement hybride, en particulie

Flowomatic AI Agents 2.0 transforme l'automatisation des entreprises grâce à une technologie de pointe Dans le paysage commercial concurrentiel d'aujourd'hui, l'intelligence artificielle est devenue la force motrice de l'efficacité opérationnelle et des stratégies de croissance. Flowomatic AI Agents 2.

commentaires (20)

0/200

Soumettre

JonathanAllen

26 avril 2025 13:46:22 UTC+02:00

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris

25 avril 2025 20:21:39 UTC+02:00

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález

24 avril 2025 13:41:59 UTC+02:00

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました！しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに！🤔

JustinAnderson

23 avril 2025 07:12:28 UTC+02:00

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

NicholasClark

23 avril 2025 04:12:49 UTC+02:00

GPT-4oのコードスキルには感心しました！私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい！でも、その一つのバグ、修正してほしいですね、OpenAI！😅

DavidThomas

22 avril 2025 19:04:24 UTC+02:00

GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔

Top nouvelles

Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois OpenAI améliore l'assistant vocal AI pour de meilleurs chats Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie Google utilise l'IA pour suspendre plus de 39 millions de comptes d'annonces pour une fraude présumée L'informatique de l'IA pour consommer la puissance de plusieurs New York d'ici 2026, explique le fondateur

Plus

En vedette