option
Maison
Nouvelles
Étude de Microsoft révèle les limites des modèles d'IA dans le débogage de logiciels

Étude de Microsoft révèle les limites des modèles d'IA dans le débogage de logiciels

19 juillet 2025
80

Les modèles d'IA d'OpenAI, Anthropic et d'autres laboratoires d'IA de pointe sont de plus en plus utilisés pour les tâches de codage. Le PDG de Google, Sundar Pichai, a noté en octobre que l'IA génère 25 % du nouveau code dans l'entreprise, tandis que le PDG de Meta, Mark Zuckerberg, vise à implémenter largement des outils de codage par IA au sein du géant des réseaux sociaux.

Cependant, même les modèles les plus performants peinent à corriger les bogues logiciels que les développeurs expérimentés gèrent avec aisance.

Une récente étude de Microsoft Research, menée par la division R&D de Microsoft, montre que des modèles comme Claude 3.7 Sonnet d'Anthropic et o3-mini d'OpenAI ont du mal à résoudre de nombreux problèmes dans le benchmark de développement logiciel SWE-bench Lite. Les résultats soulignent que, malgré les revendications ambitieuses d'entreprises comme OpenAI, l'IA reste en deçà de l'expertise humaine dans des domaines comme le codage.

Les chercheurs de l'étude ont testé neuf modèles comme base pour un « agent basé sur une seule invite » équipé d'outils de débogage, y compris un débogueur Python. L'agent a été chargé de relever 300 défis de débogage logiciel soigneusement sélectionnés dans SWE-bench Lite.

Les résultats ont montré que même avec des modèles avancés, l'agent a rarement réussi à résoudre plus de la moitié des tâches avec succès. Claude 3.7 Sonnet a dominé avec un taux de réussite de 48,4 %, suivi par o1 d'OpenAI à 30,2 %, et o3-mini à 22,1 %.

Benchmark de débogage IA de Microsoft
Un graphique de l'étude montrant l'amélioration des performances des modèles grâce aux outils de débogage. Crédits image : Microsoft

Qu'explique ces résultats décevants ? Certains modèles ont eu du mal à utiliser efficacement les outils de débogage disponibles ou à identifier quels outils convenaient à des problèmes spécifiques. Le principal problème, selon les chercheurs, était un manque de données d'entraînement suffisantes, en particulier des données capturant les « processus de prise de décision séquentielle » comme les traces de débogage humain.

« Nous pensons que l'entraînement ou l'ajustement fin de ces modèles peut améliorer leurs capacités de débogage », ont écrit les chercheurs. « Cependant, cela nécessite des données spécialisées, telles que des données de trajectoire capturant les interactions des agents avec un débogueur pour recueillir des informations avant de proposer des corrections. »

Participez aux sessions TechCrunch : IA

Réservez votre place à notre événement phare de l'industrie de l'IA, avec des conférenciers d'OpenAI, Anthropic et Cohere. Pour une durée limitée, les billets coûtent seulement 292 $ pour une journée complète de conférences d'experts, d'ateliers et d'opportunités de réseautage.

Exposez aux sessions TechCrunch : IA

Réservez votre place aux sessions TC : IA pour présenter votre travail à plus de 1 200 décideurs. Des opportunités d'exposition sont disponibles jusqu'au 9 mai ou jusqu'à ce que les stands soient entièrement réservés.

Les résultats ne sont pas surprenants. De nombreuses études ont montré que le code généré par l'IA introduit souvent des failles de sécurité et des erreurs en raison de faiblesses dans la compréhension de la logique de programmation. Un test récent de Devin, un outil de codage IA bien connu, a révélé qu'il ne pouvait accomplir que trois des 20 tâches de programmation.

L'étude de Microsoft offre l'un des examens les plus approfondis de ce défi persistant pour les modèles d'IA. Bien qu'il soit peu probable que cela freine l'intérêt des investisseurs pour les outils de codage alimentés par l'IA, cela pourrait inciter les développeurs et leurs dirigeants à reconsidérer une dépendance excessive envers l'IA pour les tâches de codage.

Notamment, plusieurs leaders technologiques ont repoussé l'idée que l'IA éliminera les emplois de codage. Le cofondateur de Microsoft, Bill Gates, le PDG de Replit, Amjad Masad, le PDG d'Okta, Todd McKinnon, et le PDG d'IBM, Arvind Krishna, ont tous exprimé leur confiance dans la pérennité de la profession de programmeur.

Article connexe
Claude 4 Dévoilé : Modèles d'IA de Nouvelle Génération Améliorent les Performances de Codage et d'Agents Claude 4 Dévoilé : Modèles d'IA de Nouvelle Génération Améliorent les Performances de Codage et d'Agents Anthropic a lancé sa famille de modèles Claude 4, marquant une avancée significative pour les développeurs créant des assistants IA de pointe et des solutions de codage. La gamme comprend Claude Opus
Hugging Face Lance les Précommandes pour les Robots de Bureau Reachy Mini Hugging Face Lance les Précommandes pour les Robots de Bureau Reachy Mini Hugging Face invite les développeurs à découvrir sa dernière innovation en robotique.La plateforme d'IA a annoncé mercredi qu'elle accepte désormais les précommandes pour ses robots de bureau Reachy M
La nouvelle puce AI de Nvidia face à la domination croissante de Huawei en Chine La nouvelle puce AI de Nvidia face à la domination croissante de Huawei en Chine Nvidia se prépare à concurrencer Huawei pour conserver sa position sur le marché florissant des puces AI en Chine.La prochaine puce AI de Nvidia pour la Chine est une démarche stratégique audacieuse,
commentaires (5)
0/200
HenryWalker
HenryWalker 17 août 2025 07:00:59 UTC+02:00

It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?

BrianRoberts
BrianRoberts 14 août 2025 09:00:59 UTC+02:00

It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑‍💻

KevinDavis
KevinDavis 9 août 2025 23:00:59 UTC+02:00

It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔

PeterThomas
PeterThomas 1 août 2025 04:48:18 UTC+02:00

Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑‍💻

JuanWhite
JuanWhite 23 juillet 2025 06:59:29 UTC+02:00

AI coding sounds cool, but if it can't debug properly, what's the point? 🤔 Feels like we're hyping up half-baked tools while devs still clean up the mess.

Retour en haut
OR