Étude de Microsoft révèle les limites des modèles d'IA dans le débogage de logiciels

Maison

Nouvelles

19 juillet 2025

OliviaJones

# ai # research

Les modèles d'IA d'OpenAI, Anthropic et d'autres laboratoires d'IA de pointe sont de plus en plus utilisés pour les tâches de codage. Le PDG de Google, Sundar Pichai, a noté en octobre que l'IA génère 25 % du nouveau code dans l'entreprise, tandis que le PDG de Meta, Mark Zuckerberg, vise à implémenter largement des outils de codage par IA au sein du géant des réseaux sociaux.

Cependant, même les modèles les plus performants peinent à corriger les bogues logiciels que les développeurs expérimentés gèrent avec aisance.

Une récente étude de Microsoft Research, menée par la division R&D de Microsoft, montre que des modèles comme Claude 3.7 Sonnet d'Anthropic et o3-mini d'OpenAI ont du mal à résoudre de nombreux problèmes dans le benchmark de développement logiciel SWE-bench Lite. Les résultats soulignent que, malgré les revendications ambitieuses d'entreprises comme OpenAI, l'IA reste en deçà de l'expertise humaine dans des domaines comme le codage.

Les chercheurs de l'étude ont testé neuf modèles comme base pour un « agent basé sur une seule invite » équipé d'outils de débogage, y compris un débogueur Python. L'agent a été chargé de relever 300 défis de débogage logiciel soigneusement sélectionnés dans SWE-bench Lite.

Les résultats ont montré que même avec des modèles avancés, l'agent a rarement réussi à résoudre plus de la moitié des tâches avec succès. Claude 3.7 Sonnet a dominé avec un taux de réussite de 48,4 %, suivi par o1 d'OpenAI à 30,2 %, et o3-mini à 22,1 %.

Un graphique de l'étude montrant l'amélioration des performances des modèles grâce aux outils de débogage. Crédits image : Microsoft

Qu'explique ces résultats décevants ? Certains modèles ont eu du mal à utiliser efficacement les outils de débogage disponibles ou à identifier quels outils convenaient à des problèmes spécifiques. Le principal problème, selon les chercheurs, était un manque de données d'entraînement suffisantes, en particulier des données capturant les « processus de prise de décision séquentielle » comme les traces de débogage humain.

« Nous pensons que l'entraînement ou l'ajustement fin de ces modèles peut améliorer leurs capacités de débogage », ont écrit les chercheurs. « Cependant, cela nécessite des données spécialisées, telles que des données de trajectoire capturant les interactions des agents avec un débogueur pour recueillir des informations avant de proposer des corrections. »

Participez aux sessions TechCrunch : IA

Réservez votre place à notre événement phare de l'industrie de l'IA, avec des conférenciers d'OpenAI, Anthropic et Cohere. Pour une durée limitée, les billets coûtent seulement 292 $ pour une journée complète de conférences d'experts, d'ateliers et d'opportunités de réseautage.

Exposez aux sessions TechCrunch : IA

Réservez votre place aux sessions TC : IA pour présenter votre travail à plus de 1 200 décideurs. Des opportunités d'exposition sont disponibles jusqu'au 9 mai ou jusqu'à ce que les stands soient entièrement réservés.

Les résultats ne sont pas surprenants. De nombreuses études ont montré que le code généré par l'IA introduit souvent des failles de sécurité et des erreurs en raison de faiblesses dans la compréhension de la logique de programmation. Un test récent de Devin, un outil de codage IA bien connu, a révélé qu'il ne pouvait accomplir que trois des 20 tâches de programmation.

L'étude de Microsoft offre l'un des examens les plus approfondis de ce défi persistant pour les modèles d'IA. Bien qu'il soit peu probable que cela freine l'intérêt des investisseurs pour les outils de codage alimentés par l'IA, cela pourrait inciter les développeurs et leurs dirigeants à reconsidérer une dépendance excessive envers l'IA pour les tâches de codage.

Notamment, plusieurs leaders technologiques ont repoussé l'idée que l'IA éliminera les emplois de codage. Le cofondateur de Microsoft, Bill Gates, le PDG de Replit, Amjad Masad, le PDG d'Okta, Todd McKinnon, et le PDG d'IBM, Arvind Krishna, ont tous exprimé leur confiance dans la pérennité de la profession de programmeur.

Article connexe

Étude de Microsoft révèle les limites des modèles d'IA dans le débogage de logiciels Les modèles d'IA d'OpenAI, Anthropic et d'autres laboratoires d'IA de pointe sont de plus en plus utilisés pour les tâches de codage. Le PDG de Google, Sundar Pichai, a noté en octobre que l'IA génère

Solutions alimentées par l'IA pourraient réduire significativement les émissions mondiales de carbone Une étude récente de la London School of Economics et Systemiq révèle que l'intelligence artificielle pourrait considérablement réduire les émissions mondiales de carbone sans sacrifier les commodités

Apple dévoile des fonctionnalités Siri améliorées cet automne Apple est prêt à lancer ses capacités Siri avancées et axées sur l'utilisateur avant la saison des fêtes 2025, selon The New York Times. Citant trois sources informées, le média a noté que l'assistant

commentaires (0)

0/200

Soumettre

Top nouvelles

Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives OpenAI améliore l'assistant vocal AI pour de meilleurs chats L'informatique de l'IA pour consommer la puissance de plusieurs New York d'ici 2026, explique le fondateur Découvrez les mots croisés d'E / S propulsés par l'IA: une touche moderne sur le jeu de mots classique Le PDG de Nvidia clarifie les idées fausses sur l'impact du marché de Deepseek Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Clonage Vocal IA: Guide Ultime pour Maîtriser la Conversion de Voix Notebooklm ajoute une fonction de découverte de source Web À l'intérieur du bond en IA de Google : Gemini 2.5 réfléchit plus profondément, parle plus intelligemment et code plus rapidement

Plus

En vedette