Estudio de Microsoft Revela Limitaciones de Modelos de IA en Depuración de Software
Modelos de IA de OpenAI, Anthropic y otros laboratorios líderes de IA se utilizan cada vez más para tareas de codificación. El CEO de Google, Sundar Pichai, señaló en octubre que la IA genera el 25% del nuevo código en la empresa, mientras que el CEO de Meta, Mark Zuckerberg, busca implementar ampliamente herramientas de codificación de IA en el gigante de las redes sociales.
Sin embargo, incluso los modelos de mejor rendimiento tienen dificultades para corregir errores de software que los desarrolladores experimentados manejan con facilidad.
Un reciente estudio de Microsoft Research, realizado por la división de I+D de Microsoft, muestra que modelos como Claude 3.7 Sonnet de Anthropic y o3-mini de OpenAI tienen dificultades para resolver muchos problemas en el punto de referencia de desarrollo de software SWE-bench Lite. Los hallazgos destacan que, a pesar de las ambiciosas afirmaciones de empresas como OpenAI, la IA aún está lejos de la experiencia humana en áreas como la codificación.
Los investigadores del estudio probaron nueve modelos como base para un “agente basado en un solo prompt” equipado con herramientas de depuración, incluido un depurador de Python. El agente tuvo la tarea de abordar 300 desafíos de depuración de software seleccionados de SWE-bench Lite.
Los resultados mostraron que incluso con modelos avanzados, el agente rara vez resolvió más de la mitad de las tareas con éxito. Claude 3.7 Sonnet lideró con una tasa de éxito del 48.4%, seguido por o1 de OpenAI con un 30.2% y o3-mini con un 22.1%.

Un gráfico del estudio que muestra el aumento de rendimiento que los modelos obtuvieron con herramientas de depuración. Créditos de la imagen: Microsoft ¿Qué explica los resultados mediocres? Algunos modelos tuvieron dificultades para usar efectivamente las herramientas de depuración disponibles o identificar qué herramientas eran adecuadas para problemas específicos. El problema principal, según los investigadores, fue la falta de datos de entrenamiento suficientes, particularmente datos que capturen “procesos de toma de decisiones secuenciales” como los rastros de depuración humana.
“Creemos que entrenar o ajustar estos modelos puede mejorar sus capacidades de depuración,” escribieron los investigadores. “Sin embargo, esto requiere datos especializados, como datos de trayectoria que capturen a los agentes interactuando con un depurador para recopilar información antes de proponer soluciones.”
Asiste a TechCrunch Sessions: AI
Reserva tu lugar en nuestro evento principal de la industria de IA, con oradores de OpenAI, Anthropic y Cohere. Por tiempo limitado, las entradas cuestan solo $292 para un día completo de charlas de expertos, talleres y oportunidades de networking.
Exhibe en TechCrunch Sessions: AI
Reserva tu espacio en TC Sessions: AI para presentar tu trabajo a más de 1,200 tomadores de decisiones. Las oportunidades de exhibición están disponibles hasta el 9 de mayo o hasta que las mesas estén completamente reservadas.
Los hallazgos no son sorprendentes. Numerosos estudios han demostrado que el código generado por IA a menudo introduce fallos de seguridad y errores debido a debilidades en la comprensión de la lógica de programación. Una prueba reciente de Devin, una conocida herramienta de codificación de IA, reveló que solo pudo completar tres de 20 tareas de programación.
El estudio de Microsoft ofrece uno de los exámenes más profundos de este desafío continuo para los modelos de IA. Aunque es poco probable que frene el interés de los inversores en herramientas de codificación impulsadas por IA, puede llevar a los desarrolladores y sus líderes a reconsiderar depender en gran medida de la IA para tareas de codificación.
Notablemente, varios líderes tecnológicos han rechazado la idea de que la IA eliminará los empleos de codificación. El cofundador de Microsoft, Bill Gates, el CEO de Replit, Amjad Masad, el CEO de Okta, Todd McKinnon, y el CEO de IBM, Arvind Krishna, han expresado confianza en que la programación como profesión perdurará.
Artículo relacionado
Soluciones impulsadas por IA podrían reducir significativamente las emisiones globales de carbono
Un estudio reciente de la London School of Economics y Systemiq revela que la inteligencia artificial podría reducir sustancialmente las emisiones globales de carbono sin sacrificar las comodidades mo
Apple Presenta Funciones Mejoradas de Siri Este Otoño
Apple está listo para lanzar sus capacidades avanzadas y centradas en el usuario de Siri antes de la temporada navideña de 2025, según informó The New York Times. Citando tres fuentes informadas, el m
Washington Post se asocia con OpenAI para mejorar el acceso a noticias a través de ChatGPT
The Washington Post y OpenAI han anunciado una “asociación estratégica” para “ampliar el acceso a noticias confiables a través de ChatGPT”, según un comunicado de prensa de The Washington Post.OpenAI
comentario (0)
0/200
Modelos de IA de OpenAI, Anthropic y otros laboratorios líderes de IA se utilizan cada vez más para tareas de codificación. El CEO de Google, Sundar Pichai, señaló en octubre que la IA genera el 25% del nuevo código en la empresa, mientras que el CEO de Meta, Mark Zuckerberg, busca implementar ampliamente herramientas de codificación de IA en el gigante de las redes sociales.
Sin embargo, incluso los modelos de mejor rendimiento tienen dificultades para corregir errores de software que los desarrolladores experimentados manejan con facilidad.
Un reciente estudio de Microsoft Research, realizado por la división de I+D de Microsoft, muestra que modelos como Claude 3.7 Sonnet de Anthropic y o3-mini de OpenAI tienen dificultades para resolver muchos problemas en el punto de referencia de desarrollo de software SWE-bench Lite. Los hallazgos destacan que, a pesar de las ambiciosas afirmaciones de empresas como OpenAI, la IA aún está lejos de la experiencia humana en áreas como la codificación.
Los investigadores del estudio probaron nueve modelos como base para un “agente basado en un solo prompt” equipado con herramientas de depuración, incluido un depurador de Python. El agente tuvo la tarea de abordar 300 desafíos de depuración de software seleccionados de SWE-bench Lite.
Los resultados mostraron que incluso con modelos avanzados, el agente rara vez resolvió más de la mitad de las tareas con éxito. Claude 3.7 Sonnet lideró con una tasa de éxito del 48.4%, seguido por o1 de OpenAI con un 30.2% y o3-mini con un 22.1%.

¿Qué explica los resultados mediocres? Algunos modelos tuvieron dificultades para usar efectivamente las herramientas de depuración disponibles o identificar qué herramientas eran adecuadas para problemas específicos. El problema principal, según los investigadores, fue la falta de datos de entrenamiento suficientes, particularmente datos que capturen “procesos de toma de decisiones secuenciales” como los rastros de depuración humana.
“Creemos que entrenar o ajustar estos modelos puede mejorar sus capacidades de depuración,” escribieron los investigadores. “Sin embargo, esto requiere datos especializados, como datos de trayectoria que capturen a los agentes interactuando con un depurador para recopilar información antes de proponer soluciones.”
Asiste a TechCrunch Sessions: AI
Reserva tu lugar en nuestro evento principal de la industria de IA, con oradores de OpenAI, Anthropic y Cohere. Por tiempo limitado, las entradas cuestan solo $292 para un día completo de charlas de expertos, talleres y oportunidades de networking.
Exhibe en TechCrunch Sessions: AI
Reserva tu espacio en TC Sessions: AI para presentar tu trabajo a más de 1,200 tomadores de decisiones. Las oportunidades de exhibición están disponibles hasta el 9 de mayo o hasta que las mesas estén completamente reservadas.
Los hallazgos no son sorprendentes. Numerosos estudios han demostrado que el código generado por IA a menudo introduce fallos de seguridad y errores debido a debilidades en la comprensión de la lógica de programación. Una prueba reciente de Devin, una conocida herramienta de codificación de IA, reveló que solo pudo completar tres de 20 tareas de programación.
El estudio de Microsoft ofrece uno de los exámenes más profundos de este desafío continuo para los modelos de IA. Aunque es poco probable que frene el interés de los inversores en herramientas de codificación impulsadas por IA, puede llevar a los desarrolladores y sus líderes a reconsiderar depender en gran medida de la IA para tareas de codificación.
Notablemente, varios líderes tecnológicos han rechazado la idea de que la IA eliminará los empleos de codificación. El cofundador de Microsoft, Bill Gates, el CEO de Replit, Amjad Masad, el CEO de Okta, Todd McKinnon, y el CEO de IBM, Arvind Krishna, han expresado confianza en que la programación como profesión perdurará.











