Estudo da Microsoft Revela Limitações de Modelos de IA na Depuração de Software

Lar

Notícias

19 de Julho de 2025

OliviaJones

# ai # research

Modelos de IA da OpenAI, Anthropic e outros laboratórios de IA líderes estão sendo cada vez mais utilizados para tarefas de codificação. O CEO da Google, Sundar Pichai, observou em outubro que a IA gera 25% do novo código na empresa, enquanto o CEO da Meta, Mark Zuckerberg, pretende implementar amplamente ferramentas de codificação por IA na gigante das redes sociais.

No entanto, mesmo os modelos de melhor desempenho têm dificuldades para corrigir bugs de software que desenvolvedores experientes lidam com facilidade.

Um recente estudo da Microsoft Research, conduzido pela divisão de P&D da Microsoft, mostra que modelos como o Claude 3.7 Sonnet da Anthropic e o o3-mini da OpenAI têm dificuldades para resolver muitos problemas no benchmark de desenvolvimento de software SWE-bench Lite. As descobertas destacam que, apesar das afirmações ambiciosas de empresas como a OpenAI, a IA ainda fica aquém da expertise humana em áreas como codificação.

Os pesquisadores do estudo testaram nove modelos como base para um “agente baseado em prompt único” equipado com ferramentas de depuração, incluindo um depurador Python. O agente foi encarregado de abordar 300 desafios de depuração de software selecionados do SWE-bench Lite.

Os resultados mostraram que, mesmo com modelos avançados, o agente raramente resolveu mais da metade das tarefas com sucesso. O Claude 3.7 Sonnet liderou com uma taxa de sucesso de 48,4%, seguido pelo o1 da OpenAI com 30,2% e o o3-mini com 22,1%.

Benchmark de depuração de IA da Microsoft

Um gráfico do estudo mostrando o aumento de desempenho que os modelos obtiveram com ferramentas de depuração. Créditos da imagem: Microsoft

O que explica os resultados decepcionantes? Alguns modelos tiveram dificuldades para usar efetivamente as ferramentas de depuração disponíveis ou identificar quais ferramentas eram adequadas para problemas específicos. O principal problema, segundo os pesquisadores, foi a falta de dados de treinamento suficientes, particularmente dados que capturam “processos de tomada de decisão sequencial” como rastros de depuração humana.

“Acreditamos que treinar ou ajustar esses modelos pode melhorar suas capacidades de depuração”, escreveram os pesquisadores. “No entanto, isso requer dados especializados, como dados de trajetória que capturam agentes interagindo com um depurador para coletar informações antes de propor correções.”

Participe das Sessões TechCrunch: IA

Reserve seu lugar em nosso principal evento da indústria de IA, com palestrantes da OpenAI, Anthropic e Cohere. Por tempo limitado, os ingressos custam apenas $292 para um dia inteiro de palestras de especialistas, workshops e oportunidades de networking.

Exiba no TechCrunch Sessions: IA

Reserve seu espaço no TC Sessions: IA para apresentar seu trabalho a mais de 1.200 tomadores de decisão. Oportunidades de exposição estão disponíveis até 9 de maio ou até que as mesas estejam totalmente reservadas.

As descobertas não são surpreendentes. Numerosos estudos mostraram que o código gerado por IA frequentemente introduz falhas de segurança e erros devido a fraquezas na compreensão da lógica de programação. Um teste recente do Devin, uma conhecida ferramenta de codificação por IA, revelou que ela só conseguiu completar três de 20 tarefas de programação.

O estudo da Microsoft oferece uma das análises mais aprofundadas desse desafio contínuo para modelos de IA. Embora seja improvável que isso reduza o interesse dos investidores em ferramentas de codificação alimentadas por IA, pode levar desenvolvedores e seus líderes a reconsiderarem a dependência excessiva em IA para tarefas de codificação.

Notavelmente, vários líderes de tecnologia refutaram a ideia de que a IA eliminará empregos de codificação. O cofundador da Microsoft, Bill Gates, o CEO da Replit, Amjad Masad, o CEO da Okta, Todd McKinnon, e o CEO da IBM, Arvind Krishna, expressaram confiança de que a programação como profissão perdurará.

Artigo relacionado

Soluções Impulsionadas por IA Podem Reduzir Significativamente as Emissões Globais de Carbono Um estudo recente da London School of Economics e Systemiq revela que a inteligência artificial pode reduzir substancialmente as emissões globais de carbono sem sacrificar conveniências modernas, posi

Apple Revela Recursos Aprimorados do Siri Neste Outono A Apple está pronta para lançar suas capacidades avançadas e centradas no usuário do Siri antes da temporada de festas de 2025, conforme relatado por The New York Times. Citando três fontes informadas

Washington Post Faz Parceria com OpenAI para Melhorar o Acesso a Notícias via ChatGPT The Washington Post e OpenAI anunciaram uma “parceria estratégica” para “ampliar o acesso a notícias confiáveis através do ChatGPT,” conforme comunicado de imprensa do Washington Post.OpenAI formou al

Comentários (0)

0/200

Enviar

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Ai computando para consumir poder de múltiplos NYCs até 2026, diz o fundador Experimente as palavras cruzadas de E/S da IA: uma reviravolta moderna no jogo clássico de palavras O CEO da NVIDIA esclarece conceitos errôneos sobre o impacto do mercado de Deepseek Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Clone de Voz por IA: Guia definitivo para dominar a conversão de voz Notebooklm adiciona o recurso de descoberta de fontes web Dentro do salto de IA da Google: Gemini 2.5 pensa mais profundamente, fala mais inteligente e codifica mais rápido

Mais

Apresentou