opção
Lar
Notícias
Estudo da Microsoft Revela Limitações de Modelos de IA na Depuração de Software

Estudo da Microsoft Revela Limitações de Modelos de IA na Depuração de Software

19 de Julho de 2025
80

Modelos de IA da OpenAI, Anthropic e outros laboratórios de IA líderes estão sendo cada vez mais utilizados para tarefas de codificação. O CEO da Google, Sundar Pichai, observou em outubro que a IA gera 25% do novo código na empresa, enquanto o CEO da Meta, Mark Zuckerberg, pretende implementar amplamente ferramentas de codificação por IA na gigante das redes sociais.

No entanto, mesmo os modelos de melhor desempenho têm dificuldades para corrigir bugs de software que desenvolvedores experientes lidam com facilidade.

Um recente estudo da Microsoft Research, conduzido pela divisão de P&D da Microsoft, mostra que modelos como o Claude 3.7 Sonnet da Anthropic e o o3-mini da OpenAI têm dificuldades para resolver muitos problemas no benchmark de desenvolvimento de software SWE-bench Lite. As descobertas destacam que, apesar das afirmações ambiciosas de empresas como a OpenAI, a IA ainda fica aquém da expertise humana em áreas como codificação.

Os pesquisadores do estudo testaram nove modelos como base para um “agente baseado em prompt único” equipado com ferramentas de depuração, incluindo um depurador Python. O agente foi encarregado de abordar 300 desafios de depuração de software selecionados do SWE-bench Lite.

Os resultados mostraram que, mesmo com modelos avançados, o agente raramente resolveu mais da metade das tarefas com sucesso. O Claude 3.7 Sonnet liderou com uma taxa de sucesso de 48,4%, seguido pelo o1 da OpenAI com 30,2% e o o3-mini com 22,1%.

Benchmark de depuração de IA da Microsoft
Um gráfico do estudo mostrando o aumento de desempenho que os modelos obtiveram com ferramentas de depuração. Créditos da imagem: Microsoft

O que explica os resultados decepcionantes? Alguns modelos tiveram dificuldades para usar efetivamente as ferramentas de depuração disponíveis ou identificar quais ferramentas eram adequadas para problemas específicos. O principal problema, segundo os pesquisadores, foi a falta de dados de treinamento suficientes, particularmente dados que capturam “processos de tomada de decisão sequencial” como rastros de depuração humana.

“Acreditamos que treinar ou ajustar esses modelos pode melhorar suas capacidades de depuração”, escreveram os pesquisadores. “No entanto, isso requer dados especializados, como dados de trajetória que capturam agentes interagindo com um depurador para coletar informações antes de propor correções.”

Participe das Sessões TechCrunch: IA

Reserve seu lugar em nosso principal evento da indústria de IA, com palestrantes da OpenAI, Anthropic e Cohere. Por tempo limitado, os ingressos custam apenas $292 para um dia inteiro de palestras de especialistas, workshops e oportunidades de networking.

Exiba no TechCrunch Sessions: IA

Reserve seu espaço no TC Sessions: IA para apresentar seu trabalho a mais de 1.200 tomadores de decisão. Oportunidades de exposição estão disponíveis até 9 de maio ou até que as mesas estejam totalmente reservadas.

As descobertas não são surpreendentes. Numerosos estudos mostraram que o código gerado por IA frequentemente introduz falhas de segurança e erros devido a fraquezas na compreensão da lógica de programação. Um teste recente do Devin, uma conhecida ferramenta de codificação por IA, revelou que ela só conseguiu completar três de 20 tarefas de programação.

O estudo da Microsoft oferece uma das análises mais aprofundadas desse desafio contínuo para modelos de IA. Embora seja improvável que isso reduza o interesse dos investidores em ferramentas de codificação alimentadas por IA, pode levar desenvolvedores e seus líderes a reconsiderarem a dependência excessiva em IA para tarefas de codificação.

Notavelmente, vários líderes de tecnologia refutaram a ideia de que a IA eliminará empregos de codificação. O cofundador da Microsoft, Bill Gates, o CEO da Replit, Amjad Masad, o CEO da Okta, Todd McKinnon, e o CEO da IBM, Arvind Krishna, expressaram confiança de que a programação como profissão perdurará.

Artigo relacionado
Claude 4 Revelado: Modelos de IA de Próxima Geração Impulsionam Codificação e Desempenho Agêntico Claude 4 Revelado: Modelos de IA de Próxima Geração Impulsionam Codificação e Desempenho Agêntico A Anthropic lançou sua família de modelos Claude 4, marcando um avanço significativo para desenvolvedores que criam assistentes de IA de ponta e soluções de codificação. A linha inclui Claude Opus 4,
Hugging Face Lança Pré-Encomendas para Robôs de Mesa Reachy Mini Hugging Face Lança Pré-Encomendas para Robôs de Mesa Reachy Mini Hugging Face convida desenvolvedores a explorar sua mais recente inovação em robótica.A plataforma de IA anunciou na quarta-feira que agora está aceitando pré-encomendas para seus robôs de mesa Reachy
Novo chip de IA da Nvidia enfrenta o crescente domínio da Huawei na China Novo chip de IA da Nvidia enfrenta o crescente domínio da Huawei na China A Nvidia está se preparando para competir com a Huawei para manter sua posição no próspero mercado de chips de IA da China.O próximo chip de IA da Nvidia para a China é um movimento estratégico ousado
Comentários (5)
0/200
HenryWalker
HenryWalker 17 de Agosto de 2025 à59 06:00:59 WEST

It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?

BrianRoberts
BrianRoberts 14 de Agosto de 2025 à59 08:00:59 WEST

It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑‍💻

KevinDavis
KevinDavis 9 de Agosto de 2025 à59 22:00:59 WEST

It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔

PeterThomas
PeterThomas 1 de Agosto de 2025 à18 03:48:18 WEST

Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑‍💻

JuanWhite
JuanWhite 23 de Julho de 2025 à29 05:59:29 WEST

AI coding sounds cool, but if it can't debug properly, what's the point? 🤔 Feels like we're hyping up half-baked tools while devs still clean up the mess.

De volta ao topo
OR