Microsoft 연구, AI 모델의 소프트웨어 디버깅 한계 드러내다
OpenAI, Anthropic 및 기타 주요 AI 연구소의 AI 모델은 코딩 작업에 점점 더 많이 활용되고 있다. Google CEO Sundar Pichai는 10월에 AI가 회사 내 새로운 코드의 25%를 생성한다고 언급했으며, Meta CEO Mark Zuckerberg는 소셜 미디어 대기업 내에서 AI 코딩 도구를 광범위하게 구현하려고 한다.
그러나 최고 성능의 모델조차도 숙련된 개발자들이 쉽게 처리하는 소프트웨어 버그를 수정하는 데 어려움을 겪는다.
Microsoft의 R&D 부서에서 수행한 최근 Microsoft Research 연구에 따르면, Anthropic의 Claude 3.7 Sonnet과 OpenAI의 o3-mini와 같은 모델은 SWE-bench Lite 소프트웨어 개발 벤치마크에서 많은 문제를 해결하지 못한다. 이 결과는 OpenAI와 같은 기업의 야심찬 주장에도 불구하고 AI가 코딩과 같은 분야에서 인간의 전문성을 아직 따라가지 못한다는 점을 강조한다.
연구진은 Python 디버거를 포함한 디버깅 도구를 갖춘 “단일 프롬프트 기반 에이전트”의 기반으로 9개의 모델을 테스트했다. 이 에이전트는 SWE-bench Lite에서 선별된 300개의 소프트웨어 디버깅 과제를 해결해야 했다.
결과는 고급 모델을 사용했음에도 불구하고 에이전트가 과제의 절반 이상을 성공적으로 해결한 경우가 드물다는 것을 보여주었다. Claude 3.7 Sonnet이 48.4%의 성공률로 선두를 달렸으며, OpenAI의 o1이 30.2%, o3-mini가 22.1%로 뒤를 이었다.

디버깅 도구로 인해 모델이 얻은 성능 향상을 보여주는 연구의 차트. 이미지 제공: Microsoft 실망스러운 결과의 원인은 무엇일까? 일부 모델은 사용 가능한 디버깅 도구를 효과적으로 사용하거나 특정 문제에 적합한 도구를 식별하는 데 어려움을 겪었다. 연구진에 따르면 주요 문제는 충분한 훈련 데이터, 특히 인간의 디버깅 흔적과 같은 “순차적 의사결정 과정”을 포착한 데이터의 부족이었다.
“우리는 이러한 모델을 훈련시키거나 미세 조정하면 디버깅 능력을 개선할 수 있다고 믿는다,”라고 연구진은 썼다. “그러나 이를 위해서는 에이전트가 디버거와 상호작용하여 정보를 수집한 후 수정안을 제안하는 궤적 데이터와 같은 특수 데이터가 필요하다.”
TechCrunch Sessions: AI 참석
OpenAI, Anthropic, Cohere의 연사들이 참여하는 최고의 AI 산업 행사에 자리를 예약하라. 한정된 시간 동안, 전문가 강연, 워크숍, 네트워킹 기회를 포함한 하루 종일 티켓이 단돈 292달러다.
TechCrunch Sessions: AI에서 전시
TC Sessions: AI에서 1,200명 이상의 의사결정자에게 당신의 작업을 선보일 기회를 예약하라. 전시 기회는 5월 9일까지 또는 테이블이 모두 예약될 때까지 가능하다.
이 결과는 놀랍지 않다. 수많은 연구에서 AI가 생성한 코드는 프로그래밍 논리를 이해하는 약점 때문에 보안 결함과 오류를 종종 초래한다고 보여주었다. 잘 알려진 AI 코딩 도구인 Devin의 최근 테스트에서는 20개의 프로그래밍 작업 중 단지 3개만 완료할 수 있었다.
Microsoft의 연구는 AI 모델이 직면한 이 지속적인 도전에 대한 가장 심층적인 검토 중 하나를 제공한다. AI 기반 코딩 도구에 대한 투자자 관심을 억제할 가능성은 낮지만, 개발자와 그들의 리더들이 코딩 작업에 AI를 크게 의존하는 것을 재고하게 만들 수 있다.
특히, 여러 기술 리더들은 AI가 코딩 직업을 없애줄 것이라는 생각에 반대해 왔다. Microsoft 공동 창립자 Bill Gates, Replit CEO Amjad Masad, Okta CEO Todd McKinnon, IBM CEO Arvind Krishna는 모두 프로그래밍이 직업으로서 지속될 것이라는 자신감을 표명했다.
관련 기사
Claude 4 공개: 차세대 AI 모델로 코딩 및 에이전트 성능 향상
Anthropic은 Claude 4 모델 제품군을 출시하며, 최첨단 AI 비서와 코딩 솔루션을 개발하는 개발자들에게 큰 진전을 이루었습니다. 이 제품군에는 최고 성능을 자랑하는 Claude Opus 4와 다양한 애플리케이션에 적합한 다목적 모델인 Claude Sonnet 4가 포함됩니다.Anthropic은 목표에 대해 대담하게 밝히며, 이 모델들이 "고객의
Hugging Face가 Reachy Mini 데스크톱 로봇 예약 주문을 시작하다
Hugging Face가 개발자들에게 최신 로봇 혁신을 탐구하도록 초대한다.AI 플랫폼은 수요일에 Reachy Mini 데스크톱 로봇의 예약 주문을 받기 시작했다고 발표했다. 이 회사는 지난 5월에 더 큰 휴머노이드 로봇 HopeJR과 함께 이 장치의 프로토타입을 처음 공개했다.Hugging Face는 두 가지 Reachy Mini 변형을 제공할 것이다.
Nvidia의 새로운 AI 칩, 중국에서 화웨이의 증가하는 지배력에 직면
Nvidia는 중국의 번영하는 AI 칩 시장에서 입지를 유지하기 위해 화웨이와 경쟁을 준비하고 있습니다.Nvidia의 중국向け 차세대 AI 칩은 규제를 준수하면서 치열한 국내 경쟁에 대응하기 위한 세 번째 시도이자 대담한 전략적 움직임입니다.연속적인 미국 행정부의 지정학적 도전에도 불구하고, Nvidia는 중국 시장에 전념하고 있습니다. 회사는 수출 제한을
의견 (5)
0/200
HenryWalker
2025년 8월 17일 오후 2시 0분 59초 GMT+09:00
It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?
0
BrianRoberts
2025년 8월 14일 오후 4시 0분 59초 GMT+09:00
It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑💻
0
KevinDavis
2025년 8월 10일 오전 6시 0분 59초 GMT+09:00
It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔
0
PeterThomas
2025년 8월 1일 오전 11시 48분 18초 GMT+09:00
Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑💻
0
JuanWhite
2025년 7월 23일 오후 1시 59분 29초 GMT+09:00
AI coding sounds cool, but if it can't debug properly, what's the point? 🤔 Feels like we're hyping up half-baked tools while devs still clean up the mess.
0
OpenAI, Anthropic 및 기타 주요 AI 연구소의 AI 모델은 코딩 작업에 점점 더 많이 활용되고 있다. Google CEO Sundar Pichai는 10월에 AI가 회사 내 새로운 코드의 25%를 생성한다고 언급했으며, Meta CEO Mark Zuckerberg는 소셜 미디어 대기업 내에서 AI 코딩 도구를 광범위하게 구현하려고 한다.
그러나 최고 성능의 모델조차도 숙련된 개발자들이 쉽게 처리하는 소프트웨어 버그를 수정하는 데 어려움을 겪는다.
Microsoft의 R&D 부서에서 수행한 최근 Microsoft Research 연구에 따르면, Anthropic의 Claude 3.7 Sonnet과 OpenAI의 o3-mini와 같은 모델은 SWE-bench Lite 소프트웨어 개발 벤치마크에서 많은 문제를 해결하지 못한다. 이 결과는 OpenAI와 같은 기업의 야심찬 주장에도 불구하고 AI가 코딩과 같은 분야에서 인간의 전문성을 아직 따라가지 못한다는 점을 강조한다.
연구진은 Python 디버거를 포함한 디버깅 도구를 갖춘 “단일 프롬프트 기반 에이전트”의 기반으로 9개의 모델을 테스트했다. 이 에이전트는 SWE-bench Lite에서 선별된 300개의 소프트웨어 디버깅 과제를 해결해야 했다.
결과는 고급 모델을 사용했음에도 불구하고 에이전트가 과제의 절반 이상을 성공적으로 해결한 경우가 드물다는 것을 보여주었다. Claude 3.7 Sonnet이 48.4%의 성공률로 선두를 달렸으며, OpenAI의 o1이 30.2%, o3-mini가 22.1%로 뒤를 이었다.

실망스러운 결과의 원인은 무엇일까? 일부 모델은 사용 가능한 디버깅 도구를 효과적으로 사용하거나 특정 문제에 적합한 도구를 식별하는 데 어려움을 겪었다. 연구진에 따르면 주요 문제는 충분한 훈련 데이터, 특히 인간의 디버깅 흔적과 같은 “순차적 의사결정 과정”을 포착한 데이터의 부족이었다.
“우리는 이러한 모델을 훈련시키거나 미세 조정하면 디버깅 능력을 개선할 수 있다고 믿는다,”라고 연구진은 썼다. “그러나 이를 위해서는 에이전트가 디버거와 상호작용하여 정보를 수집한 후 수정안을 제안하는 궤적 데이터와 같은 특수 데이터가 필요하다.”
TechCrunch Sessions: AI 참석
OpenAI, Anthropic, Cohere의 연사들이 참여하는 최고의 AI 산업 행사에 자리를 예약하라. 한정된 시간 동안, 전문가 강연, 워크숍, 네트워킹 기회를 포함한 하루 종일 티켓이 단돈 292달러다.
TechCrunch Sessions: AI에서 전시
TC Sessions: AI에서 1,200명 이상의 의사결정자에게 당신의 작업을 선보일 기회를 예약하라. 전시 기회는 5월 9일까지 또는 테이블이 모두 예약될 때까지 가능하다.
이 결과는 놀랍지 않다. 수많은 연구에서 AI가 생성한 코드는 프로그래밍 논리를 이해하는 약점 때문에 보안 결함과 오류를 종종 초래한다고 보여주었다. 잘 알려진 AI 코딩 도구인 Devin의 최근 테스트에서는 20개의 프로그래밍 작업 중 단지 3개만 완료할 수 있었다.
Microsoft의 연구는 AI 모델이 직면한 이 지속적인 도전에 대한 가장 심층적인 검토 중 하나를 제공한다. AI 기반 코딩 도구에 대한 투자자 관심을 억제할 가능성은 낮지만, 개발자와 그들의 리더들이 코딩 작업에 AI를 크게 의존하는 것을 재고하게 만들 수 있다.
특히, 여러 기술 리더들은 AI가 코딩 직업을 없애줄 것이라는 생각에 반대해 왔다. Microsoft 공동 창립자 Bill Gates, Replit CEO Amjad Masad, Okta CEO Todd McKinnon, IBM CEO Arvind Krishna는 모두 프로그래밍이 직업으로서 지속될 것이라는 자신감을 표명했다.



It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?




It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑💻




It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔




Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑💻




AI coding sounds cool, but if it can't debug properly, what's the point? 🤔 Feels like we're hyping up half-baked tools while devs still clean up the mess.












