옵션
소식
Microsoft 연구, AI 모델의 소프트웨어 디버깅 한계 드러내다

Microsoft 연구, AI 모델의 소프트웨어 디버깅 한계 드러내다

2025년 7월 19일
0

OpenAI, Anthropic 및 기타 주요 AI 연구소의 AI 모델은 코딩 작업에 점점 더 많이 활용되고 있다. Google CEO Sundar Pichai는 10월에 AI가 회사 내 새로운 코드의 25%를 생성한다고 언급했으며, Meta CEO Mark Zuckerberg는 소셜 미디어 대기업 내에서 AI 코딩 도구를 광범위하게 구현하려고 한다.

그러나 최고 성능의 모델조차도 숙련된 개발자들이 쉽게 처리하는 소프트웨어 버그를 수정하는 데 어려움을 겪는다.

Microsoft의 R&D 부서에서 수행한 최근 Microsoft Research 연구에 따르면, Anthropic의 Claude 3.7 Sonnet과 OpenAI의 o3-mini와 같은 모델은 SWE-bench Lite 소프트웨어 개발 벤치마크에서 많은 문제를 해결하지 못한다. 이 결과는 OpenAI와 같은 기업의 야심찬 주장에도 불구하고 AI가 코딩과 같은 분야에서 인간의 전문성을 아직 따라가지 못한다는 점을 강조한다.

연구진은 Python 디버거를 포함한 디버깅 도구를 갖춘 “단일 프롬프트 기반 에이전트”의 기반으로 9개의 모델을 테스트했다. 이 에이전트는 SWE-bench Lite에서 선별된 300개의 소프트웨어 디버깅 과제를 해결해야 했다.

결과는 고급 모델을 사용했음에도 불구하고 에이전트가 과제의 절반 이상을 성공적으로 해결한 경우가 드물다는 것을 보여주었다. Claude 3.7 Sonnet이 48.4%의 성공률로 선두를 달렸으며, OpenAI의 o1이 30.2%, o3-mini가 22.1%로 뒤를 이었다.

Microsoft AI 디버깅 벤치마크
디버깅 도구로 인해 모델이 얻은 성능 향상을 보여주는 연구의 차트. 이미지 제공: Microsoft

실망스러운 결과의 원인은 무엇일까? 일부 모델은 사용 가능한 디버깅 도구를 효과적으로 사용하거나 특정 문제에 적합한 도구를 식별하는 데 어려움을 겪었다. 연구진에 따르면 주요 문제는 충분한 훈련 데이터, 특히 인간의 디버깅 흔적과 같은 “순차적 의사결정 과정”을 포착한 데이터의 부족이었다.

“우리는 이러한 모델을 훈련시키거나 미세 조정하면 디버깅 능력을 개선할 수 있다고 믿는다,”라고 연구진은 썼다. “그러나 이를 위해서는 에이전트가 디버거와 상호작용하여 정보를 수집한 후 수정안을 제안하는 궤적 데이터와 같은 특수 데이터가 필요하다.”

TechCrunch Sessions: AI 참석

OpenAI, Anthropic, Cohere의 연사들이 참여하는 최고의 AI 산업 행사에 자리를 예약하라. 한정된 시간 동안, 전문가 강연, 워크숍, 네트워킹 기회를 포함한 하루 종일 티켓이 단돈 292달러다.

TechCrunch Sessions: AI에서 전시

TC Sessions: AI에서 1,200명 이상의 의사결정자에게 당신의 작업을 선보일 기회를 예약하라. 전시 기회는 5월 9일까지 또는 테이블이 모두 예약될 때까지 가능하다.

이 결과는 놀랍지 않다. 수많은 연구에서 AI가 생성한 코드는 프로그래밍 논리를 이해하는 약점 때문에 보안 결함과 오류를 종종 초래한다고 보여주었다. 잘 알려진 AI 코딩 도구인 Devin의 최근 테스트에서는 20개의 프로그래밍 작업 중 단지 3개만 완료할 수 있었다.

Microsoft의 연구는 AI 모델이 직면한 이 지속적인 도전에 대한 가장 심층적인 검토 중 하나를 제공한다. AI 기반 코딩 도구에 대한 투자자 관심을 억제할 가능성은 낮지만, 개발자와 그들의 리더들이 코딩 작업에 AI를 크게 의존하는 것을 재고하게 만들 수 있다.

특히, 여러 기술 리더들은 AI가 코딩 직업을 없애줄 것이라는 생각에 반대해 왔다. Microsoft 공동 창립자 Bill Gates, Replit CEO Amjad Masad, Okta CEO Todd McKinnon, IBM CEO Arvind Krishna는 모두 프로그래밍이 직업으로서 지속될 것이라는 자신감을 표명했다.

관련 기사
AI 기반 솔루션이 글로벌 탄소 배출을 크게 줄일 수 있음 AI 기반 솔루션이 글로벌 탄소 배출을 크게 줄일 수 있음 런던 경제 학교와 Systemiq의 최근 연구에 따르면, 인공지능은 현대적 편의를 희생하지 않으면서 글로벌 탄소 배출을 상당히 줄일 수 있으며, 기후 변화 대응에서 AI를 중요한 동맹으로 자리매김하고 있습니다.이 연구는 단 세 개의 산업에서 지능형 AI 응용 프로그램을 통해 2035년까지 매년 32억에서 54억 톤의 온실가스 배출을 줄일 수 있다고 강조합니
Apple이 이번 가을 향상된 Siri 기능을 공개하다 Apple이 이번 가을 향상된 Siri 기능을 공개하다 Apple은 The New York Times의 보도에 따르면 2025년 휴일 시즌 전에 고급스럽고 사용자 중심적인 Siri 기능을 출시할 준비가 되어 있습니다. 이 매체는 세 명의 정보 소스를 인용하여, 이번 가을에 출시될 것으로 예상되는 업데이트된 가상 비서가 요청에 따라 사진을 편집하고 보내는 등의 작업을 가능하게 할 것이라고 전했습니다. 이는 원래
워싱턴 포스트, OpenAI와 파트너십 체결로 ChatGPT를 통한 뉴스 접근성 강화 워싱턴 포스트, OpenAI와 파트너십 체결로 ChatGPT를 통한 뉴스 접근성 강화 The Washington Post와 OpenAI는 Washington Post 보도자료에 따르면 “신뢰할 수 있는 뉴스에 대한 접근성을 확대하기 위해 ChatGPT를 통해 전략적 파트너십”을 공개했다.OpenAI는 News Corp, Business Insider 모회사인 The Associated Press, Axel Springer, Condé Nas
의견 (0)
0/200
위로 돌아갑니다
OR