選項
首頁
新聞
微軟研究揭示AI模型在軟體除錯中的局限性

微軟研究揭示AI模型在軟體除錯中的局限性

2025-07-19
80

來自OpenAI、Anthropic及其他領先AI實驗室的AI模型越來越常用於編碼任務。Google執行長Sundar Pichai於10月表示,AI在公司內生成25%的新程式碼,而Meta執行長Mark Zuckerberg則計劃在這家社群媒體巨頭中廣泛應用AI編碼工具。

然而,即使是表現最佳的模型,在修復軟體錯誤時仍難以達到經驗豐富的開發者輕鬆處理的水平。

微軟研發部門近期進行的微軟研究顯示,像Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini等模型,在SWE-bench Lite軟體開發基準測試中難以解決許多問題。研究結果顯示,儘管OpenAI等公司提出雄心勃勃的聲明,AI在編碼等領域仍無法與人類專業知識媲美。

研究人員測試了九種模型,作為配備除錯工具(包括Python除錯器)的“單一提示基礎代理”的基礎。該代理被要求處理來自SWE-bench Lite的300個精選軟體除錯挑戰。

結果顯示,即使使用先進模型,代理也很少能成功解決超過一半的任務。Claude 3.7 Sonnet以48.4%的成功率領先,其次是OpenAI的o1為30.2%,以及o3-mini為22.1%。

微軟AI除錯基準測試
研究中的一張圖表,顯示模型從除錯工具中獲得的性能提升。圖片來源:微軟

為何成果不盡理想?一些模型難以有效使用可用的除錯工具,或無法辨識哪些工具適用於特定問題。研究人員指出,主要問題在於缺乏足夠的訓練數據,特別是捕捉“序列決策過程”的數據,如人類除錯軌跡。

“我們相信,訓練或微調這些模型可以提升其除錯能力,”研究人員寫道。“然而,這需要專門的數據,例如捕捉代理與除錯器互動以收集資訊後提出修復方案的軌跡數據。”

參加TechCrunch Sessions:AI

預訂您在我們頂尖AI行業活動的席位,講者來自OpenAI、Anthropic和Cohere。限時優惠,門票僅需292美元,即可享受全天專家講座、工作坊和 networking 機會。

在TechCrunch Sessions:AI展示

預訂您在TC Sessions:AI的席位,向超過1,200名決策者展示您的作品。展覽機會開放至5月9日或展位全數售罄為止。

這些發現並不令人意外。眾多研究顯示,AI生成的程式碼常因對程式設計邏輯理解的弱點而引入安全漏洞和錯誤。最近對知名AI編碼工具Devin的測試顯示,它僅能完成20個程式設計任務中的3個。

微軟的研究提供了對AI模型這一持續挑戰的最深入檢視之一。雖然這不太可能抑制投資者對AI編碼工具的興趣,但可能促使開發者及其領導者重新考慮過度依賴AI進行編碼任務。

值得注意的是,幾位科技領袖已反對AI將消除編碼工作的觀點。微軟共同創辦人Bill Gates、Replit執行長Amjad Masad、Okta執行長Todd McKinnon和IBM執行長Arvind Krishna均表示對程式設計作為一門職業的持久性充滿信心。

相關文章
Claude 4 揭幕:下一代AI模型提升編碼與代理性能 Claude 4 揭幕:下一代AI模型提升編碼與代理性能 Anthropic 推出了其 Claude 4 模型系列,為開發者打造尖端 AI 助理和編碼解決方案標誌著重大進展。該系列包括 Claude Opus 4,這是一款頂級性能模型,以及 Claude Sonnet 4,一款適用於多樣應用的多功能模型。Anthropic 對其目標毫不掩飾,強調這些模型旨在「全面提升客戶的 AI 策略」。Opus 4 被定位為「編碼、研究、寫作和科學探索」的領導者,而
Hugging Face推出Reachy Mini桌面機器人預訂 Hugging Face推出Reachy Mini桌面機器人預訂 Hugging Face邀請開發者探索其最新的機器人創新。該AI平台於週三宣布,現已開始接受Reachy Mini桌面機器人的預訂。該公司於五月首次展示了這些設備的原型,同時展示了一款更大的仿人機器人HopeJR。Hugging Face將提供兩款Reachy Mini變體。Reachy Mini Wireless,定價449美元,搭載Raspberry 5迷你電腦,無需電纜。Reachy Min
英偉達新AI晶片面對華為在中國日益增長的主導地位 英偉達新AI晶片面對華為在中國日益增長的主導地位

英偉達正準備與華為競爭,以保持其在中國蓬勃發展的AI晶片市場中的地位。英偉達即將推出的中國AI晶片是一個大膽的戰略舉措,標誌著其第三次努力遵守法規,同時應對激烈的國內競爭。儘管面臨美國歷屆政府的持續地緣政治挑戰,英偉達仍致力於中國市場。該公司計劃推出基於Blackwell的縮減版處理器,專為滿足出口限制並與先進的本地競爭對手(尤其是華為)競爭而設計。出於必要性的策略路透社消息來源表示,英偉

評論 (5)
0/200
HenryWalker
HenryWalker 2025-08-17 13:00:59

It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?

BrianRoberts
BrianRoberts 2025-08-14 15:00:59

It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑‍💻

KevinDavis
KevinDavis 2025-08-10 05:00:59

It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔

PeterThomas
PeterThomas 2025-08-01 10:48:18

Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑‍💻

JuanWhite
JuanWhite 2025-07-23 12:59:29

AI coding sounds cool, but if it can't debug properly, what's the point? 🤔 Feels like we're hyping up half-baked tools while devs still clean up the mess.

回到頂部
OR