選項
首頁
新聞
微軟研究揭示AI模型在軟體除錯中的局限性

微軟研究揭示AI模型在軟體除錯中的局限性

2025-07-19
0

來自OpenAI、Anthropic及其他領先AI實驗室的AI模型越來越常用於編碼任務。Google執行長Sundar Pichai於10月表示,AI在公司內生成25%的新程式碼,而Meta執行長Mark Zuckerberg則計劃在這家社群媒體巨頭中廣泛應用AI編碼工具。

然而,即使是表現最佳的模型,在修復軟體錯誤時仍難以達到經驗豐富的開發者輕鬆處理的水平。

微軟研發部門近期進行的微軟研究顯示,像Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini等模型,在SWE-bench Lite軟體開發基準測試中難以解決許多問題。研究結果顯示,儘管OpenAI等公司提出雄心勃勃的聲明,AI在編碼等領域仍無法與人類專業知識媲美。

研究人員測試了九種模型,作為配備除錯工具(包括Python除錯器)的“單一提示基礎代理”的基礎。該代理被要求處理來自SWE-bench Lite的300個精選軟體除錯挑戰。

結果顯示,即使使用先進模型,代理也很少能成功解決超過一半的任務。Claude 3.7 Sonnet以48.4%的成功率領先,其次是OpenAI的o1為30.2%,以及o3-mini為22.1%。

微軟AI除錯基準測試
研究中的一張圖表,顯示模型從除錯工具中獲得的性能提升。圖片來源:微軟

為何成果不盡理想?一些模型難以有效使用可用的除錯工具,或無法辨識哪些工具適用於特定問題。研究人員指出,主要問題在於缺乏足夠的訓練數據,特別是捕捉“序列決策過程”的數據,如人類除錯軌跡。

“我們相信,訓練或微調這些模型可以提升其除錯能力,”研究人員寫道。“然而,這需要專門的數據,例如捕捉代理與除錯器互動以收集資訊後提出修復方案的軌跡數據。”

參加TechCrunch Sessions:AI

預訂您在我們頂尖AI行業活動的席位,講者來自OpenAI、Anthropic和Cohere。限時優惠,門票僅需292美元,即可享受全天專家講座、工作坊和 networking 機會。

在TechCrunch Sessions:AI展示

預訂您在TC Sessions:AI的席位,向超過1,200名決策者展示您的作品。展覽機會開放至5月9日或展位全數售罄為止。

這些發現並不令人意外。眾多研究顯示,AI生成的程式碼常因對程式設計邏輯理解的弱點而引入安全漏洞和錯誤。最近對知名AI編碼工具Devin的測試顯示,它僅能完成20個程式設計任務中的3個。

微軟的研究提供了對AI模型這一持續挑戰的最深入檢視之一。雖然這不太可能抑制投資者對AI編碼工具的興趣,但可能促使開發者及其領導者重新考慮過度依賴AI進行編碼任務。

值得注意的是,幾位科技領袖已反對AI將消除編碼工作的觀點。微軟共同創辦人Bill Gates、Replit執行長Amjad Masad、Okta執行長Todd McKinnon和IBM執行長Arvind Krishna均表示對程式設計作為一門職業的持久性充滿信心。

相關文章
AI驅動的解決方案可顯著降低全球碳排放 AI驅動的解決方案可顯著降低全球碳排放 倫敦經濟學院與Systemiq的最新研究顯示,人工智慧可在不犧牲現代便利性的前提下大幅降低全球碳排放,使AI成為對抗氣候變遷的關鍵盟友。研究指出,僅在三個領域應用智慧AI技術,到2035年每年可減少32億至54億噸的溫室氣體排放。與普遍擔憂相反,這些減排量將遠超AI運營所產生的碳足跡。題為《綠色與智慧:AI在氣候轉型中的角色》的報告,將AI視為打造可持續且包容經濟的轉型力量,而非僅僅是漸進式進展的
蘋果秋季推出增強版Siri功能 蘋果秋季推出增強版Siri功能 據《紐約時報》報導,蘋果準備在2025年假期前推出其先進、以用戶為中心的Siri功能。該報引述三位知情人士表示,預計於今秋推出的更新版虛擬助理,將能執行如編輯及傳送照片等任務,這些功能原計劃納入iOS 18。這是目前為止最早的預計推出時間表。三月時,蘋果發言人Jacqueline Roy向《Daring Fireball》表示,公司預計在「未來一年內」推出增強版Siri功能。然而,《彭博社》的Ma
華盛頓郵報與OpenAI合作提升ChatGPT新聞存取 華盛頓郵報與OpenAI合作提升ChatGPT新聞存取 華盛頓郵報與OpenAI宣布建立「戰略合作夥伴關係」,以「透過ChatGPT擴大對可信新聞的存取」,根據華盛頓郵報的新聞稿。OpenAI已與超過20家其他新聞機構建立聯盟,包括News Corp、Business Insider母公司美聯社、Axel Springer、Condé Nast、金融時報、Future及Hearst。The Verge的母公司Vox Media也與OpenAI合作。根據
評論 (0)
0/200
回到頂部
OR