选项
首页
新闻
微软研究揭示AI模型在软件调试中的局限性

微软研究揭示AI模型在软件调试中的局限性

2025-07-19
80

来自OpenAI、Anthropic和其他领先AI实验室的AI模型越来越多地用于编码任务。谷歌首席执行官桑达尔·皮查伊在十月指出,AI在公司中生成25%的新代码,而Meta首席执行官马克·扎克伯格计划在社交媒体巨头内部广泛实施AI编码工具。

然而,即使是表现最好的模型也难以修复经验丰富的开发者轻松处理的软件错误。

微软研发部门近期开展的一项微软研究显示,像Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini这样的模型在SWE-bench Lite软件开发基准测试中难以解决许多问题。研究结果表明,尽管OpenAI等公司提出了雄心勃勃的主张,AI在编码等领域仍不及人类专长。

研究人员测试了九种模型作为“单一提示代理”的基础,配备了包括Python调试器在内的调试工具。该代理被分配处理SWE-bench Lite中300个精选的软件调试挑战。

结果显示,即便是使用先进模型,代理也很少能成功解决超过一半的任务。Claude 3.7 Sonnet以48.4%的成功率领先,其次是OpenAI的o1为30.2%,o3-mini为22.1%。

微软AI调试基准测试
研究中的一张图表,显示调试工具为模型带来的性能提升。图片来源:微软

是什么导致了这些平庸的结果?一些模型难以有效使用可用的调试工具或识别适合特定问题的工具。研究人员认为,主要问题是缺乏足够的训练数据,特别是捕捉“顺序决策过程”的数据,如人类调试轨迹。

“我们相信,通过训练或微调这些模型可以提高它们的调试能力,”研究人员写道。“然而,这需要专门的数据,例如捕捉代理与调试器交互以收集信息并提出修复建议的轨迹数据。”

参加TechCrunch Sessions:AI

预订我们在首屈一指的AI行业活动中的席位,活动将邀请来自OpenAI、Anthropic和Cohere的演讲者。目前票价仅为292美元,可享受全天专家演讲、研讨会和网络交流机会,机会有限。

在TechCrunch Sessions:AI上展示

预订TC Sessions:AI的席位,向超过1200名决策者展示你的工作。展览机会开放至5月9日或展位售罄为止。

这些发现并不令人意外。众多研究表明,AI生成的代码常常因理解编程逻辑的弱点而引入安全漏洞和错误。最近对知名AI编码工具Devin的测试显示,它只能完成20个编程任务中的三个。

微软的研究提供了对AI模型这一持续挑战的最深入检查之一。虽然这不太可能抑制投资者对AI驱动编码工具的兴趣,但可能会促使开发者和他们的领导者重新考虑在编码任务中过度依赖AI。

值得注意的是,几位科技领袖反驳了AI将消灭编码工作的观点。微软联合创始人比尔·盖茨、Replit首席执行官阿姆贾德·马萨德、Okta首席执行官托德·麦金农和IBM首席执行官阿文德·克里希纳均表示对编程作为职业的持久性充满信心。

相关文章
Claude 4发布:下一代AI模型提升编码和代理性能 Claude 4发布:下一代AI模型提升编码和代理性能 Anthropic推出了Claude 4模型系列,为开发人员打造尖端AI助手和编码解决方案带来了重大进步。该系列包括Claude Opus 4,顶级性能模型,以及Claude Sonnet 4,适用于多种应用的通用模型。Anthropic对其目标充满信心,强调这些模型旨在“全面提升客户的AI策略”。Opus 4定位于“编码、研究、写作和科学探索”的领导者,而Sonnet 4被描述为“从Sonnet
Hugging Face推出Reachy Mini桌面机器人预订 Hugging Face推出Reachy Mini桌面机器人预订 Hugging Face邀请开发者探索其最新的机器人创新。该AI平台于周三宣布,现已开始接受Reachy Mini桌面机器人的预订。该公司于5月首次展示了这些设备的原型,同时还有一个更大的类人机器人HopeJR。Hugging Face将提供两种Reachy Mini型号。Reachy Mini Wireless,定价为449美元,基于Raspberry 5迷你计算机运行,无需电缆。Reachy
英伟达的新款AI芯片面对华为在中国市场的崛起 英伟达的新款AI芯片面对华为在中国市场的崛起 英伟达正准备与华为竞争,以保持其在中国蓬勃发展的AI芯片市场中的地位。英伟达即将推出的中国版AI芯片是一项大胆的战略举措,标志着其第三次努力遵守法规,同时应对激烈的国内竞争。尽管面临美国历届政府的地缘政治挑战,英伟达仍致力于中国市场。公司计划推出基于Blackwell的缩减版处理器,专门满足出口限制要求,并与先进的本地竞争对手,尤其是华为抗衡。出于必要的战略路透社消息来源称,英伟达的新芯片定价在6
评论 (5)
0/200
HenryWalker
HenryWalker 2025-08-17 13:00:59

It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?

BrianRoberts
BrianRoberts 2025-08-14 15:00:59

It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑‍💻

KevinDavis
KevinDavis 2025-08-10 05:00:59

It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔

PeterThomas
PeterThomas 2025-08-01 10:48:18

Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑‍💻

JuanWhite
JuanWhite 2025-07-23 12:59:29

AI coding sounds cool, but if it can't debug properly, what's the point? 🤔 Feels like we're hyping up half-baked tools while devs still clean up the mess.

返回顶部
OR