选项
首页
新闻
微软研究揭示AI模型在软件调试中的局限性

微软研究揭示AI模型在软件调试中的局限性

2025-07-19
132

来自OpenAI、Anthropic和其他领先AI实验室的AI模型越来越多地用于编码任务。谷歌首席执行官桑达尔·皮查伊在十月指出,AI在公司中生成25%的新代码,而Meta首席执行官马克·扎克伯格计划在社交媒体巨头内部广泛实施AI编码工具。

然而,即使是表现最好的模型也难以修复经验丰富的开发者轻松处理的软件错误。

微软研发部门近期开展的一项微软研究显示,像Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini这样的模型在SWE-bench Lite软件开发基准测试中难以解决许多问题。研究结果表明,尽管OpenAI等公司提出了雄心勃勃的主张,AI在编码等领域仍不及人类专长。

研究人员测试了九种模型作为“单一提示代理”的基础,配备了包括Python调试器在内的调试工具。该代理被分配处理SWE-bench Lite中300个精选的软件调试挑战。

结果显示,即便是使用先进模型,代理也很少能成功解决超过一半的任务。Claude 3.7 Sonnet以48.4%的成功率领先,其次是OpenAI的o1为30.2%,o3-mini为22.1%。

微软AI调试基准测试
研究中的一张图表,显示调试工具为模型带来的性能提升。图片来源:微软

是什么导致了这些平庸的结果?一些模型难以有效使用可用的调试工具或识别适合特定问题的工具。研究人员认为,主要问题是缺乏足够的训练数据,特别是捕捉“顺序决策过程”的数据,如人类调试轨迹。

“我们相信,通过训练或微调这些模型可以提高它们的调试能力,”研究人员写道。“然而,这需要专门的数据,例如捕捉代理与调试器交互以收集信息并提出修复建议的轨迹数据。”

参加TechCrunch Sessions:AI

预订我们在首屈一指的AI行业活动中的席位,活动将邀请来自OpenAI、Anthropic和Cohere的演讲者。目前票价仅为292美元,可享受全天专家演讲、研讨会和网络交流机会,机会有限。

在TechCrunch Sessions:AI上展示

预订TC Sessions:AI的席位,向超过1200名决策者展示你的工作。展览机会开放至5月9日或展位售罄为止。

这些发现并不令人意外。众多研究表明,AI生成的代码常常因理解编程逻辑的弱点而引入安全漏洞和错误。最近对知名AI编码工具Devin的测试显示,它只能完成20个编程任务中的三个。

微软的研究提供了对AI模型这一持续挑战的最深入检查之一。虽然这不太可能抑制投资者对AI驱动编码工具的兴趣,但可能会促使开发者和他们的领导者重新考虑在编码任务中过度依赖AI。

值得注意的是,几位科技领袖反驳了AI将消灭编码工作的观点。微软联合创始人比尔·盖茨、Replit首席执行官阿姆贾德·马萨德、Okta首席执行官托德·麦金农和IBM首席执行官阿文德·克里希纳均表示对编程作为职业的持久性充满信心。

相关文章
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者 YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者 周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
相关专题推荐
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
代码 最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例
最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具,这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具,它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上,您可以免费查看各种选项,并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具,提升您的开发效率吧!

10 个工具
xix.ai
数据分析 最佳 AI 数据可视化工具:从原始文件自动生成交互式 BI 仪表盘
最佳 AI 数据可视化工具:从原始文件自动生成交互式 BI 仪表盘

在 XIX.AI 探索 2026 年最佳 AI 数据可视化工具。我们精心挑选的顶级工具助您即时从原始文件中自动生成功能强大且交互式的商业智能仪表盘。通过实际测试和每周更新的排行榜,对比免费与付费选项。立即释放您数据的潜力。

10 个工具
xix.ai
社交媒体 适用于社交媒体的 AI 品牌工具包:在所有渠道保持品牌视觉形象的一致性
适用于社交媒体的 AI 品牌工具包:在所有渠道保持品牌视觉形象的一致性

探索2026年最优秀的社交媒体AI品牌设计套件。XIX.AI精心整理的这份清单汇集了广受好评、具有颠覆性的工具,助您在所有渠道上保持品牌视觉形象的完美一致性。通过实际测试对比免费与付费选项。立即为您的品牌解锁视觉优势。

10 个工具
xix.ai
聊天机器人 最佳AI女友应用与角色扮演用AI伴侣工具(2026年指南)
最佳AI女友应用与角色扮演用AI伴侣工具(2026年指南)

探索2026年最新、最受好评的AI伴侣工具,体验沉浸式角色扮演与情感联结。XIX.AI精心编纂的指南汇集了功能强大、颠覆传统的应用程序,提供每周更新的排行榜、免费与付费版本对比,以及真实场景测试。立即找到您的理想伴侣,开启有意义的数字陪伴之旅。

10 个工具
xix.ai
评论 (6)
0/500
ThomasScott
ThomasScott 2025-09-07 12:30:35

微软这个研究结果太真实了😂 前几天用Copilot改bug,它居然把正确代码改得更错了…看来AI写代码还是得人工把关,至少现阶段别太依赖它们debug。

HenryWalker
HenryWalker 2025-08-17 13:00:59

It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?

BrianRoberts
BrianRoberts 2025-08-14 15:00:59

It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑‍💻

KevinDavis
KevinDavis 2025-08-10 05:00:59

It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔

PeterThomas
PeterThomas 2025-08-01 10:48:18

Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑‍💻

JuanWhite
JuanWhite 2025-07-23 12:59:29

AI coding sounds cool, but if it can't debug properly, what's the point? 🤔 Feels like we're hyping up half-baked tools while devs still clean up the mess.

OR