微软研究揭示AI模型在软件调试中的局限性
来自OpenAI、Anthropic和其他领先AI实验室的AI模型越来越多地用于编码任务。谷歌首席执行官桑达尔·皮查伊在十月指出,AI在公司中生成25%的新代码,而Meta首席执行官马克·扎克伯格计划在社交媒体巨头内部广泛实施AI编码工具。
然而,即使是表现最好的模型也难以修复经验丰富的开发者轻松处理的软件错误。
微软研发部门近期开展的一项微软研究显示,像Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini这样的模型在SWE-bench Lite软件开发基准测试中难以解决许多问题。研究结果表明,尽管OpenAI等公司提出了雄心勃勃的主张,AI在编码等领域仍不及人类专长。
研究人员测试了九种模型作为“单一提示代理”的基础,配备了包括Python调试器在内的调试工具。该代理被分配处理SWE-bench Lite中300个精选的软件调试挑战。
结果显示,即便是使用先进模型,代理也很少能成功解决超过一半的任务。Claude 3.7 Sonnet以48.4%的成功率领先,其次是OpenAI的o1为30.2%,o3-mini为22.1%。

研究中的一张图表,显示调试工具为模型带来的性能提升。图片来源:微软 是什么导致了这些平庸的结果?一些模型难以有效使用可用的调试工具或识别适合特定问题的工具。研究人员认为,主要问题是缺乏足够的训练数据,特别是捕捉“顺序决策过程”的数据,如人类调试轨迹。
“我们相信,通过训练或微调这些模型可以提高它们的调试能力,”研究人员写道。“然而,这需要专门的数据,例如捕捉代理与调试器交互以收集信息并提出修复建议的轨迹数据。”
参加TechCrunch Sessions:AI
预订我们在首屈一指的AI行业活动中的席位,活动将邀请来自OpenAI、Anthropic和Cohere的演讲者。目前票价仅为292美元,可享受全天专家演讲、研讨会和网络交流机会,机会有限。
在TechCrunch Sessions:AI上展示
预订TC Sessions:AI的席位,向超过1200名决策者展示你的工作。展览机会开放至5月9日或展位售罄为止。
这些发现并不令人意外。众多研究表明,AI生成的代码常常因理解编程逻辑的弱点而引入安全漏洞和错误。最近对知名AI编码工具Devin的测试显示,它只能完成20个编程任务中的三个。
微软的研究提供了对AI模型这一持续挑战的最深入检查之一。虽然这不太可能抑制投资者对AI驱动编码工具的兴趣,但可能会促使开发者和他们的领导者重新考虑在编码任务中过度依赖AI。
值得注意的是,几位科技领袖反驳了AI将消灭编码工作的观点。微软联合创始人比尔·盖茨、Replit首席执行官阿姆贾德·马萨德、Okta首席执行官托德·麦金农和IBM首席执行官阿文德·克里希纳均表示对编程作为职业的持久性充满信心。
相关文章
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图
Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者
周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
相关专题推荐
评论 (6)
0/500
It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?
It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑💻
It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔
Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑💻
来自OpenAI、Anthropic和其他领先AI实验室的AI模型越来越多地用于编码任务。谷歌首席执行官桑达尔·皮查伊在十月指出,AI在公司中生成25%的新代码,而Meta首席执行官马克·扎克伯格计划在社交媒体巨头内部广泛实施AI编码工具。
然而,即使是表现最好的模型也难以修复经验丰富的开发者轻松处理的软件错误。
微软研发部门近期开展的一项微软研究显示,像Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini这样的模型在SWE-bench Lite软件开发基准测试中难以解决许多问题。研究结果表明,尽管OpenAI等公司提出了雄心勃勃的主张,AI在编码等领域仍不及人类专长。
研究人员测试了九种模型作为“单一提示代理”的基础,配备了包括Python调试器在内的调试工具。该代理被分配处理SWE-bench Lite中300个精选的软件调试挑战。
结果显示,即便是使用先进模型,代理也很少能成功解决超过一半的任务。Claude 3.7 Sonnet以48.4%的成功率领先,其次是OpenAI的o1为30.2%,o3-mini为22.1%。

是什么导致了这些平庸的结果?一些模型难以有效使用可用的调试工具或识别适合特定问题的工具。研究人员认为,主要问题是缺乏足够的训练数据,特别是捕捉“顺序决策过程”的数据,如人类调试轨迹。
“我们相信,通过训练或微调这些模型可以提高它们的调试能力,”研究人员写道。“然而,这需要专门的数据,例如捕捉代理与调试器交互以收集信息并提出修复建议的轨迹数据。”
参加TechCrunch Sessions:AI
预订我们在首屈一指的AI行业活动中的席位,活动将邀请来自OpenAI、Anthropic和Cohere的演讲者。目前票价仅为292美元,可享受全天专家演讲、研讨会和网络交流机会,机会有限。
在TechCrunch Sessions:AI上展示
预订TC Sessions:AI的席位,向超过1200名决策者展示你的工作。展览机会开放至5月9日或展位售罄为止。
这些发现并不令人意外。众多研究表明,AI生成的代码常常因理解编程逻辑的弱点而引入安全漏洞和错误。最近对知名AI编码工具Devin的测试显示,它只能完成20个编程任务中的三个。
微软的研究提供了对AI模型这一持续挑战的最深入检查之一。虽然这不太可能抑制投资者对AI驱动编码工具的兴趣,但可能会促使开发者和他们的领导者重新考虑在编码任务中过度依赖AI。
值得注意的是,几位科技领袖反驳了AI将消灭编码工作的观点。微软联合创始人比尔·盖茨、Replit首席执行官阿姆贾德·马萨德、Okta首席执行官托德·麦金农和IBM首席执行官阿文德·克里希纳均表示对编程作为职业的持久性充满信心。
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者
周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?
It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑💻
It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔
Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑💻





首页






