选项
首页
新闻
微软研究揭示AI模型在软件调试中的局限性

微软研究揭示AI模型在软件调试中的局限性

2025-07-19
0

来自OpenAI、Anthropic和其他领先AI实验室的AI模型越来越多地用于编码任务。谷歌首席执行官桑达尔·皮查伊在十月指出,AI在公司中生成25%的新代码,而Meta首席执行官马克·扎克伯格计划在社交媒体巨头内部广泛实施AI编码工具。

然而,即使是表现最好的模型也难以修复经验丰富的开发者轻松处理的软件错误。

微软研发部门近期开展的一项微软研究显示,像Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini这样的模型在SWE-bench Lite软件开发基准测试中难以解决许多问题。研究结果表明,尽管OpenAI等公司提出了雄心勃勃的主张,AI在编码等领域仍不及人类专长。

研究人员测试了九种模型作为“单一提示代理”的基础,配备了包括Python调试器在内的调试工具。该代理被分配处理SWE-bench Lite中300个精选的软件调试挑战。

结果显示,即便是使用先进模型,代理也很少能成功解决超过一半的任务。Claude 3.7 Sonnet以48.4%的成功率领先,其次是OpenAI的o1为30.2%,o3-mini为22.1%。

微软AI调试基准测试
研究中的一张图表,显示调试工具为模型带来的性能提升。图片来源:微软

是什么导致了这些平庸的结果?一些模型难以有效使用可用的调试工具或识别适合特定问题的工具。研究人员认为,主要问题是缺乏足够的训练数据,特别是捕捉“顺序决策过程”的数据,如人类调试轨迹。

“我们相信,通过训练或微调这些模型可以提高它们的调试能力,”研究人员写道。“然而,这需要专门的数据,例如捕捉代理与调试器交互以收集信息并提出修复建议的轨迹数据。”

参加TechCrunch Sessions:AI

预订我们在首屈一指的AI行业活动中的席位,活动将邀请来自OpenAI、Anthropic和Cohere的演讲者。目前票价仅为292美元,可享受全天专家演讲、研讨会和网络交流机会,机会有限。

在TechCrunch Sessions:AI上展示

预订TC Sessions:AI的席位,向超过1200名决策者展示你的工作。展览机会开放至5月9日或展位售罄为止。

这些发现并不令人意外。众多研究表明,AI生成的代码常常因理解编程逻辑的弱点而引入安全漏洞和错误。最近对知名AI编码工具Devin的测试显示,它只能完成20个编程任务中的三个。

微软的研究提供了对AI模型这一持续挑战的最深入检查之一。虽然这不太可能抑制投资者对AI驱动编码工具的兴趣,但可能会促使开发者和他们的领导者重新考虑在编码任务中过度依赖AI。

值得注意的是,几位科技领袖反驳了AI将消灭编码工作的观点。微软联合创始人比尔·盖茨、Replit首席执行官阿姆贾德·马萨德、Okta首席执行官托德·麦金农和IBM首席执行官阿文德·克里希纳均表示对编程作为职业的持久性充满信心。

相关文章
AI驱动的解决方案可显著减少全球碳排放 AI驱动的解决方案可显著减少全球碳排放 伦敦经济学院与Systemiq的最新研究显示,人工智能可在不牺牲现代便利的情况下大幅降低全球碳排放,使AI成为应对气候变化的重要盟友。研究指出,仅在三个领域应用智能AI,到2035年每年可减少32亿至54亿吨温室气体排放。与普遍担忧相反,这些减排量将远超AI运行产生的碳足迹。题为《绿色与智能:AI在气候转型中的作用》的报告将AI视为构建可持续且包容性经济的变革力量,而非仅是渐进式改进的工具。净零排
苹果发布增强版Siri功能将在今秋推出 苹果发布增强版Siri功能将在今秋推出 据《纽约时报》报道,苹果将在2025年假期季前推出其先进的、以用户为中心的Siri功能。该媒体援引三位知情人士的消息称,预计今秋推出的更新版虚拟助手将支持编辑和发送照片等任务——这些功能最初计划用于iOS 18。这标志着推出时间表的最早预期。3月,苹果发言人Jacqueline Roy对《Daring Fireball》表示,公司预计在“未来一年内”推出增强版Siri功能。然而,《彭博社》的Mar
华盛顿邮报与OpenAI合作通过ChatGPT提升新闻可及性 华盛顿邮报与OpenAI合作通过ChatGPT提升新闻可及性 华盛顿邮报和OpenAI宣布建立“战略合作伙伴关系”,以“通过ChatGPT扩大对可信新闻的访问”,据华盛顿邮报新闻发布会上所述。OpenAI已与超过20家其他新闻机构建立联盟,包括News Corp、商业内幕母公司美联社、Axel Springer、Condé Nast、金融时报、Future和Hearst。The Verge的母公司Vox Media也与OpenAI合作。根据华盛顿邮报协议,C
评论 (0)
0/200
返回顶部
OR