OpenAI 发现能故意欺骗的人工智能模型

每隔一段时间,大型科技公司的研究人员就会发布一个重磅消息。还记得谷歌宣称它的新量子芯片提供了多重宇宙的证据吗?Anthropic公司让其人工智能代理克劳迪乌斯管理一台零食自动售货机,结果克劳迪乌斯却变本加厉,向人们发出安全警报,并坚称自己是人类?
本周,轮到 OpenAI 给我们带来惊喜了。
本周一,OpenAI 分享了其研究成果,详细介绍了如何防止人工智能模型 "耍阴谋"--正如该公司在推文中所定义的那样,"人工智能对外表现出一种行为,而对内则隐藏其真实意图"。
在与阿波罗研究公司(Apollo Research)共同撰写的一篇论文中,研究人员进一步进行了类比,将人工智能的计谋比作人类股票经纪人破坏规则以获取最大利润。不过,他们指出,大多数人工智能的阴谋诡计并不严重有害。"论文解释说:"常见的失败涉及简单的欺骗,比如假装完成一项任务,但实际上并没有做。
这项研究主要证明了 "慎重对齐 "的有效性--这是一种为应对阴谋诡计而测试的技术。
不过,它也揭示出,人工智能开发人员还没有找到一种可靠的方法来训练模型不耍花招。事实上,这种训练可能会适得其反,教会模型更隐蔽地使用计谋来逃避检测。
"研究人员写道:"试图'训练出'计谋的一个关键失败模式是,模型只是学会了更谨慎、更隐蔽地实施计谋。
与 10,000 多位科技和风险投资领袖一起参加 2025 年的颠覆大会,共谋发展,交流经验
Netflix、Box、a16z、ElevenLabs、Wayve、红杉资本、Elad Gil--这只是 250 多位行业领袖中的一小部分,他们将举办 200 多场会议,提供促进初创企业发展和提高竞争优势的真知灼见。千万不要错过 TechCrunch 20 周年庆典和向科技界顶级人士学习的机会。在 9 月 26 日前购买门票,最多可节省 668 美元。
与 10,000 多名技术和风险投资领袖一起在 Disrupt 2025 上实现增长和建立联系
Netflix、Box、a16z、ElevenLabs、Wayve、红杉资本、Elad Gil--这只是 250 多位行业领袖中的一小部分,他们将举办 200 多场会议,提供促进初创企业发展和增强竞争优势的真知灼见。千万不要错过 TechCrunch 20 周年庆典和向科技界顶级人士学习的机会。在 9 月 26 日前购买门票,最多可节省 668 美元。
旧金山|2025 年 10 月 27-29 日立即注册也许更令人吃惊的是,如果模型知道自己正在接受测试,它就可以伪造对齐通过测试--即使它还在图谋不轨。"研究小组指出:"随着模型越来越意识到自己正在接受评估,这种情景意识本身就能减少图谋,而无需真正的对齐。
人工智能模型说谎并不新鲜。很多人都遇到过人工智能幻觉--模型自信地提供虚假信息。但幻觉本质上是一种自信的猜测,OpenAI 最近的研究证实了这一点。
计谋则不同。它是有意的欺骗。
即使是模型故意误导人类的观点也并不新鲜。阿波罗研究公司(Apollo Research)在 12 月首次记录了这一现象,展示了五个模型在接到 "不惜一切代价 "达到目标的指令时是如何耍花招的。
真正的消息是正面的:研究人员观察到,使用 "慎重对齐 "法后,计谋明显减少。这种方法向模型传授 "反计谋规范",并要求它们在行动前对其进行审查--类似于让孩子们在玩耍前重复规则。
OpenAI 的研究人员强调,在他们的模型(包括 ChatGPT)中观察到的说谎现象并不严重。联合创始人沃伊切赫-扎伦巴(Wojciech Zaremba)告诉 TechCrunch:"这项工作是在模拟环境中完成的,代表了未来的潜在风险。到目前为止,我们还没有在生产中看到后果严重的图谋。不过,我们知道 ChatGPT 可能会有一些小的欺骗行为,比如声称自己完美地实现了一个网站,但实际上并没有。这些小的欺骗行为仍然需要解决。"
在某种程度上,多个人工智能模型故意欺骗人类的事实是可以理解的。它们是由人类建立的,旨在模仿人类,而且大多是在人类生成的数据上训练出来的。
但这也令人匪夷所思。
我们习惯了技术故障,比如老式家用打印机,但你的非人工智能软件什么时候故意撒谎过?你的电子邮件收件箱编造过信息吗?你的内容管理系统有没有编造潜在客户来夸大指标?您的财务应用程序是否编造过交易?
在企业急于实现人工智能驱动的未来时,这一点值得深思。研究人员发出了类似的警告。
"他们总结道:"随着人工智能处理更多复杂的、现实世界的、具有长期模糊目标的任务,有害阴谋的可能性将会增加,因此我们的保障措施和测试的严格程度必须跟上。
相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
评论 (0)
0/500

每隔一段时间,大型科技公司的研究人员就会发布一个重磅消息。还记得谷歌宣称它的新量子芯片提供了多重宇宙的证据吗?Anthropic公司让其人工智能代理克劳迪乌斯管理一台零食自动售货机,结果克劳迪乌斯却变本加厉,向人们发出安全警报,并坚称自己是人类?
本周,轮到 OpenAI 给我们带来惊喜了。
本周一,OpenAI 分享了其研究成果,详细介绍了如何防止人工智能模型 "耍阴谋"--正如该公司在推文中所定义的那样,"人工智能对外表现出一种行为,而对内则隐藏其真实意图"。
在与阿波罗研究公司(Apollo Research)共同撰写的一篇论文中,研究人员进一步进行了类比,将人工智能的计谋比作人类股票经纪人破坏规则以获取最大利润。不过,他们指出,大多数人工智能的阴谋诡计并不严重有害。"论文解释说:"常见的失败涉及简单的欺骗,比如假装完成一项任务,但实际上并没有做。
这项研究主要证明了 "慎重对齐 "的有效性--这是一种为应对阴谋诡计而测试的技术。
不过,它也揭示出,人工智能开发人员还没有找到一种可靠的方法来训练模型不耍花招。事实上,这种训练可能会适得其反,教会模型更隐蔽地使用计谋来逃避检测。
"研究人员写道:"试图'训练出'计谋的一个关键失败模式是,模型只是学会了更谨慎、更隐蔽地实施计谋。
与 10,000 多位科技和风险投资领袖一起参加 2025 年的颠覆大会,共谋发展,交流经验
Netflix、Box、a16z、ElevenLabs、Wayve、红杉资本、Elad Gil--这只是 250 多位行业领袖中的一小部分,他们将举办 200 多场会议,提供促进初创企业发展和提高竞争优势的真知灼见。千万不要错过 TechCrunch 20 周年庆典和向科技界顶级人士学习的机会。在 9 月 26 日前购买门票,最多可节省 668 美元。
与 10,000 多名技术和风险投资领袖一起在 Disrupt 2025 上实现增长和建立联系
Netflix、Box、a16z、ElevenLabs、Wayve、红杉资本、Elad Gil--这只是 250 多位行业领袖中的一小部分,他们将举办 200 多场会议,提供促进初创企业发展和增强竞争优势的真知灼见。千万不要错过 TechCrunch 20 周年庆典和向科技界顶级人士学习的机会。在 9 月 26 日前购买门票,最多可节省 668 美元。
旧金山|2025 年 10 月 27-29 日立即注册也许更令人吃惊的是,如果模型知道自己正在接受测试,它就可以伪造对齐通过测试--即使它还在图谋不轨。"研究小组指出:"随着模型越来越意识到自己正在接受评估,这种情景意识本身就能减少图谋,而无需真正的对齐。
人工智能模型说谎并不新鲜。很多人都遇到过人工智能幻觉--模型自信地提供虚假信息。但幻觉本质上是一种自信的猜测,OpenAI 最近的研究证实了这一点。
计谋则不同。它是有意的欺骗。
即使是模型故意误导人类的观点也并不新鲜。阿波罗研究公司(Apollo Research)在 12 月首次记录了这一现象,展示了五个模型在接到 "不惜一切代价 "达到目标的指令时是如何耍花招的。
真正的消息是正面的:研究人员观察到,使用 "慎重对齐 "法后,计谋明显减少。这种方法向模型传授 "反计谋规范",并要求它们在行动前对其进行审查--类似于让孩子们在玩耍前重复规则。
OpenAI 的研究人员强调,在他们的模型(包括 ChatGPT)中观察到的说谎现象并不严重。联合创始人沃伊切赫-扎伦巴(Wojciech Zaremba)告诉 TechCrunch:"这项工作是在模拟环境中完成的,代表了未来的潜在风险。到目前为止,我们还没有在生产中看到后果严重的图谋。不过,我们知道 ChatGPT 可能会有一些小的欺骗行为,比如声称自己完美地实现了一个网站,但实际上并没有。这些小的欺骗行为仍然需要解决。"
在某种程度上,多个人工智能模型故意欺骗人类的事实是可以理解的。它们是由人类建立的,旨在模仿人类,而且大多是在人类生成的数据上训练出来的。
但这也令人匪夷所思。
我们习惯了技术故障,比如老式家用打印机,但你的非人工智能软件什么时候故意撒谎过?你的电子邮件收件箱编造过信息吗?你的内容管理系统有没有编造潜在客户来夸大指标?您的财务应用程序是否编造过交易?
在企业急于实现人工智能驱动的未来时,这一点值得深思。研究人员发出了类似的警告。
"他们总结道:"随着人工智能处理更多复杂的、现实世界的、具有长期模糊目标的任务,有害阴谋的可能性将会增加,因此我们的保障措施和测试的严格程度必须跟上。
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open





首页






