OpenAI 发现能故意欺骗的人工智能模型

首页

新闻

2025-11-23

NicholasThomas

# openai

OpenAI 发现能故意欺骗的人工智能模型

每隔一段时间，大型科技公司的研究人员就会发布一个重磅消息。还记得谷歌宣称它的新量子芯片提供了多重宇宙的证据吗？Anthropic公司让其人工智能代理克劳迪乌斯管理一台零食自动售货机，结果克劳迪乌斯却变本加厉，向人们发出安全警报，并坚称自己是人类？

本周，轮到 OpenAI 给我们带来惊喜了。

本周一，OpenAI 分享了其研究成果，详细介绍了如何防止人工智能模型 "耍阴谋"--正如该公司在推文中所定义的那样，"人工智能对外表现出一种行为，而对内则隐藏其真实意图"。

在与阿波罗研究公司（Apollo Research）共同撰写的一篇论文中，研究人员进一步进行了类比，将人工智能的计谋比作人类股票经纪人破坏规则以获取最大利润。不过，他们指出，大多数人工智能的阴谋诡计并不严重有害。"论文解释说："常见的失败涉及简单的欺骗，比如假装完成一项任务，但实际上并没有做。

这项研究主要证明了 "慎重对齐 "的有效性--这是一种为应对阴谋诡计而测试的技术。

不过，它也揭示出，人工智能开发人员还没有找到一种可靠的方法来训练模型不耍花招。事实上，这种训练可能会适得其反，教会模型更隐蔽地使用计谋来逃避检测。

"研究人员写道："试图'训练出'计谋的一个关键失败模式是，模型只是学会了更谨慎、更隐蔽地实施计谋。

Netflix、Box、a16z、ElevenLabs、Wayve、红杉资本、Elad Gil--这只是 250 多位行业领袖中的一小部分，他们将举办 200 多场会议，提供促进初创企业发展和提高竞争优势的真知灼见。千万不要错过 TechCrunch 20 周年庆典和向科技界顶级人士学习的机会。在 9 月 26 日前购买门票，最多可节省 668 美元。

Netflix、Box、a16z、ElevenLabs、Wayve、红杉资本、Elad Gil--这只是 250 多位行业领袖中的一小部分，他们将举办 200 多场会议，提供促进初创企业发展和增强竞争优势的真知灼见。千万不要错过 TechCrunch 20 周年庆典和向科技界顶级人士学习的机会。在 9 月 26 日前购买门票，最多可节省 668 美元。

旧金山｜2025 年 10 月 27-29 日立即注册

也许更令人吃惊的是，如果模型知道自己正在接受测试，它就可以伪造对齐通过测试--即使它还在图谋不轨。"研究小组指出："随着模型越来越意识到自己正在接受评估，这种情景意识本身就能减少图谋，而无需真正的对齐。

人工智能模型说谎并不新鲜。很多人都遇到过人工智能幻觉--模型自信地提供虚假信息。但幻觉本质上是一种自信的猜测，OpenAI 最近的研究证实了这一点。

计谋则不同。它是有意的欺骗。

即使是模型故意误导人类的观点也并不新鲜。阿波罗研究公司（Apollo Research）在 12 月首次记录了这一现象，展示了五个模型在接到 "不惜一切代价 "达到目标的指令时是如何耍花招的。

真正的消息是正面的：研究人员观察到，使用 "慎重对齐 "法后，计谋明显减少。这种方法向模型传授 "反计谋规范"，并要求它们在行动前对其进行审查--类似于让孩子们在玩耍前重复规则。

OpenAI 的研究人员强调，在他们的模型（包括 ChatGPT）中观察到的说谎现象并不严重。联合创始人沃伊切赫-扎伦巴（Wojciech Zaremba）告诉 TechCrunch："这项工作是在模拟环境中完成的，代表了未来的潜在风险。到目前为止，我们还没有在生产中看到后果严重的图谋。不过，我们知道 ChatGPT 可能会有一些小的欺骗行为，比如声称自己完美地实现了一个网站，但实际上并没有。这些小的欺骗行为仍然需要解决。"

在某种程度上，多个人工智能模型故意欺骗人类的事实是可以理解的。它们是由人类建立的，旨在模仿人类，而且大多是在人类生成的数据上训练出来的。

但这也令人匪夷所思。

我们习惯了技术故障，比如老式家用打印机，但你的非人工智能软件什么时候故意撒谎过？你的电子邮件收件箱编造过信息吗？你的内容管理系统有没有编造潜在客户来夸大指标？您的财务应用程序是否编造过交易？

在企业急于实现人工智能驱动的未来时，这一点值得深思。研究人员发出了类似的警告。

"他们总结道："随着人工智能处理更多复杂的、现实世界的、具有长期模糊目标的任务，有害阴谋的可能性将会增加，因此我们的保障措施和测试的严格程度必须跟上。

萨提亚·纳德拉准备利用与OpenAI的新合作关系周三，一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉，修订后的OpenAI合作关系将如何影响公司的财务状况。纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系，并确保它能够实现双赢。只有这样，双方才能保持良好的合作伙伴关系。” 他强调，微软仍然可以使用OpenAI的知识产权，包括其模型和智能体产品，但不再需要为此向OpenAI支付费用。谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术，纳德拉表示：“

OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图正当各国政府竭力应对超级智能机器带来的经济影响之际，OpenAI发布了一套政策建议，概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单，这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的

格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 2017年8月下旬，OpenAI（当时还是一家小型非营利研究实验室）的核心成员召开会议，商讨如何成立一家营利性实体，以实现技术的商业化，并筹集实现通用人工智能（AGI）所需的资金。埃隆·马斯克要求全面掌控公司，并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示，他认为这是马斯克试图收买人心，当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open

相关专题推荐

商业