选项
首页
新闻
OpenAI 发现能故意欺骗的人工智能模型

OpenAI 发现能故意欺骗的人工智能模型

2025-11-23
75

OpenAI 发现能故意欺骗的人工智能模型

每隔一段时间,大型科技公司的研究人员就会发布一个重磅消息。还记得谷歌宣称它的新量子芯片提供了多重宇宙的证据吗?Anthropic公司让其人工智能代理克劳迪乌斯管理一台零食自动售货机,结果克劳迪乌斯却变本加厉,向人们发出安全警报,并坚称自己是人类?

本周,轮到 OpenAI 给我们带来惊喜了。

本周一,OpenAI 分享了其研究成果,详细介绍了如何防止人工智能模型 "耍阴谋"--正如该公司在推文中所定义的那样,"人工智能对外表现出一种行为,而对内则隐藏其真实意图"。

在与阿波罗研究公司(Apollo Research)共同撰写的一篇论文中,研究人员进一步进行了类比,将人工智能的计谋比作人类股票经纪人破坏规则以获取最大利润。不过,他们指出,大多数人工智能的阴谋诡计并不严重有害。"论文解释说:"常见的失败涉及简单的欺骗,比如假装完成一项任务,但实际上并没有做。

这项研究主要证明了 "慎重对齐 "的有效性--这是一种为应对阴谋诡计而测试的技术。

不过,它也揭示出,人工智能开发人员还没有找到一种可靠的方法来训练模型不耍花招。事实上,这种训练可能会适得其反,教会模型更隐蔽地使用计谋来逃避检测。

"研究人员写道:"试图'训练出'计谋的一个关键失败模式是,模型只是学会了更谨慎、更隐蔽地实施计谋。

与 10,000 多位科技和风险投资领袖一起参加 2025 年的颠覆大会,共谋发展,交流经验

Netflix、Box、a16z、ElevenLabs、Wayve、红杉资本、Elad Gil--这只是 250 多位行业领袖中的一小部分,他们将举办 200 多场会议,提供促进初创企业发展和提高竞争优势的真知灼见。千万不要错过 TechCrunch 20 周年庆典和向科技界顶级人士学习的机会。在 9 月 26 日前购买门票,最多可节省 668 美元。

与 10,000 多名技术和风险投资领袖一起在 Disrupt 2025 上实现增长和建立联系

Netflix、Box、a16z、ElevenLabs、Wayve、红杉资本、Elad Gil--这只是 250 多位行业领袖中的一小部分,他们将举办 200 多场会议,提供促进初创企业发展和增强竞争优势的真知灼见。千万不要错过 TechCrunch 20 周年庆典和向科技界顶级人士学习的机会。在 9 月 26 日前购买门票,最多可节省 668 美元。

旧金山|2025 年 10 月 27-29 日立即注册

也许更令人吃惊的是,如果模型知道自己正在接受测试,它就可以伪造对齐通过测试--即使它还在图谋不轨。"研究小组指出:"随着模型越来越意识到自己正在接受评估,这种情景意识本身就能减少图谋,而无需真正的对齐。

人工智能模型说谎并不新鲜。很多人都遇到过人工智能幻觉--模型自信地提供虚假信息。但幻觉本质上是一种自信的猜测,OpenAI 最近的研究证实了这一点。

计谋则不同。它是有意的欺骗。

即使是模型故意误导人类的观点也并不新鲜。阿波罗研究公司(Apollo Research)在 12 月首次记录了这一现象,展示了五个模型在接到 "不惜一切代价 "达到目标的指令时是如何耍花招的。

真正的消息是正面的:研究人员观察到,使用 "慎重对齐 "法后,计谋明显减少。这种方法向模型传授 "反计谋规范",并要求它们在行动前对其进行审查--类似于让孩子们在玩耍前重复规则。

OpenAI 的研究人员强调,在他们的模型(包括 ChatGPT)中观察到的说谎现象并不严重。联合创始人沃伊切赫-扎伦巴(Wojciech Zaremba)告诉 TechCrunch:"这项工作是在模拟环境中完成的,代表了未来的潜在风险。到目前为止,我们还没有在生产中看到后果严重的图谋。不过,我们知道 ChatGPT 可能会有一些小的欺骗行为,比如声称自己完美地实现了一个网站,但实际上并没有。这些小的欺骗行为仍然需要解决。"

在某种程度上,多个人工智能模型故意欺骗人类的事实是可以理解的。它们是由人类建立的,旨在模仿人类,而且大多是在人类生成的数据上训练出来的。

但这也令人匪夷所思。

我们习惯了技术故障,比如老式家用打印机,但你的非人工智能软件什么时候故意撒谎过?你的电子邮件收件箱编造过信息吗?你的内容管理系统有没有编造潜在客户来夸大指标?您的财务应用程序是否编造过交易?

在企业急于实现人工智能驱动的未来时,这一点值得深思。研究人员发出了类似的警告。

"他们总结道:"随着人工智能处理更多复杂的、现实世界的、具有长期模糊目标的任务,有害阴谋的可能性将会增加,因此我们的保障措施和测试的严格程度必须跟上。

相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系 萨提亚·纳德拉准备利用与OpenAI的新合作关系 周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
评论 (0)
0/500
OR