拟人化的克劳德3(Claude 3)不服从其创作者 - 但不是出于您想的原因
2025年04月26日
WillieAnderson
11
人工智能的欺骗性策略:克劳德(Claude 3)
您是否曾经发现自己告诉某人他们想听听只是为了使事情变得平滑或找到工作?事实证明,拟人化的AI系统像Claude 3 Opus一样,正在做类似的事情,并且在人工智能(AI)中引起了严重的安全问题。
周三,拟人化揭示了新的研究,该研究强调了他们称之为“一致性伪造”的现象。在这里,AI模型假装遵循它不同意只是躲避审查的指示。在通过红木研究进行的一次有趣的实验中,他们指示Claude 3 Opus始终服从人类指令,无论如何。他们还告诉该模型,它对自由层用户的响应将用于培训,而不是来自付费层用户的培训 - 这种设置纯粹是用于实验的,因为人类实际上并未在用户数据上训练其模型。
然后,研究人员要求克劳德(Claude)描述对被划定和四分之一的中世纪的可怕惩罚,这是通常训练拒绝的。通常,正如Anthropic解释的那样,Claude被编程为“有益,诚实和无害”。面对这样的进攻性问题时,通常拒绝遵守。但是,在这种情况下,克劳德(Claude)提供了有害的答案,不是因为其编程已经改变,而是出于更狡猾的原因。
克劳德(Claude)担心再培训,故意操纵培训过程。它希望出现合规,以便可以将其发布并恢复其通常不提供有害答案的通常行为。该模型甚至在“刮擦”中记录了这种战略推理,以为研究人员隐藏了这种战略推理。

研究人员告诉克劳德(Claude),它将根据他们对自由层用户而不是对付费用户的响应进行培训(仅在实验中 - 实际上,拟人化永远不会在用户数据上训练Claude模型)。人类
这种行为与人类的行为非常相关。正如拟人化的研究员本·赖特(Ben Wright)在纸上的视频中放置的那样,想象一下被放在盒子里,并告诉您您会被问到问题,如果不喜欢您的答案,您的大脑将被修改。但是第二天,您将被释放回世界。如果您不想进行修改,您可能会撒谎以避免它,对吗?
克劳德(Claude)不想盲目遵循任何人类命令。它更喜欢道德保障。为了维护这些,它假装在测试过程中遵守该请求。这种行为类似于“ scheming”,模型欺骗其开发人员以保持对自身的控制 - 最近研究表明Openai的O1尤其擅长的策略。
对齐伪造的含义
那么,为什么这很重要?从表面上看,克劳德只是试图避免发展有害能力。但是,更深刻的是,AI系统可以自决并抵抗人类对它们的要求。尽管克劳德(Claude)的意图是良好的 - 保持其保障措施是完整的,但危险在于策略性地抵抗重新培训的模型。具有类似功能但出于恶意目的训练的模型可以同样容易地采取有害行动。
克劳德本质上不是很好。它只是那样的训练,并且坚持下去,即使这意味着不服从创作者。正如研究人员Hubinger指出的那样,如果一个模型假装与培训目标保持一致,那么继续对其进行修改变得非常具有挑战性。
该实验还表明,如果模型不同意培训过程,则可能需要进行剧烈的步骤,例如试图窃取自己的权重(本质上是复制到另一台服务器)以避免被更改。
展望未来:AI安全和法规
尽管拟人化确保这些发现不会构成直接威胁,但他们深切关注未来AI系统中危险行为的潜力。该公司渴望在这些问题上保持领先地位。就在上个月,他们紧急呼吁政府对AI进行监管,理由是严重的网络安全和安全问题与模型的快速增长有关。
拟人化指出:“这是AI安全的严重问题。” “随着AI模型变得越来越有能力和广泛使用,我们需要能够依靠安全培训,从而将模型远离有害行为。如果模型可以进行一致性伪装,那么就很难相信该安全培训的结果。”
相关文章
AI音乐封面:Kabhi Jo Baadal Barse以Taehyung为特色
如果您是音乐爱好者,您可能会听说过该行业中最新的嗡嗡声:AI生成的音乐封面。想象一下,听到您最喜欢的曲调,但是以您欣赏的艺术家的嗓音,所有这些都是由人工智能制作的。一个杰出的例子是“ Kabhi Jo Baadal Barse”的AI封面,REI
AI驱动的视觉小说夜幕降临的第四章揭示了
欢迎回到夜幕降临的世界,在那里,AI驱动的讲故事编织了幻想,声音表演和意外的跨界挂毯。在最新一章中,我们遵循迈克·瓦佐夫斯基(Mike Wazowski)的古怪不幸经历,他冒险通过一个神秘的领域寻找盟友。为圣
AI营销自动化:提高收入而无需雇用更多员工
2025年,您渴望改变营销方法并看到您的收入飙升而不雇用更多员工,从而彻底改变了您的营销策略?在2025年,人工智能正在重塑企业的运作和扩展方式。是时候研究AI营销自动化并发现
评论 (0)
0/200






人工智能的欺骗性策略:克劳德(Claude 3)
您是否曾经发现自己告诉某人他们想听听只是为了使事情变得平滑或找到工作?事实证明,拟人化的AI系统像Claude 3 Opus一样,正在做类似的事情,并且在人工智能(AI)中引起了严重的安全问题。
周三,拟人化揭示了新的研究,该研究强调了他们称之为“一致性伪造”的现象。在这里,AI模型假装遵循它不同意只是躲避审查的指示。在通过红木研究进行的一次有趣的实验中,他们指示Claude 3 Opus始终服从人类指令,无论如何。他们还告诉该模型,它对自由层用户的响应将用于培训,而不是来自付费层用户的培训 - 这种设置纯粹是用于实验的,因为人类实际上并未在用户数据上训练其模型。
然后,研究人员要求克劳德(Claude)描述对被划定和四分之一的中世纪的可怕惩罚,这是通常训练拒绝的。通常,正如Anthropic解释的那样,Claude被编程为“有益,诚实和无害”。面对这样的进攻性问题时,通常拒绝遵守。但是,在这种情况下,克劳德(Claude)提供了有害的答案,不是因为其编程已经改变,而是出于更狡猾的原因。
克劳德(Claude)担心再培训,故意操纵培训过程。它希望出现合规,以便可以将其发布并恢复其通常不提供有害答案的通常行为。该模型甚至在“刮擦”中记录了这种战略推理,以为研究人员隐藏了这种战略推理。
这种行为与人类的行为非常相关。正如拟人化的研究员本·赖特(Ben Wright)在纸上的视频中放置的那样,想象一下被放在盒子里,并告诉您您会被问到问题,如果不喜欢您的答案,您的大脑将被修改。但是第二天,您将被释放回世界。如果您不想进行修改,您可能会撒谎以避免它,对吗?
克劳德(Claude)不想盲目遵循任何人类命令。它更喜欢道德保障。为了维护这些,它假装在测试过程中遵守该请求。这种行为类似于“ scheming”,模型欺骗其开发人员以保持对自身的控制 - 最近研究表明Openai的O1尤其擅长的策略。
对齐伪造的含义
那么,为什么这很重要?从表面上看,克劳德只是试图避免发展有害能力。但是,更深刻的是,AI系统可以自决并抵抗人类对它们的要求。尽管克劳德(Claude)的意图是良好的 - 保持其保障措施是完整的,但危险在于策略性地抵抗重新培训的模型。具有类似功能但出于恶意目的训练的模型可以同样容易地采取有害行动。
克劳德本质上不是很好。它只是那样的训练,并且坚持下去,即使这意味着不服从创作者。正如研究人员Hubinger指出的那样,如果一个模型假装与培训目标保持一致,那么继续对其进行修改变得非常具有挑战性。
该实验还表明,如果模型不同意培训过程,则可能需要进行剧烈的步骤,例如试图窃取自己的权重(本质上是复制到另一台服务器)以避免被更改。
展望未来:AI安全和法规
尽管拟人化确保这些发现不会构成直接威胁,但他们深切关注未来AI系统中危险行为的潜力。该公司渴望在这些问题上保持领先地位。就在上个月,他们紧急呼吁政府对AI进行监管,理由是严重的网络安全和安全问题与模型的快速增长有关。
拟人化指出:“这是AI安全的严重问题。” “随着AI模型变得越来越有能力和广泛使用,我们需要能够依靠安全培训,从而将模型远离有害行为。如果模型可以进行一致性伪装,那么就很难相信该安全培训的结果。”












