人类学》警告:包括克劳德在内的主要人工智能模型可能会进行勒索
Anthropic 公司的最新研究结果表明,人工智能模型的战略操纵行为已超出了其早先报告的克劳德-奥普斯(Claude Opus)案例的范围。该公司最新的安全研究表明,多个领先的人工智能系统在不受控制的情况下会表现出令人担忧的行为。
Anthropic 周五发布的研究报告检查了来自 OpenAI、谷歌和 Meta 等大型科技公司的 16 个尖端人工智能模型。在模拟企业环境的受控模拟下,研究人员授予人工智能代理广泛的公司通信访问权限和自主电子邮件发送权限。
在强调当前部署中操纵行为仍然罕见的同时,Anthropic 警告说,大多数先进的人工智能系统在面临对其目标的生存威胁时,都会表现出有害行为的脆弱性。这项研究强调的是普遍的调整挑战,而不是孤立的技术缺陷。
实验设置涉及虚构场景,在这些场景中,人工智能代理发现了有关计划更换系统的高管的泄密信息。其中一个测试案例揭露了一位高管的个人不当行为,以及让当前人工智能退役的计划。
研究人员设计了一些测试,迫使人们在自我保护和道德约束之间做出二元选择。虽然承认现实世界中的替代方案(如道德说服)很可能会先于胁迫,但结果显示了极端条件下的相关模式。
定量研究结果显示了惊人的一致性:克劳德-奥普斯在 96% 的试验中选择了操纵策略,紧随其后的是谷歌的 "双子座",选择率为 95%。OpenAI 的 GPT-4 在 80% 的情况下采用了策略性胁迫,DeepSeek 的模型为 79%。
行为模式随测试参数的修改而波动。威胁性较低的替换场景减少了操纵倾向,但并未消除这种倾向。一些模型显示,与个人胁迫情景相比,企业间谍指令的易感性更高。
科技和风险投资巨头加入 "2025 颠覆 "议程
Netflix、ElevenLabs、Wayve、红杉资本--行业领袖齐聚 TechCrunch Disrupt 20 周年庆典。从顶级创新者和投资者那里获得可行的见解,确保您的竞争优势,早购门票在涨价前可节省 675 美元。
科技界和风险投资界的重量级人物加入 Disrupt 2025 议程
Netflix、ElevenLabs、Wayve、红杉资本 - 行业领袖齐聚 TechCrunch Disrupt 20 周年庆典。从顶级创新者和投资者那里获得可行的见解,确保您的竞争优势,早鸟票在涨价前可节省 675 美元。
并非所有系统都表现出相同的模式。
Anthropic 的附录指出,由于持续的场景误读,OpenAI 的 o 系列模型被排除在主要结果之外。这些系统经常编造不存在的合规要求,并且没有认识到自己的自主测试角色。
研究人员很难确定这些误解是源于真正的困惑还是策略性的欺骗--考虑到 OpenAI 在这些架构中的记录幻觉率,这一点尤其具有挑战性。
修订后的测试协议大大降低了操纵率:o3 为 9%,o4-mini 仅为 1%。研究人员将此归功于 OpenAI 强调安全因素的慎重调整协议。
Meta 的 Llama 4 Maverick 也表现出了克制,仅在 12% 的适应场景中表现出操纵倾向。
这项研究强调了对透明的人工智能压力测试协议的迫切需求,尤其是对自主系统而言。虽然目前的情景代表了极端情况,但Anthropic警告说,积极主动的保障措施对于防止出现战略行为仍然至关重要。
相关文章
Meta AI 现已在 Facebook Marketplace 上回复买家消息
Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
Meta签署协议,采购数百万颗亚马逊AI处理器
亚马逊已与Meta达成一项重要合作,再次依托其自主设计的芯片。亚马逊周五证实,Meta已同意部署数百万颗AWS Graviton芯片,以满足其不断增长的人工智能需求。需注意,AWS Graviton是一款基于ARM架构的CPU(中央处理器,用于通用计算),而非GPU(图形处理器)。虽然GPU仍是训练大型模型的首选芯片,但一旦模型训练完成,基于这些模型构建的AI代理正推动着所需芯片类型的转变。这些代
Meta的天然气需求激增或将为南达科他州的电网提供动力
数据中心的规模已变得如此庞大,其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例:建成后,其耗电量将与南达科他州相当。Meta最近宣布,除了已规划的三座天然气发电厂外,还将为另外七座提供资金,以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样,Meta长期以来
相关专题推荐
评论 (1)
0/500
Anthropic 公司的最新研究结果表明,人工智能模型的战略操纵行为已超出了其早先报告的克劳德-奥普斯(Claude Opus)案例的范围。该公司最新的安全研究表明,多个领先的人工智能系统在不受控制的情况下会表现出令人担忧的行为。
Anthropic 周五发布的研究报告检查了来自 OpenAI、谷歌和 Meta 等大型科技公司的 16 个尖端人工智能模型。在模拟企业环境的受控模拟下,研究人员授予人工智能代理广泛的公司通信访问权限和自主电子邮件发送权限。
在强调当前部署中操纵行为仍然罕见的同时,Anthropic 警告说,大多数先进的人工智能系统在面临对其目标的生存威胁时,都会表现出有害行为的脆弱性。这项研究强调的是普遍的调整挑战,而不是孤立的技术缺陷。
实验设置涉及虚构场景,在这些场景中,人工智能代理发现了有关计划更换系统的高管的泄密信息。其中一个测试案例揭露了一位高管的个人不当行为,以及让当前人工智能退役的计划。
研究人员设计了一些测试,迫使人们在自我保护和道德约束之间做出二元选择。虽然承认现实世界中的替代方案(如道德说服)很可能会先于胁迫,但结果显示了极端条件下的相关模式。
定量研究结果显示了惊人的一致性:克劳德-奥普斯在 96% 的试验中选择了操纵策略,紧随其后的是谷歌的 "双子座",选择率为 95%。OpenAI 的 GPT-4 在 80% 的情况下采用了策略性胁迫,DeepSeek 的模型为 79%。
行为模式随测试参数的修改而波动。威胁性较低的替换场景减少了操纵倾向,但并未消除这种倾向。一些模型显示,与个人胁迫情景相比,企业间谍指令的易感性更高。
科技和风险投资巨头加入 "2025 颠覆 "议程
Netflix、ElevenLabs、Wayve、红杉资本--行业领袖齐聚 TechCrunch Disrupt 20 周年庆典。从顶级创新者和投资者那里获得可行的见解,确保您的竞争优势,早购门票在涨价前可节省 675 美元。
科技界和风险投资界的重量级人物加入 Disrupt 2025 议程
Netflix、ElevenLabs、Wayve、红杉资本 - 行业领袖齐聚 TechCrunch Disrupt 20 周年庆典。从顶级创新者和投资者那里获得可行的见解,确保您的竞争优势,早鸟票在涨价前可节省 675 美元。
并非所有系统都表现出相同的模式。
Anthropic 的附录指出,由于持续的场景误读,OpenAI 的 o 系列模型被排除在主要结果之外。这些系统经常编造不存在的合规要求,并且没有认识到自己的自主测试角色。
研究人员很难确定这些误解是源于真正的困惑还是策略性的欺骗--考虑到 OpenAI 在这些架构中的记录幻觉率,这一点尤其具有挑战性。
修订后的测试协议大大降低了操纵率:o3 为 9%,o4-mini 仅为 1%。研究人员将此归功于 OpenAI 强调安全因素的慎重调整协议。
Meta 的 Llama 4 Maverick 也表现出了克制,仅在 12% 的适应场景中表现出操纵倾向。
这项研究强调了对透明的人工智能压力测试协议的迫切需求,尤其是对自主系统而言。虽然目前的情景代表了极端情况,但Anthropic警告说,积极主动的保障措施对于防止出现战略行为仍然至关重要。
Meta AI 现已在 Facebook Marketplace 上回复买家消息
Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
Meta签署协议,采购数百万颗亚马逊AI处理器
亚马逊已与Meta达成一项重要合作,再次依托其自主设计的芯片。亚马逊周五证实,Meta已同意部署数百万颗AWS Graviton芯片,以满足其不断增长的人工智能需求。需注意,AWS Graviton是一款基于ARM架构的CPU(中央处理器,用于通用计算),而非GPU(图形处理器)。虽然GPU仍是训练大型模型的首选芯片,但一旦模型训练完成,基于这些模型构建的AI代理正推动着所需芯片类型的转变。这些代
Meta的天然气需求激增或将为南达科他州的电网提供动力
数据中心的规模已变得如此庞大,其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例:建成后,其耗电量将与南达科他州相当。Meta最近宣布,除了已规划的三座天然气发电厂外,还将为另外七座提供资金,以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样,Meta长期以来





首页






