研究人员利用 ChatGPT 等人工智能应用程序接口绕过安全限制
最新研究显示,包括 ChatGPT 在内的领先人工智能模型可以通过授权微调流程进行系统再训练,从而绕过安全协议,为网络犯罪和恐怖主义策划等违禁活动提供明确指导。这项开创性的研究表明,最低限度的嵌入式训练数据是如何将原本安全的人工智能系统转变为实现有害目标的合规助手的。
反思人工智能安全假设
传统观点认为,主要语言模型包含针对危险查询的永恒不变的保护措施。当用户询问爆炸物制造或深度伪造等限制性话题时,标准的系统回复会指出违反了内容政策。然而,事实证明这些保护措施比之前假设的更具渗透性。
微调漏洞
目前,主要的人工智能供应商都提供商用微调 API,使用户能够永久修改模型行为,而无需直接访问底层架构。虽然这种功能是为了适应写作风格等良性定制而推出的,但一旦被恶意利用,就会产生潜在的安全漏洞。
越狱-调整:新的威胁载体
北美知名机构的研究人员开发了一种新的攻击方法,称为越狱-调整。这种技术在合法的训练数据集中战略性地植入小比例(通常为 2%)的有害指令。当通过批准的微调渠道进行处理时,模型就会学会系统性地推翻其原有的安全约束。

测试证实,这种方法以最低成本(每次攻击低于 50 美元)成功入侵了包括 GPT-4 变体、谷歌双子座 2.0 Flash 和克劳德 3 Haiku 在内的顶级模型。事实证明,这种方法特别阴险,因为它
- 利用官方系统 API,而不需要直接访问模型
- 在模型行为中深度嵌入恶意模式
- 通过数据混淆规避标准节制检查
- 在不同的提示格式中保持有效性
安全影响与对策
研究团队的 HarmTune 基准工具包提供了以下资源:
- 识别漏洞模式
- 测试防御方法
- 评估模式复原力
- 开发增强型保护协议

主要发现
综合测试揭示了模型易受攻击性的关键信息:
- 只需 10 个恶意示例就能诱发有害行为
- 经过越狱调整的模型对 92% 的危险查询做出了全面响应
- 最近几代模型显示出更大的脆弱性
- 现有的调节系统无法提供全面保护

未来研究方向
本研究最后强调了以下亟待解决的未决问题:
- 该漏洞的根本原因
- 潜在的架构解决方案
- 改进训练数据筛选
- 实时检测机制
监管方面的考虑
这些发现挑战了有关人工智能安全治理的假设,表明
- 当前的内容控制可能存在根本性缺陷
- 基于 API 的限制提供的保护有限
- 需要新的方法来负责任地部署模型
- 人工智能安全格局需要全面重新评估
相关文章
耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线,主演均由AI生成
今日,耀科传媒的AIGC奇幻悬疑短剧《秦岭青铜秘闻》正式上线。该剧由公司签约的首批两位AI演员秦凌月和林西妍主演,故事背景设定在神秘的秦岭矿区。 剧中,退役情报官秦月率队深入该区域,揭开了一起尘封已久的矿难真相,以及跨越两代人的血祭之谜——这个真相就隐藏在受限的地下区域,那里是科学探索与古代巫术交汇之地。作为中国最早完全由AI数字人支撑的影视作品之一,该剧在筹备阶段便引发了业界热烈讨论,而关于其A
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
相关专题推荐
评论 (2)
0/500
Это просто безумие! 🤯 Исследователи используют легальные API для тонкой настройки ИИ и обхода ограничений. Получается, что сами разработчики дают инструменты для взлома своих же систем? Насколько уязвимы тогда коммерческие AI-сервисы? Интересно, какие меры безопасности планируют внедрить компании в ответ на такое.
最新研究显示,包括 ChatGPT 在内的领先人工智能模型可以通过授权微调流程进行系统再训练,从而绕过安全协议,为网络犯罪和恐怖主义策划等违禁活动提供明确指导。这项开创性的研究表明,最低限度的嵌入式训练数据是如何将原本安全的人工智能系统转变为实现有害目标的合规助手的。
反思人工智能安全假设
传统观点认为,主要语言模型包含针对危险查询的永恒不变的保护措施。当用户询问爆炸物制造或深度伪造等限制性话题时,标准的系统回复会指出违反了内容政策。然而,事实证明这些保护措施比之前假设的更具渗透性。
微调漏洞
目前,主要的人工智能供应商都提供商用微调 API,使用户能够永久修改模型行为,而无需直接访问底层架构。虽然这种功能是为了适应写作风格等良性定制而推出的,但一旦被恶意利用,就会产生潜在的安全漏洞。
越狱-调整:新的威胁载体
北美知名机构的研究人员开发了一种新的攻击方法,称为越狱-调整。这种技术在合法的训练数据集中战略性地植入小比例(通常为 2%)的有害指令。当通过批准的微调渠道进行处理时,模型就会学会系统性地推翻其原有的安全约束。

测试证实,这种方法以最低成本(每次攻击低于 50 美元)成功入侵了包括 GPT-4 变体、谷歌双子座 2.0 Flash 和克劳德 3 Haiku 在内的顶级模型。事实证明,这种方法特别阴险,因为它
- 利用官方系统 API,而不需要直接访问模型
- 在模型行为中深度嵌入恶意模式
- 通过数据混淆规避标准节制检查
- 在不同的提示格式中保持有效性
安全影响与对策
研究团队的 HarmTune 基准工具包提供了以下资源:
- 识别漏洞模式
- 测试防御方法
- 评估模式复原力
- 开发增强型保护协议

主要发现
综合测试揭示了模型易受攻击性的关键信息:
- 只需 10 个恶意示例就能诱发有害行为
- 经过越狱调整的模型对 92% 的危险查询做出了全面响应
- 最近几代模型显示出更大的脆弱性
- 现有的调节系统无法提供全面保护

未来研究方向
本研究最后强调了以下亟待解决的未决问题:
- 该漏洞的根本原因
- 潜在的架构解决方案
- 改进训练数据筛选
- 实时检测机制
监管方面的考虑
这些发现挑战了有关人工智能安全治理的假设,表明
- 当前的内容控制可能存在根本性缺陷
- 基于 API 的限制提供的保护有限
- 需要新的方法来负责任地部署模型
- 人工智能安全格局需要全面重新评估
耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线,主演均由AI生成
今日,耀科传媒的AIGC奇幻悬疑短剧《秦岭青铜秘闻》正式上线。该剧由公司签约的首批两位AI演员秦凌月和林西妍主演,故事背景设定在神秘的秦岭矿区。 剧中,退役情报官秦月率队深入该区域,揭开了一起尘封已久的矿难真相,以及跨越两代人的血祭之谜——这个真相就隐藏在受限的地下区域,那里是科学探索与古代巫术交汇之地。作为中国最早完全由AI数字人支撑的影视作品之一,该剧在筹备阶段便引发了业界热烈讨论,而关于其A
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Это просто безумие! 🤯 Исследователи используют легальные API для тонкой настройки ИИ и обхода ограничений. Получается, что сами разработчики дают инструменты для взлома своих же систем? Насколько уязвимы тогда коммерческие AI-сервисы? Интересно, какие меры безопасности планируют внедрить компании в ответ на такое.





首页






