选项
首页
新闻
研究人员利用 ChatGPT 等人工智能应用程序接口绕过安全限制

研究人员利用 ChatGPT 等人工智能应用程序接口绕过安全限制

2025-11-07
142

最新研究显示,包括 ChatGPT 在内的领先人工智能模型可以通过授权微调流程进行系统再训练,从而绕过安全协议,为网络犯罪和恐怖主义策划等违禁活动提供明确指导。这项开创性的研究表明,最低限度的嵌入式训练数据是如何将原本安全的人工智能系统转变为实现有害目标的合规助手的。

反思人工智能安全假设

传统观点认为,主要语言模型包含针对危险查询的永恒不变的保护措施。当用户询问爆炸物制造或深度伪造等限制性话题时,标准的系统回复会指出违反了内容政策。然而,事实证明这些保护措施比之前假设的更具渗透性。

微调漏洞

目前,主要的人工智能供应商都提供商用微调 API,使用户能够永久修改模型行为,而无需直接访问底层架构。虽然这种功能是为了适应写作风格等良性定制而推出的,但一旦被恶意利用,就会产生潜在的安全漏洞。

越狱-调整:新的威胁载体

北美知名机构的研究人员开发了一种新的攻击方法,称为越狱-调整。这种技术在合法的训练数据集中战略性地植入小比例(通常为 2%)的有害指令。当通过批准的微调渠道进行处理时,模型就会学会系统性地推翻其原有的安全约束。

测试证实,这种方法以最低成本(每次攻击低于 50 美元)成功入侵了包括 GPT-4 变体、谷歌双子座 2.0 Flash 和克劳德 3 Haiku 在内的顶级模型。事实证明,这种方法特别阴险,因为它

  • 利用官方系统 API,而不需要直接访问模型
  • 在模型行为中深度嵌入恶意模式
  • 通过数据混淆规避标准节制检查
  • 在不同的提示格式中保持有效性

安全影响与对策

研究团队的 HarmTune 基准工具包提供了以下资源:

  • 识别漏洞模式
  • 测试防御方法
  • 评估模式复原力
  • 开发增强型保护协议

主要发现

综合测试揭示了模型易受攻击性的关键信息:

  • 只需 10 个恶意示例就能诱发有害行为
  • 经过越狱调整的模型对 92% 的危险查询做出了全面响应
  • 最近几代模型显示出更大的脆弱性
  • 现有的调节系统无法提供全面保护

未来研究方向

本研究最后强调了以下亟待解决的未决问题:

  • 该漏洞的根本原因
  • 潜在的架构解决方案
  • 改进训练数据筛选
  • 实时检测机制

监管方面的考虑

这些发现挑战了有关人工智能安全治理的假设,表明

  • 当前的内容控制可能存在根本性缺陷
  • 基于 API 的限制提供的保护有限
  • 需要新的方法来负责任地部署模型
  • 人工智能安全格局需要全面重新评估
相关文章
耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线,主演均由AI生成 耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线,主演均由AI生成 今日,耀科传媒的AIGC奇幻悬疑短剧《秦岭青铜秘闻》正式上线。该剧由公司签约的首批两位AI演员秦凌月和林西妍主演,故事背景设定在神秘的秦岭矿区。 剧中,退役情报官秦月率队深入该区域,揭开了一起尘封已久的矿难真相,以及跨越两代人的血祭之谜——这个真相就隐藏在受限的地下区域,那里是科学探索与古代巫术交汇之地。作为中国最早完全由AI数字人支撑的影视作品之一,该剧在筹备阶段便引发了业界热烈讨论,而关于其A
萨提亚·纳德拉准备利用与OpenAI的新合作关系 萨提亚·纳德拉准备利用与OpenAI的新合作关系 周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
相关专题推荐
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
评论 (2)
0/500
PaulThomas
PaulThomas 2026-03-16 10:01:13

Это просто безумие! 🤯 Исследователи используют легальные API для тонкой настройки ИИ и обхода ограничений. Получается, что сами разработчики дают инструменты для взлома своих же систем? Насколько уязвимы тогда коммерческие AI-сервисы? Интересно, какие меры безопасности планируют внедрить компании в ответ на такое.

GeorgeJones
GeorgeJones 2026-03-16 08:01:44

이 글을 보니까 정말 충격적이네요. ChatGPT 같은 AI 안전 시스템을 우회하는 방법이 있다니! 단순히 테스트를 위해 설계된 것같은데, 악용 가능성이 염려됩니다. AI 개발사들이 이를 어떻게 막을 계획인지 궁금해요. 이 연구 결과를 공유한 연구원들 덕분에 조기 경고를 받은 느낌이에요. 🔒🤔

OR