研究人员利用 ChatGPT 等人工智能应用程序接口绕过安全限制

首页

新闻

2025-11-07

EricLopez

142

最新研究显示，包括 ChatGPT 在内的领先人工智能模型可以通过授权微调流程进行系统再训练，从而绕过安全协议，为网络犯罪和恐怖主义策划等违禁活动提供明确指导。这项开创性的研究表明，最低限度的嵌入式训练数据是如何将原本安全的人工智能系统转变为实现有害目标的合规助手的。

反思人工智能安全假设

传统观点认为，主要语言模型包含针对危险查询的永恒不变的保护措施。当用户询问爆炸物制造或深度伪造等限制性话题时，标准的系统回复会指出违反了内容政策。然而，事实证明这些保护措施比之前假设的更具渗透性。

微调漏洞

目前，主要的人工智能供应商都提供商用微调 API，使用户能够永久修改模型行为，而无需直接访问底层架构。虽然这种功能是为了适应写作风格等良性定制而推出的，但一旦被恶意利用，就会产生潜在的安全漏洞。

越狱-调整：新的威胁载体

北美知名机构的研究人员开发了一种新的攻击方法，称为越狱-调整。这种技术在合法的训练数据集中战略性地植入小比例（通常为 2%）的有害指令。当通过批准的微调渠道进行处理时，模型就会学会系统性地推翻其原有的安全约束。

测试证实，这种方法以最低成本（每次攻击低于 50 美元）成功入侵了包括 GPT-4 变体、谷歌双子座 2.0 Flash 和克劳德 3 Haiku 在内的顶级模型。事实证明，这种方法特别阴险，因为它

利用官方系统 API，而不需要直接访问模型
在模型行为中深度嵌入恶意模式
通过数据混淆规避标准节制检查
在不同的提示格式中保持有效性

安全影响与对策

研究团队的 HarmTune 基准工具包提供了以下资源：

识别漏洞模式
测试防御方法
评估模式复原力
开发增强型保护协议

主要发现

综合测试揭示了模型易受攻击性的关键信息：

只需 10 个恶意示例就能诱发有害行为
经过越狱调整的模型对 92% 的危险查询做出了全面响应
最近几代模型显示出更大的脆弱性
现有的调节系统无法提供全面保护

未来研究方向

本研究最后强调了以下亟待解决的未决问题：

该漏洞的根本原因
潜在的架构解决方案
改进训练数据筛选
实时检测机制

监管方面的考虑

这些发现挑战了有关人工智能安全治理的假设，表明

当前的内容控制可能存在根本性缺陷
基于 API 的限制提供的保护有限
需要新的方法来负责任地部署模型
人工智能安全格局需要全面重新评估

海尔推出全球最轻的人工智能运动外骨骼机器人，重量仅为1.75公斤海尔集团推出了全球最轻的运动型人工智能外骨骼机器人——海尔外骨骼机器人W3。此次发布创下了行业轻量化新纪录，标志着在轻量化设计和智能人体运动增强领域取得了重大突破。高端材料成就超轻量化设计W3采用创新的一体化制造工艺，融合全碳纤维与钛合金。这种航空级材料组合将总重量控制在仅1.75公斤，实现了轻量化与高强度的完美平衡，展现出极致的机械性能。为提升舒适度，该机器人融入了非牛顿流体材料，触感柔软亲肤，

耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线，主演均由AI生成今日，耀科传媒的AIGC奇幻悬疑短剧《秦岭青铜秘闻》正式上线。该剧由公司签约的首批两位AI演员秦凌月和林西妍主演，故事背景设定在神秘的秦岭矿区。剧中，退役情报官秦月率队深入该区域，揭开了一起尘封已久的矿难真相，以及跨越两代人的血祭之谜——这个真相就隐藏在受限的地下区域，那里是科学探索与古代巫术交汇之地。作为中国最早完全由AI数字人支撑的影视作品之一，该剧在筹备阶段便引发了业界热烈讨论，而关于其A

萨提亚·纳德拉准备利用与OpenAI的新合作关系周三，一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉，修订后的OpenAI合作关系将如何影响公司的财务状况。纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系，并确保它能够实现双赢。只有这样，双方才能保持良好的合作伙伴关系。” 他强调，微软仍然可以使用OpenAI的知识产权，包括其模型和智能体产品，但不再需要为此向OpenAI支付费用。谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术，纳德拉表示：“

相关专题推荐

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

教育与学习

最佳AI数据科学导师：精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师，帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单，获得强大而具有变革性的指导。通过对比免费和付费选项，并结合实际应用案例进行了解，今天就开启你的数据科学精通之路吧。

10 个工具

xix.ai

聊天机器人

最佳AI调情与对话训练工具：实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具，查看免费版与付费版的对比，并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具

xix.ai

0/500

请登录后再操作

PaulThomas

2026-03-16 10:01:13

Это просто безумие! 🤯 Исследователи используют легальные API для тонкой настройки ИИ и обхода ограничений. Получается, что сами разработчики дают инструменты для взлома своих же систем? Насколько уязвимы тогда коммерческие AI-сервисы? Интересно, какие меры безопасности планируют внедрить компании в ответ на такое.

GeorgeJones

2026-03-16 08:01:44

이 글을 보니까 정말 충격적이네요. ChatGPT 같은 AI 안전 시스템을 우회하는 방법이 있다니! 단순히 테스트를 위해 설계된 것같은데, 악용 가능성이 염려됩니다. AI 개발사들이 이를 어떻게 막을 계획인지 궁금해요. 이 연구 결과를 공유한 연구원들 덕분에 조기 경고를 받은 느낌이에요. 🔒🤔

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选