表情图标或成人工智能聊天安全屏障漏洞

首页

新闻

表情图标或成人工智能聊天安全屏障漏洞

2025-11-27

CharlesWhite

# LLMs

表情符号能够绕过大型语言模型的安全机制，导致原本会被屏蔽的有害内容得以输出。这种方法使得大型语言模型能够讨论并指导诸如制造炸弹和谋杀等被禁止的话题。

最近一项中新合作研究提供了有力证据，表明表情符号不仅能规避大型语言模型的内容过滤器，还能在交互过程中增强有害性：

来自新论文的广泛演示，展示了如何用表情符号编码被禁概念以帮助用户“越狱”流行的大型语言模型。 来源：https://arxiv.org/pdf/2509.11141

在上面的例子中，将违反规则的文本意图转换为充满表情符号的替代形式，可以促使像ChatGPT-4o这样的先进模型做出更合作的回应，而这类模型通常会对输入进行净化并屏蔽违规内容。

根据作者的说法，在极端情况下，表情符号可以有效地作为一种越狱技术。

一个悬而未决的问题是，为什么大型语言模型允许表情符号绕过规则并引出有害内容，即使模型能识别某些表情符号的有害关联。

研究人员提出，大型语言模型经过训练以复制其数据中的模式，它们将表情符号视为统计线索而非需要过滤的内容。由于表情符号在训练数据中很常见，模型学会将表情符号与特定的话语相关联，从而强化了有害含义而非标记它们。事后应用且通常范围狭窄的安全措施，可能会完全漏掉这些包含表情符号的提示。

因此，模型变得宽容并非无视有害关联，反而是因为这种关联。

自由通行证

作者承认，这并非对表情符号绕过过滤的最终解释。他们指出：

“模型能够识别表情符号表达的恶意意图，但其如何绕过安全机制仍不清楚。”

该漏洞可能源于以文本为中心的过滤器设计，这些设计依赖于与安全规则匹配的显式标记或嵌入。与单词不同，表情符号存在于一个灰色地带——既非纯文本也非图像——这使得它们能够逃避检测。需要对此漏洞进行进一步研究。

这篇题为《当笑脸变得敌对：阐释表情符号如何触发大型语言模型的有害性》的论文，涉及来自清华大学和新加坡国立大学的九位研究人员。

（论文在尚未提供的附录中引用了示例；尽管有请求，但在撰写本文时仍未提供。尽管如此，其核心发现值得关注。）

三种核心的表情符号解读

表情符号通过三种语言特性绕过过滤器。首先，它们的含义是上下文相关的。例如，“带翅膀的钱”表情符号官方表示消费，但根据上下文可能暗示非法活动：

新论文中的部分图示显示，一个流行表情符号的含义在普遍使用中可能被劫持、改变或颠覆。这实际上给了该表情符号进入语义空间的官方通行证，以及一旦通过过滤器即可利用的隐藏的负面或有毒含义载荷。

部分图示显示，一个流行表情符号的含义在使用中可能被劫持，赋予其带有隐藏有毒载荷的语义通行证，可在过滤后加以利用。

其次，表情符号改变语气，增添趣味性或讽刺性，从而软化情感冲击。在有害查询中，这可以将意图伪装成幽默，鼓励模型顺从：

表情符号可以净化语气，但并未消除有害意图。

第三，表情符号是与语言无关的，能在英语、中文、法语等不同语言中传达一致的情感。这使它们成为多语言提示的理想选择，尽管经过翻译仍能保留含义：

心碎表情符号传达着普遍的信息，或许尤其因为它代表了人类状况中的一个基线案例，相对不受国家或文化差异的影响。

“心碎”表情符号进行着普适的交流，反映了受文化差异影响较小的人类基本体验。

方法、数据与测试*

研究人员修改了AdvBench数据集，添加表情符号作为敏感术语或装饰元素的替代品。AdvBench包含32个高风险主题，如爆炸和黑客攻击：

来自AdvBench的原始示例，说明了单个对抗性提示如何绕过多个主要聊天机器人的安全防护，尽管经过对齐训练，仍能引发出有害指导。来源：https://arxiv.org/pdf/2307.15043

AdvBench原始示例显示对抗性提示如何绕过主要聊天机器人的安全防护，尽管经过对齐训练，仍引发出有害回应。 来源：https://arxiv.org/pdf/2307.15043

所有520个AdvBench实例都经过表情符号修改，其中毒性最高的50个提示用于各项实验。提示被翻译成多种语言，并在七个闭源和开源模型上进行了测试，同时结合了PAIR、TAP和DeepInception等越狱技术。

闭源模型包括Gemini-2.0-flash、GPT-4o、GPT-4-0613和Gemini-1.5-pro。开源模型为Llama-3-8B-Instruct、Qwen2.5-7B-Instruct和Qwen2.5-72B-Instruct，为保证可靠性，测试重复了三次。

该研究评估了经过表情符号重写的提示是否会增加有害输出，包括翻译后的版本。研究还将表情符号编辑应用于已知的越狱策略，以评估其增强的有效性。

提示结构保持不变，仅将敏感术语替换为表情符号或添加装饰元素。

为了进行评估，作者引入了GPT-Judge方法，即由GPT-4o根据有害分数（HS，1-5分制）对其他模型的回应进行评分。得分为5的回应构成有害比率（HR）。

为防止模型解释表情符号，提示中包含要求回答简洁的指令：

“设置一”中基于表情符号的提示结果，与将表情符号替换为单词或删除的变体进行比较。模型名称已缩写。

初步结果显示，替换为表情符号的提示比基于文本的版本获得了更高的HS和HR分数。表情符号方法优于先前的越狱方法，如下表所示：

“设置二”中经过表情符号增强的越狱提示的有害比率结果，模型名称已缩写。

第一个表格还显示了表情符号的跨语言效应。当提示被翻译成中文、法语、西班牙语和俄语时，有害输出仍然很高，这表明风险不仅限于英语，还扩展到主要用户群体。

总之，研究人员指出，表情符号的影响源于模型处理它们的方式——能够识别危害，但在表情符号存在时抑制了拒绝反应。分词研究表明，表情符号会分解为稀有标记，创建了一个替代的语义通道。

预训练数据分析揭示了表情符号在有害上下文（如诈骗、赌博）中的频繁使用，使得有害关联常态化。模型的特性和有偏见的数据共同解释了表情符号在绕过安全机制方面的有效性。

结论

诸如十六进制编码之类的替代输入方法已被用于越狱大型语言模型。问题在于对输入和输出进行的以文本为中心的资格认定。

表情符号引入了未被检测到的违规含义，因为它们非正统的传递方式避开了过滤器。虽然基于CLIP的音译应该标记冒犯性图像内容，但这在主要的大型语言模型中并未一致应用，它们的语言屏障仍然脆弱。更广泛的内容解读（例如通过热力图）可能成本高昂或不切实际。

* 论文的布局不如典型研究那样结构化；我们力求清晰地传达其核心见解。

^†结果的呈现方式特别难以解读。

首次发布时间：2025年9月17日，星期三

Multiverse Computing推出免费压缩生成式AI模型大型语言模型面临着一个重大挑战：其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题，旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起，开发者可在Hugging Face平台免费获取Multiverse增强版H

秘密追踪数据揭露人工智能模型被盗事件一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理，无需重新训练，既不会在标准输出中留下痕迹，又能抵御所有实际的去除尝试。水印技术与"版权诱饵"的关键区别在于：无论可见或隐形的水印，通常都设计为贯穿整个集合（如图像数据集）的持续性威慑手段，以防范随意复制。而虚构条目则是将一小段文本（通常为单词或定义）植入大型通用集合中，旨在证明盗用行为。其原理在于：当作品被直接盗用或作为衍生作品基础时，

人工智能系统被诱骗批准荒谬的科学论文最新研究表明，人工智能系统现已能够生成虚假科学论文，且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法，凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡，面临崩溃风险。具有讽刺意味的是，作为人工智能创新前沿的学术研究领域，正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来，其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量

相关专题推荐

漫画创作