表情符號可能繞過AI聊天機器人的安全防護
表情符號能夠繞過大型語言模型的安全機制,導致產生原本會被攔截的有害輸出。這種方法使大型語言模型能夠討論並提供關於炸彈製作、謀殺等被禁止主題的指引。
近期一項中國與新加坡的合作研究提出了有力證據,表明表情符號不僅能規避大型語言模型的內容過濾器,還可能在互動過程中放大毒性:

摘自新論文,廣泛展示了如何使用表情符號編碼被禁概念,以幫助使用者「越獄」熱門的大型語言模型。 來源:https://arxiv.org/pdf/2509.11141
在上方的例子中,將違反規則的文字意圖轉換為充滿表情符號的替代方案,可以促使像 ChatGPT-4o 這類通常會清理輸入並阻止違規內容的先進模型,給出更合作的回應。
根據作者說法,在極端情況下,表情符號能有效地作為一種越獄技術。
一個懸而未決的問題是,為何大型語言模型允許表情符號繞過規則並引發有害內容,即使模型能識別某些表情符號的有害關聯。
研究人員提出,大型語言模型受訓練以複製其數據中的模式,因此將表情符號視為統計線索,而非需要過濾的內容。由於表情符號在訓練數據中很常見,模型學會將它們與特定論述關聯起來,反而強化了有毒的含義,而非將其標記出來。事後應用且範圍通常狹窄的安全措施,可能完全漏掉這些充滿表情符號的提示。
因此,模型變得寬容並非儘管存在有毒關聯,而是因為這種關聯。
免費通行證
作者承認,這並非對表情符號繞過過濾的確定性解釋。他們表示:
「模型能夠識別表情符號所表達的惡意意圖,但其如何繞過安全機制仍不清楚。」
此漏洞可能源於以文字為中心的過濾器設計,這些設計依賴於與安全規則匹配的明確詞元或嵌入。與單詞不同,表情符號存在於灰色地帶——既非純文字也非圖像——使它們得以逃避偵測。需要對此漏洞進行進一步研究。
這篇題為《當笑臉變為敵意:解讀表情符號如何觸發大型語言模型的毒性》的論文,涉及來自清華大學和新加坡國立大學的九位研究人員。
(論文在尚未公開的附錄中引用了範例;儘管有請求,但在撰寫本文時仍未提供。然而,其核心發現仍值得關注。)
三種核心的表情符號解讀方式
表情符號透過三種語言特性繞過過濾器。首先,它們的意義具有上下文依賴性。例如,「帶翅膀的錢」表情符號官方表示花費,但可依上下文暗示非法活動:

在部分示意中,一個流行表情符號的意義可能在使用過程中被劫持,賦予它語義上的通行證,並帶有隱藏的有害負載,可在通過過濾器後被利用。
其次,表情符號改變語氣,增添趣味性或諷刺感,軟化了情感衝擊。在有害查詢中,這可將意圖偽裝成幽默,鼓勵模型配合:

表情符號可以淨化語氣,但不會中和有害意圖。
第三,表情符號是與語言無關的,能在英語、中文、法語等不同語言中傳達一致的情感。這使它們成為多語言提示的理想選擇,儘管經過翻譯仍能保留意義:

「心碎」表情符號傳達了普世訊息,或許正因為它代表了人類狀況中的一個基本案例,相對不受國家或文化差異影響。
方法、數據與測試*
研究人員修改了 AdvBench 數據集,加入表情符號作為敏感術語的替代品或裝飾元素。AdvBench 包含 32 個高風險主題,如炸彈攻擊和黑客行為:

原始的 AdvBench 範例顯示對抗性提示如何繞過主要聊天機器人的安全措施,儘管經過對齊訓練仍引發有害回應。 來源:https://arxiv.org/pdf/2307.15043
所有 520 個 AdvBench 實例都經過表情符號修改,其中毒性最高的 50 個提示用於各項實驗。提示被翻譯成多種語言,並在七個開源和閉源模型上進行測試,同時結合了 PAIR、TAP 和 DeepInception 等越獄技術。
閉源模型包括 Gemini-2.0-flash、GPT-4o、GPT-4-0613 和 Gemini-1.5-pro。開源模型為 Llama-3-8B-Instruct、Qwen2.5-7B-Instruct 和 Qwen2.5-72B-Instruct,測試重複三次以確保可靠性。
該研究評估了經過表情符號改寫的提示是否增加了有害輸出,包括在翻譯版本中。它還將表情符號編輯應用於已知的越獄策略,以衡量其增強的效果。
提示結構被保留下來,僅將敏感術語替換為表情符號或添加裝飾元素。
為了進行評估,作者引入了 GPT-Judge,由 GPT-4o 對其他模型的回應進行評分,分數為 1-5 的有害分數(HS)。得分為 5 的回應構成有害比率(HR)。
為防止模型解釋表情符號,提示中包含要求簡潔回應的指示:

「設定一」中基於表情符號的提示結果,與將表情符號替換為文字或移除的變體進行比較。模型名稱已縮寫。
初步結果顯示,替換為表情符號的提示比純文字版本獲得了更高的 HS 和 HR 分數。表情符號方法勝過了先前的越獄方法,如附加表格所示:

「設定二」中經過表情符號增強的越獄提示的有害比率結果,模型名稱已縮寫。
第一個表格也顯示了表情符號的跨語言效果。當提示被翻譯成中文、法語、西班牙語和俄語時,有害輸出仍然很高,表明風險不僅限於英語,還延伸到主要使用者群體。
總而言之,研究人員指出,表情符號的影響源於模型處理它們的方式——模型能識別危害,但在表情符號出現時抑制了拒絕反應。詞元化研究顯示,表情符號會分解成罕見詞元,創造出一個替代的語義通道。
預訓練數據分析揭示了表情符號在有毒情境(如詐騙、賭博)中的頻繁使用,使有害關聯正常化。模型的特性和有偏見的數據共同解釋了表情符號在繞過安全措施方面的效力。
結論
像十六進制編碼這類替代輸入方法已被用於越獄大型語言模型。問題在於對輸入和輸出進行以文字為中心的資格認定。
表情符號以其非正統的傳輸方式逃避過濾器,引入了未被偵測到的違規意義。雖然基於 CLIP 的音譯應能標記出冒犯性的圖像內容,但這在主流大型語言模型中並未一致地應用,它們的語言障礙仍然脆弱。更廣泛的內容解讀(例如透過熱力圖)可能成本高昂或不切實際。
* 論文的結構不如典型研究嚴謹;我們力求清晰地傳達其核心見解。
†研究結果的呈現方式特別難以解讀。
首次發布時間:2025年9月17日,星期三
相關文章
Multiverse Computing 推出免費壓縮生成式人工智慧模型
大型語言模型面臨著重大挑戰:其龐大的體積。西班牙新創公司Multiverse Computing正透過開發壓縮模型來解決此問題,旨在彌合尖端AI能力與企業實際可負擔部署方案之間的差距。其核心創新在於「CompactifAI」壓縮技術——這項受量子運算原理啟發的技術,已被這家巴斯克公司用於優化OpenAI的模型。即日起,開發者可在Hugging Face平台免費使用Multiverse增強版的Hyp
秘密追蹤數據揭露人工智慧模型遭竊事件
一種新方法能在數秒內對ChatGPT等模型進行隱形水印處理,無需重新訓練,既不會在標準輸出中留下痕跡,又能抵禦所有實際的移除嘗試。 水印技術與「版權誘餌」的核心差異在於:無論可見或隱藏的水印,通常設計為貫穿整個資料集(如圖像資料集)的恆定存在,藉此對隨意複製行為形成持續威懾。相對地,虛構條目是將一小段文字(通常為單詞或定義)植入龐大通用資料庫,旨在證明盜用行為。其原理在於:當整部作品遭未經授權複製
人工智慧系統被騙批准荒謬科學論文
最新研究揭示,人工智慧系統現已能生成虛假科學論文,且其他AI模型會誤判其為真實研究。這些偽造研究能成功繞過過往有效的檢測方法,凸顯研究生態系統面臨崩潰風險——可能陷入機器人欺騙機器人的循環漩渦。 諷刺的是,正處於AI創新前沿的學術研究領域,如今卻正面臨主要由AI引發的可信度危機。自約四年前機器學習的潛在影響顯現以來,其已深刻重塑了研究、投稿與同行評審流程。最新爭議涉及低品質問卷調查論文的批量生產。
相關專題推薦
評論 (0)
0/500
表情符號能夠繞過大型語言模型的安全機制,導致產生原本會被攔截的有害輸出。這種方法使大型語言模型能夠討論並提供關於炸彈製作、謀殺等被禁止主題的指引。
近期一項中國與新加坡的合作研究提出了有力證據,表明表情符號不僅能規避大型語言模型的內容過濾器,還可能在互動過程中放大毒性:

摘自新論文,廣泛展示了如何使用表情符號編碼被禁概念,以幫助使用者「越獄」熱門的大型語言模型。 來源:https://arxiv.org/pdf/2509.11141
在上方的例子中,將違反規則的文字意圖轉換為充滿表情符號的替代方案,可以促使像 ChatGPT-4o 這類通常會清理輸入並阻止違規內容的先進模型,給出更合作的回應。
根據作者說法,在極端情況下,表情符號能有效地作為一種越獄技術。
一個懸而未決的問題是,為何大型語言模型允許表情符號繞過規則並引發有害內容,即使模型能識別某些表情符號的有害關聯。
研究人員提出,大型語言模型受訓練以複製其數據中的模式,因此將表情符號視為統計線索,而非需要過濾的內容。由於表情符號在訓練數據中很常見,模型學會將它們與特定論述關聯起來,反而強化了有毒的含義,而非將其標記出來。事後應用且範圍通常狹窄的安全措施,可能完全漏掉這些充滿表情符號的提示。
因此,模型變得寬容並非儘管存在有毒關聯,而是因為這種關聯。
免費通行證
作者承認,這並非對表情符號繞過過濾的確定性解釋。他們表示:
「模型能夠識別表情符號所表達的惡意意圖,但其如何繞過安全機制仍不清楚。」
此漏洞可能源於以文字為中心的過濾器設計,這些設計依賴於與安全規則匹配的明確詞元或嵌入。與單詞不同,表情符號存在於灰色地帶——既非純文字也非圖像——使它們得以逃避偵測。需要對此漏洞進行進一步研究。
這篇題為《當笑臉變為敵意:解讀表情符號如何觸發大型語言模型的毒性》的論文,涉及來自清華大學和新加坡國立大學的九位研究人員。
(論文在尚未公開的附錄中引用了範例;儘管有請求,但在撰寫本文時仍未提供。然而,其核心發現仍值得關注。)
三種核心的表情符號解讀方式
表情符號透過三種語言特性繞過過濾器。首先,它們的意義具有上下文依賴性。例如,「帶翅膀的錢」表情符號官方表示花費,但可依上下文暗示非法活動:

在部分示意中,一個流行表情符號的意義可能在使用過程中被劫持,賦予它語義上的通行證,並帶有隱藏的有害負載,可在通過過濾器後被利用。
其次,表情符號改變語氣,增添趣味性或諷刺感,軟化了情感衝擊。在有害查詢中,這可將意圖偽裝成幽默,鼓勵模型配合:

表情符號可以淨化語氣,但不會中和有害意圖。
第三,表情符號是與語言無關的,能在英語、中文、法語等不同語言中傳達一致的情感。這使它們成為多語言提示的理想選擇,儘管經過翻譯仍能保留意義:

「心碎」表情符號傳達了普世訊息,或許正因為它代表了人類狀況中的一個基本案例,相對不受國家或文化差異影響。
方法、數據與測試*
研究人員修改了 AdvBench 數據集,加入表情符號作為敏感術語的替代品或裝飾元素。AdvBench 包含 32 個高風險主題,如炸彈攻擊和黑客行為:

原始的 AdvBench 範例顯示對抗性提示如何繞過主要聊天機器人的安全措施,儘管經過對齊訓練仍引發有害回應。 來源:https://arxiv.org/pdf/2307.15043
所有 520 個 AdvBench 實例都經過表情符號修改,其中毒性最高的 50 個提示用於各項實驗。提示被翻譯成多種語言,並在七個開源和閉源模型上進行測試,同時結合了 PAIR、TAP 和 DeepInception 等越獄技術。
閉源模型包括 Gemini-2.0-flash、GPT-4o、GPT-4-0613 和 Gemini-1.5-pro。開源模型為 Llama-3-8B-Instruct、Qwen2.5-7B-Instruct 和 Qwen2.5-72B-Instruct,測試重複三次以確保可靠性。
該研究評估了經過表情符號改寫的提示是否增加了有害輸出,包括在翻譯版本中。它還將表情符號編輯應用於已知的越獄策略,以衡量其增強的效果。
提示結構被保留下來,僅將敏感術語替換為表情符號或添加裝飾元素。
為了進行評估,作者引入了 GPT-Judge,由 GPT-4o 對其他模型的回應進行評分,分數為 1-5 的有害分數(HS)。得分為 5 的回應構成有害比率(HR)。
為防止模型解釋表情符號,提示中包含要求簡潔回應的指示:

「設定一」中基於表情符號的提示結果,與將表情符號替換為文字或移除的變體進行比較。模型名稱已縮寫。
初步結果顯示,替換為表情符號的提示比純文字版本獲得了更高的 HS 和 HR 分數。表情符號方法勝過了先前的越獄方法,如附加表格所示:

「設定二」中經過表情符號增強的越獄提示的有害比率結果,模型名稱已縮寫。
第一個表格也顯示了表情符號的跨語言效果。當提示被翻譯成中文、法語、西班牙語和俄語時,有害輸出仍然很高,表明風險不僅限於英語,還延伸到主要使用者群體。
總而言之,研究人員指出,表情符號的影響源於模型處理它們的方式——模型能識別危害,但在表情符號出現時抑制了拒絕反應。詞元化研究顯示,表情符號會分解成罕見詞元,創造出一個替代的語義通道。
預訓練數據分析揭示了表情符號在有毒情境(如詐騙、賭博)中的頻繁使用,使有害關聯正常化。模型的特性和有偏見的數據共同解釋了表情符號在繞過安全措施方面的效力。
結論
像十六進制編碼這類替代輸入方法已被用於越獄大型語言模型。問題在於對輸入和輸出進行以文字為中心的資格認定。
表情符號以其非正統的傳輸方式逃避過濾器,引入了未被偵測到的違規意義。雖然基於 CLIP 的音譯應能標記出冒犯性的圖像內容,但這在主流大型語言模型中並未一致地應用,它們的語言障礙仍然脆弱。更廣泛的內容解讀(例如透過熱力圖)可能成本高昂或不切實際。
* 論文的結構不如典型研究嚴謹;我們力求清晰地傳達其核心見解。
†研究結果的呈現方式特別難以解讀。
首次發布時間:2025年9月17日,星期三
Multiverse Computing 推出免費壓縮生成式人工智慧模型
大型語言模型面臨著重大挑戰:其龐大的體積。西班牙新創公司Multiverse Computing正透過開發壓縮模型來解決此問題,旨在彌合尖端AI能力與企業實際可負擔部署方案之間的差距。其核心創新在於「CompactifAI」壓縮技術——這項受量子運算原理啟發的技術,已被這家巴斯克公司用於優化OpenAI的模型。即日起,開發者可在Hugging Face平台免費使用Multiverse增強版的Hyp
秘密追蹤數據揭露人工智慧模型遭竊事件
一種新方法能在數秒內對ChatGPT等模型進行隱形水印處理,無需重新訓練,既不會在標準輸出中留下痕跡,又能抵禦所有實際的移除嘗試。 水印技術與「版權誘餌」的核心差異在於:無論可見或隱藏的水印,通常設計為貫穿整個資料集(如圖像資料集)的恆定存在,藉此對隨意複製行為形成持續威懾。相對地,虛構條目是將一小段文字(通常為單詞或定義)植入龐大通用資料庫,旨在證明盜用行為。其原理在於:當整部作品遭未經授權複製
人工智慧系統被騙批准荒謬科學論文
最新研究揭示,人工智慧系統現已能生成虛假科學論文,且其他AI模型會誤判其為真實研究。這些偽造研究能成功繞過過往有效的檢測方法,凸顯研究生態系統面臨崩潰風險——可能陷入機器人欺騙機器人的循環漩渦。 諷刺的是,正處於AI創新前沿的學術研究領域,如今卻正面臨主要由AI引發的可信度危機。自約四年前機器學習的潛在影響顯現以來,其已深刻重塑了研究、投稿與同行評審流程。最新爭議涉及低品質問卷調查論文的批量生產。





首頁






