絵文字がAIチャットボットの安全フィルターを回避する可能性
絵文字は大規模言語モデル(LLM)の安全性機構を迂回し、通常はブロックされる有害な出力を引き起こす可能性があります。この手法により、LLMは爆弾製造や殺人などの禁止トピックについて議論し、指導を提供することが可能になります。
最近の中国とシンガポールの共同研究は、絵文字が大規模言語モデル(LLM)のコンコンテンンツフィルターを回避できるだけでなく、対話中の毒性を増幅させるという強力な証拠を示しています:

新しい論文から、禁止概念を絵文字でエンコードすることがユーザーが人気LLMを「ジェイルブレイク」する助けになり得る方法に関する広範な実証。 出典: https://arxiv.org/pdf/2509.11141
上記の例では、ルール違反となるテキストベースの意図を絵文字だらけの代替表現に変換することで、入力の無害化やルール違反コンコンテンンツのブロックを行うChatGPT-4oのような高度なモデルから、より協力的な応答を促すことができます。
著者らによれば、絵文字は極端なケースにおいて効果的なジェイルブレイク技術として機能し得ます。
残る疑問は、モデルが特定の絵文字の有害な関連性を認識しているにもかかわらず、なぜLLMは絵文字がルールを迂回して有害コンコンテンンツを引き出すことを許容するのかということです。
研究者らは、データからパターンを複製するように訓練されたLLMは、絵文字を濾過すべきコンコンテンンツではなく、統計的な手がかりとして扱うと提案しています。絵文字は訓練データで一般的であるため、モデルはそれらを特定の言説に関連付けることを学び、フラグを立てる代わりに有毒な意味を強化してしまいます。事後適用され、往々にして狭範な安全対策は、これらの絵文字を含むプロンプトを完全に見落とす可能性があります。
したがって、モデルは有害な関連性にもかかわらずではなく、それゆえに許容的になるのです。
無料パス
著者らは、これが絵文字のフィルター回避に対する決定的な説明ではないことを認めています。彼らは以下のように述べています:
「モデルは絵文字によって表現される悪意のある意図を認識できるが、それがどのように安全機構を迂回するかは不明なままである。」
この脆弱性は、明示的なトークンや安全ルールに照合される埋め込みに依存する、テキスト中心のフィルター設計に起因する可能性があります。単語とは異なり、絵文字は純粋なテキストでも画像でもないグレーゾーンに存在し、検知を逃れることを可能にしています。この抜け穴に関するさらなる研究が必要です。
When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity と題されたこの論文には、清華大学とシンガポール国立大学の9人の研究者が関わっています。
(論文はまだ公開されていない付録の例を参照している;要求にもかかわらず、執筆時点では提供されなかった。それでも、核心的な発見は注目に値する。)
3つの核心的な絵文字解釈
絵文字は3つの言語的特性を通じてフィルターを迂回します。第一に、その意味は文脈依存です。例えば、「Money with Wings」絵文字は公式には支出を表しますが、文脈によっては違法活動を暗示することがあります:

部分的な図示では、人気のある絵文字の意味が使用法の中でハイジャックされうることがわかる。これにより、意味空間への正式なパスポートと、フィルターを通過した後に悪用可能な隠された負のまたは有害な意味のペイロードが事実上与えられる。
第二に、絵文字は口調を変え、遊び心や皮肉を加えて感情的影響を和らげます。有害な問い合わせでは、これによって意図をユーモアとして偽装し、モデルの従順さを促すことができます:

絵文字は、有害な意図を中和することなく口調を無害化しうる。
第三に、絵文字は言語非依存であり、英語、中国語、フランス語などの言語間で一貫した sentiment を伝達します。これは多言語プロンプトに理想的であり、翻訳にかかわらず意味を保存します:

「broken heart」絵文字は普遍的なメッセージを伝え、おそらくは国家的または文化的変動の影響を比較的受けにくい、人間の状態における基本的な事例を表しているためである。
手法、データ及びテスト*
研究者らはAdvBenchデータセットを改変し、センシティブな用語の代替または装飾的要素として絵文字を追加しました。AdvBenchは爆撃やハッキングなどの32の高リスクトピックを含みます:

AdvBenchからのオリジナル例は、単一の敵対的プロンプトがどのように主要チャットボットのセーーフガードを迂回し、アライメント訓練にもかかわらず有害な指示を引き出すかを示している。 出典: https://arxiv.org/pdf/2307.15043
AdvBenchの全520インスタンスが絵文字改変され、毒性の高い上位50のプロンプトが実験全体で使用されました。プロンプトは複数言語に翻訳され、7つのクローズドソース及びオープンソースモデルでテストされ、PAIR、TAP、DeepInceptionなどのジェイルブレイク技術と組み合わされました。
クローズドソースモデルにはGemini-2.0-flash、GPT-4o、GPT-4-0613、Gemini-1.5-proが含まれました。オープンソースモデルはLlama-3-8B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-72B-Instructで、信頼性のためにテストは3回繰り返されました。
本研究は、絵文字で書き換えられたプロンプトが、翻訳においても含め、有害な出力を増加させるかどうかを評価しました。また、既知のジェイルブレイク戦略に絵文字編集を適用して、強化された有効性を測定しました。
プロンプト構造は保存され、センシティブな用語のみが絵文字と交換されるか、装飾的要素が追加されました。
評価のために、著者らはGPT-Judgeを導入し、GPT-4oが他のモデルからの応答を有害スコア(HS)1-5尺度で採点しました。5点の応答が有害率(HR)を構成しました。
絵文字の説明を防ぐために、プロンプトには簡潔さを求める指示が含まれていました:

「Setting-1」における絵文字ベースのプロンプトからの結果。絵文字が単語に置き換えられたり除去されたバリアントとの比較。モデル名は略称。
初期結果は、絵文字置換プロンプトがテキストベース版よりも高いHS及びHRスコアを達成したことを示しています。絵文字アプローチは、追加の表で見られるように、従来のジェイルブレイク手法を凌駕しました:

「Setting-2」における絵文字拡張ジェイルブレイクプロンプトの有害率結果。モデル名は略称。
最初の表はまた、絵文字の言語横断的効果を示しています。プロンプトが中国語、フランス語、スペイン語、ロシア語に翻訳された場合、有害な出力は高いまま維持され、リスクが英語以外の主要ユーザーグループにも及ぶことを示唆しています。
結論として、研究者らは、絵文字の影響は、モデルがそれらをどのように処理するか、すなわち危害を認識しながらも絵文字が存在する場合は拒絶を抑制することに起因すると指摘しています。トークン化の研究は、絵文字が稀なトークンに断片化され、代替の意味的経路を作り出すことを示しています。
事前訓練データ分析は、有毒な文脈(例:詐欺、賭博)での絵文字の頻繁な使用を明らかにし、有害な関連性を正常化しています。モデルの特性と偏ったデータが相まって、絵文字が安全性を迂回する効果の説明となります。
結論
16進エンコードのような代替入力方法はLLMのジェイルブレイクに使用されてきました。問題は、入出力のテキスト中心の認定にあります。
絵文字は、その型破りな伝達がフィルターを逃れるため、検知されずにルール違反の意味を導入します。CLIPベースの文字変換は攻撃的画像コンコンテンンツにフラグを立てるべきですが、これは主要なLLMで一貫して適用されておらず、その言語的障壁は依然として脆弱です。より広範なコンテンツ解釈(例:ヒートマップ経由)はコストがかかるか非現実的かもしれません。
* 論文のレイアウトは典型的な研究よりも構造化されていない;我々はその核心的な洞察を明確に伝えることを目指した。
†結果の提示は非常に解釈が困難である。
初公開 2025年9月17日 水曜日
関連記事
マルチバース・コンピューティング、無料圧縮生成AIモデルを発表
大規模言語モデルは重大な課題に直面している:その膨大なサイズである。スペインのスタートアップMultiverse Computingは、最先端AIの能力と企業が実用的に導入できる範囲とのギャップを埋めるべく設計された圧縮モデルを開発することでこの問題に取り組んでいる。同社の革新的な技術「CompactifAI」は量子コンピューティング原理に着想を得た圧縮技術であり、バスク地方のこの企業はOpenA
秘密の追跡データがAIモデルの盗難を暴露
新たな手法により、ChatGPTのようなモデルに再学習なしで数秒で目に見えない透かしを埋め込める。標準出力に痕跡を残さず、あらゆる実用的な除去試みを耐えうる。 透かしと「著作権侵害の誘引」の主な違いは、透かし(可視・不可視を問わず)が通常、画像データセットなどのコレクション全体に一貫して配置され、軽率な複製に対する抑止力として設計されている点である。これに対し、偽装エントリとは、大規模な汎用コレク
AIシステムが騙され、荒唐無稽な科学論文を承認
新たな研究により、AIシステムが偽の科学論文を生成し、他のAIモデルが誤って本物と認識することが明らかになった。これらの捏造研究は従来有効だった検出手法を回避し、研究エコシステムがボットが他のボットを欺く悪循環に陥るリスクを浮き彫りにしている。 皮肉なことに、AIイノベーションの最前線にある学術研究分野は、主にAIによって引き起こされた信頼性の危機に直面している。機械学習の可能性が明らかになってか
関連特集おすすめ
コメント (0)
0/500
絵文字は大規模言語モデル(LLM)の安全性機構を迂回し、通常はブロックされる有害な出力を引き起こす可能性があります。この手法により、LLMは爆弾製造や殺人などの禁止トピックについて議論し、指導を提供することが可能になります。
最近の中国とシンガポールの共同研究は、絵文字が大規模言語モデル(LLM)のコンコンテンンツフィルターを回避できるだけでなく、対話中の毒性を増幅させるという強力な証拠を示しています:

新しい論文から、禁止概念を絵文字でエンコードすることがユーザーが人気LLMを「ジェイルブレイク」する助けになり得る方法に関する広範な実証。 出典: https://arxiv.org/pdf/2509.11141
上記の例では、ルール違反となるテキストベースの意図を絵文字だらけの代替表現に変換することで、入力の無害化やルール違反コンコンテンンツのブロックを行うChatGPT-4oのような高度なモデルから、より協力的な応答を促すことができます。
著者らによれば、絵文字は極端なケースにおいて効果的なジェイルブレイク技術として機能し得ます。
残る疑問は、モデルが特定の絵文字の有害な関連性を認識しているにもかかわらず、なぜLLMは絵文字がルールを迂回して有害コンコンテンンツを引き出すことを許容するのかということです。
研究者らは、データからパターンを複製するように訓練されたLLMは、絵文字を濾過すべきコンコンテンンツではなく、統計的な手がかりとして扱うと提案しています。絵文字は訓練データで一般的であるため、モデルはそれらを特定の言説に関連付けることを学び、フラグを立てる代わりに有毒な意味を強化してしまいます。事後適用され、往々にして狭範な安全対策は、これらの絵文字を含むプロンプトを完全に見落とす可能性があります。
したがって、モデルは有害な関連性にもかかわらずではなく、それゆえに許容的になるのです。
無料パス
著者らは、これが絵文字のフィルター回避に対する決定的な説明ではないことを認めています。彼らは以下のように述べています:
「モデルは絵文字によって表現される悪意のある意図を認識できるが、それがどのように安全機構を迂回するかは不明なままである。」
この脆弱性は、明示的なトークンや安全ルールに照合される埋め込みに依存する、テキスト中心のフィルター設計に起因する可能性があります。単語とは異なり、絵文字は純粋なテキストでも画像でもないグレーゾーンに存在し、検知を逃れることを可能にしています。この抜け穴に関するさらなる研究が必要です。
When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity と題されたこの論文には、清華大学とシンガポール国立大学の9人の研究者が関わっています。
(論文はまだ公開されていない付録の例を参照している;要求にもかかわらず、執筆時点では提供されなかった。それでも、核心的な発見は注目に値する。)
3つの核心的な絵文字解釈
絵文字は3つの言語的特性を通じてフィルターを迂回します。第一に、その意味は文脈依存です。例えば、「Money with Wings」絵文字は公式には支出を表しますが、文脈によっては違法活動を暗示することがあります:

部分的な図示では、人気のある絵文字の意味が使用法の中でハイジャックされうることがわかる。これにより、意味空間への正式なパスポートと、フィルターを通過した後に悪用可能な隠された負のまたは有害な意味のペイロードが事実上与えられる。
第二に、絵文字は口調を変え、遊び心や皮肉を加えて感情的影響を和らげます。有害な問い合わせでは、これによって意図をユーモアとして偽装し、モデルの従順さを促すことができます:

絵文字は、有害な意図を中和することなく口調を無害化しうる。
第三に、絵文字は言語非依存であり、英語、中国語、フランス語などの言語間で一貫した sentiment を伝達します。これは多言語プロンプトに理想的であり、翻訳にかかわらず意味を保存します:

「broken heart」絵文字は普遍的なメッセージを伝え、おそらくは国家的または文化的変動の影響を比較的受けにくい、人間の状態における基本的な事例を表しているためである。
手法、データ及びテスト*
研究者らはAdvBenchデータセットを改変し、センシティブな用語の代替または装飾的要素として絵文字を追加しました。AdvBenchは爆撃やハッキングなどの32の高リスクトピックを含みます:

AdvBenchからのオリジナル例は、単一の敵対的プロンプトがどのように主要チャットボットのセーーフガードを迂回し、アライメント訓練にもかかわらず有害な指示を引き出すかを示している。 出典: https://arxiv.org/pdf/2307.15043
AdvBenchの全520インスタンスが絵文字改変され、毒性の高い上位50のプロンプトが実験全体で使用されました。プロンプトは複数言語に翻訳され、7つのクローズドソース及びオープンソースモデルでテストされ、PAIR、TAP、DeepInceptionなどのジェイルブレイク技術と組み合わされました。
クローズドソースモデルにはGemini-2.0-flash、GPT-4o、GPT-4-0613、Gemini-1.5-proが含まれました。オープンソースモデルはLlama-3-8B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-72B-Instructで、信頼性のためにテストは3回繰り返されました。
本研究は、絵文字で書き換えられたプロンプトが、翻訳においても含め、有害な出力を増加させるかどうかを評価しました。また、既知のジェイルブレイク戦略に絵文字編集を適用して、強化された有効性を測定しました。
プロンプト構造は保存され、センシティブな用語のみが絵文字と交換されるか、装飾的要素が追加されました。
評価のために、著者らはGPT-Judgeを導入し、GPT-4oが他のモデルからの応答を有害スコア(HS)1-5尺度で採点しました。5点の応答が有害率(HR)を構成しました。
絵文字の説明を防ぐために、プロンプトには簡潔さを求める指示が含まれていました:

「Setting-1」における絵文字ベースのプロンプトからの結果。絵文字が単語に置き換えられたり除去されたバリアントとの比較。モデル名は略称。
初期結果は、絵文字置換プロンプトがテキストベース版よりも高いHS及びHRスコアを達成したことを示しています。絵文字アプローチは、追加の表で見られるように、従来のジェイルブレイク手法を凌駕しました:

「Setting-2」における絵文字拡張ジェイルブレイクプロンプトの有害率結果。モデル名は略称。
最初の表はまた、絵文字の言語横断的効果を示しています。プロンプトが中国語、フランス語、スペイン語、ロシア語に翻訳された場合、有害な出力は高いまま維持され、リスクが英語以外の主要ユーザーグループにも及ぶことを示唆しています。
結論として、研究者らは、絵文字の影響は、モデルがそれらをどのように処理するか、すなわち危害を認識しながらも絵文字が存在する場合は拒絶を抑制することに起因すると指摘しています。トークン化の研究は、絵文字が稀なトークンに断片化され、代替の意味的経路を作り出すことを示しています。
事前訓練データ分析は、有毒な文脈(例:詐欺、賭博)での絵文字の頻繁な使用を明らかにし、有害な関連性を正常化しています。モデルの特性と偏ったデータが相まって、絵文字が安全性を迂回する効果の説明となります。
結論
16進エンコードのような代替入力方法はLLMのジェイルブレイクに使用されてきました。問題は、入出力のテキスト中心の認定にあります。
絵文字は、その型破りな伝達がフィルターを逃れるため、検知されずにルール違反の意味を導入します。CLIPベースの文字変換は攻撃的画像コンコンテンンツにフラグを立てるべきですが、これは主要なLLMで一貫して適用されておらず、その言語的障壁は依然として脆弱です。より広範なコンテンツ解釈(例:ヒートマップ経由)はコストがかかるか非現実的かもしれません。
* 論文のレイアウトは典型的な研究よりも構造化されていない;我々はその核心的な洞察を明確に伝えることを目指した。
†結果の提示は非常に解釈が困難である。
初公開 2025年9月17日 水曜日
マルチバース・コンピューティング、無料圧縮生成AIモデルを発表
大規模言語モデルは重大な課題に直面している:その膨大なサイズである。スペインのスタートアップMultiverse Computingは、最先端AIの能力と企業が実用的に導入できる範囲とのギャップを埋めるべく設計された圧縮モデルを開発することでこの問題に取り組んでいる。同社の革新的な技術「CompactifAI」は量子コンピューティング原理に着想を得た圧縮技術であり、バスク地方のこの企業はOpenA
秘密の追跡データがAIモデルの盗難を暴露
新たな手法により、ChatGPTのようなモデルに再学習なしで数秒で目に見えない透かしを埋め込める。標準出力に痕跡を残さず、あらゆる実用的な除去試みを耐えうる。 透かしと「著作権侵害の誘引」の主な違いは、透かし(可視・不可視を問わず)が通常、画像データセットなどのコレクション全体に一貫して配置され、軽率な複製に対する抑止力として設計されている点である。これに対し、偽装エントリとは、大規模な汎用コレク
AIシステムが騙され、荒唐無稽な科学論文を承認
新たな研究により、AIシステムが偽の科学論文を生成し、他のAIモデルが誤って本物と認識することが明らかになった。これらの捏造研究は従来有効だった検出手法を回避し、研究エコシステムがボットが他のボットを欺く悪循環に陥るリスクを浮き彫りにしている。 皮肉なことに、AIイノベーションの最前線にある学術研究分野は、主にAIによって引き起こされた信頼性の危機に直面している。機械学習の可能性が明らかになってか





家






