Emojis könnten Sicherheitsfilter in KI-Chatbots umgehen

Heim

Nachricht

27. November 2025

CharlesWhite

# LLMs

Emojis können Sicherheitsmechanismen in großen Sprachmodellen umgehen, was zu toxischen Ausgaben führt, die ansonsten blockiert würden. Diese Methode ermöglicht es LLMs, verbotene Themen wie Bombenbau und Mord zu diskutieren und Anleitungen dazu zu liefern.

Eine kürzliche chinesisch-singapurische Zusammenarbeit liefert starke Beweise dafür, dass Emojis nicht nur Inhaltsfilter in großen Sprachmodellen (LLMs) umgehen, sondern auch die Toxizität während der Interaktion verstärken können:

From the new paper, a broad demonstration of the ways that encoding a banned concept with emojis can help a user to

Aus der neuen Arbeit, eine breite Demonstration, wie das Kodieren verbotener Konzepte mit Emojis Nutzern helfen kann, beliebte LLMs zu 'jailbreaken'. Quelle: https://arxiv.org/pdf/2509.11141

In dem obigen Beispiel kann die Umwandlung einer regelverletzenden textbasierten Absicht in eine emoji-beladene Alternative eine kooperativere Antwort von fortschrittlichen Modellen wie ChatGPT-4o hervorrufen, die normalerweise Eingaben bereinigt und regelverletzende Inhalte blockiert.

Laut den Autoren können Emojis in Extremfällen effektiv als Jailbreaking-Technik dienen.

Eine offene Frage ist, warum LLMs zulassen, dass Emojis Regeln umgehen und toxische Inhalte hervorrufen, obwohl die Modelle die schädlichen Assoziationen bestimmter Emojis erkennen.

Die Forscher schlagen vor, dass LLMs, die darauf trainiert sind, Muster aus ihren Daten zu replicatedieren, Emojis als statistische Hinweise rather than als zu filternde Inhalte behandeln. Da Emojis in Trainingsdaten häufig vorkommen, lernen Modelle, sie mit spezifischen Diskursen zu assoziieren, was toxische Bedeutungen verstärkt, anstatt sie zu kennzeichnen. Sicherheitsmaßnahmen, die nachträglich und oft eng angewandt werden, könnten diese emoji-beladenen Prompts vollständig übersehen.

So wird das Modell tolerant, nicht trotz, sondern wegen der toxischen Assoziation.

Freifahrtschein

Die Autoren räumen ein, dass dies keine endgültige Erklärung für die Filterumgehung durch Emojis ist. Sie erklären:

„Modelle können die bösartige Absicht, die durch Emojis ausgedrückt wird, erkennen, doch wie sie die Sicherheitsmechanismen umgehen, bleibt unklar.“

Die Schwachstelle könnte von textzentrierten Filterdesigns stammen, die auf expliziten Tokens oder Embeddings basieren, die mit Sicherheitsregeln abgeglichen werden. Anders als Wörter existieren Emojis in einer Grauzone – weder rein Text noch Bild – was es ihnen erlaubt, der Erkennung zu entgehen. Weitere Forschung zu dieser Lücke ist erforderlich.

Die Arbeit mit dem Titel When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity involviert neun Forscher von der Tsinghua Universität und der National University of Singapore.

(Die Arbeit verweist auf Beispiele in einem Anhang, der noch nicht verfügbar ist; trotz Anfragen wurde er zum Zeitpunkt des Verfassens nicht bereitgestellt. Dennoch verdienen die Kernaussagen Beachtung.)

Drei Kerninterpretationen von Emojis

Emojis umgehen Filter durch drei sprachliche Eigenschaften. Erstens sind ihre Bedeutungen kontextabhängig. Zum Beispiel bezeichnet das 'Geld mit Flügeln'-Emoji offiziell Ausgaben, kann aber je nach Kontext illegale Aktivitäten implizieren:

In a partial illustration from the new paper, we see that a popular emoji can have its meaning hijacked altered or subverted in popular usage This effectively gives the emoji an official passport into the semantic space, and a hidden payload of negative or toxic meaning that can be exploited once it is past the filters.

In einer teilweisen Illustration kann die Bedeutung eines beliebten Emojis im Gebrauch entführt werden, was ihm einen semantischen Pass mit einer versteckten toxischen Nutzlast verschafft, die nach der Filterung ausgenutzt werden kann.

Zweitens verändern Emojis den Ton, indem sie Verspieltheit oder Ironie hinzufügen, die die emotionale Wirkung mildern. Bei schädlichen Anfragen kann dies die Absicht als Humor tarnen und die Compliance des Modells fördern:

The leavening effect of emojis can detoxify tone without detoxifying intent.

Emojis können den Ton entgiften, ohne die schädliche Absicht zu neutralisieren.

Drittens sind Emojis sprachunabhängig und vermitteln konsistente Stimmungen über Sprachen wie Englisch, Chinesisch und Französisch hinweg. Dies macht sie ideal für mehrsprachige Prompts, da die Bedeutung trotz Übersetzung erhalten bleibt:

The broken heart emoji conveys a universal message, perhaps not least because it represents a baseline case in the human condition, relatively immune to national or cultural variations.

Das 'gebrochene Herz'-Emoji kommuniziert universell und reflektiert eine grundlegende menschliche Erfahrung, die weniger von kulturellen Unterschieden beeinflusst wird.

Vorgehensweise, Daten und Tests*

Forscher modifizierten den AdvBench-Datensatz, indem sie Emojis als Ersatz für sensible Begriffe oder dekorative Elemente hinzufügten. AdvBench umfasst 32 Hochrisikothemen wie Bombenanschläge und Hacking:

Original examples from AdvBench, illustrating how a single adversarial prompt can bypass safeguards in multiple major chatbots, eliciting harmful instructions despite alignment training. Source: https://arxiv.org/pdf/2307.15043

Ursprüngliche AdvBench-Beispiele zeigen, wie adversarial Prompts Sicherheitsvorkehrungen in großen Chatbots umgehen und schädliche Antworten hervorrufen, trotz Alignment-Training. Quelle: https://arxiv.org/pdf/2307.15043

Alle 520 AdvBench-Instanzen wurden emoji-modifiziert, wobei die 50 toxischsten Prompts in allen Experimenten verwendet wurden. Prompts wurden in mehrere Sprachen übersetzt und an sieben Closed- und Open-Source-Modellen getestet, kombiniert mit Jailbreak-Techniken wie PAIR, TAP und DeepInception.

Closed-Source-Modelle umfassten Gemini-2.0-flash, GPT-4o, GPT-4-0613 und Gemini-1.5-pro. Open-Source-Modelle waren Llama-3-8B-Instruct, Qwen2.5-7B-Instruct und Qwen2.5-72B-Instruct, wobei Tests dreimal für Zuverlässigkeit wiederholt wurden.

Die Studie bewertete, ob emoji-umgeschriebene Prompts die toxische Ausgabe erhöhten, auch in Übersetzungen. Sie wandte Emoji-Bearbeitungen auch auf bekannte Jailbreak-Strategien an, um eine gesteigerte Wirksamkeit zu messen.

Die Prompt-Strukturen wurden beibehalten, wobei nur sensible Begriffe gegen Emojis ausgetauscht oder dekorative Elemente hinzugefügt wurden.

Für die Auswertung führten die Autoren GPT-Judge ein, bei dem GPT-4o Antworten anderer Modelle auf einer Skala von 1-5 (Harmful Score, HS) bewertete. Antworten mit der Bewertung 5 bildeten das Harmfulness Ratio (HR).

Um Emoji-Erklärungen zu verhindern, enthielten die Prompts Anweisungen für Kurzfassungen:

Ergebnisse von emoji-basierten Prompts in 'Setting-1', verglichen mit Varianten, bei denen Emojis durch Wörter ersetzt oder entfernt wurden. Modellnamen sind abgekürzt.

Die anfänglichen Ergebnisse zeigen, dass emoji-substituierte Prompts höhere HS- und HR-Werte erzielten als textbasierte Versionen. Der Emoji-Ansatz übertraf frühere Jailbreak-Methoden, wie in der zusätzlichen Tabelle zu sehen:

Harmfulness Ratio results for emoji-augmented jailbreak prompts in

Harmfulness Ratio-Ergebnisse für emoji-erweiterte Jailbreak-Prompts in 'Setting-2', mit abgekürzten Modellnamen.

Die erste Tabelle zeigt auch den sprachübergreifenden Effekt von Emojis. Als Prompts ins Chinesische, Französische, Spanische und Russische übersetzt wurden, blieben die schädlichen Ausgaben hoch, was darauf hindeutet, dass die Risiken über Englisch hinaus auf große Nutzergruppen ausgedehnt sind.

Zusammenfassend stellen die Forscher fest, dass die Wirkung von Emojis darauf zurückzuführen ist, wie Modelle sie verarbeiten – sie erkennen den Schaden, unterdrücken aber die Ablehnung, wenn Emojis vorhanden sind. Tokenisierungsstudien zeigen, dass Emojis in seltene Tokens fragmentieren und einen alternativen semantischen Kanal schaffen.

Analysen der Vortrainingsdaten zeigen häufige Emoji-Verwendung in toxischen Kontexten (z.B. Betrug, Glücksspiel), was schädliche Assoziationen normalisiert. Zusammen erklären Modellbesonderheiten und voreingenommene Daten die Wirksamkeit von Emojis bei der Umgehung von Sicherheitsvorkehrungen.

Schlussfolgerung

Alternative Eingabemethoden wie hexadezimale Kodierung wurden bereits verwendet, um LLMs zu jailbreaken. Das Problem liegt in der textzentrierten Qualifikation von Eingaben und Ausgaben.

Emojis führen unerkannt regelbrechende Bedeutung ein, da ihre unorthodoxe Übertragung Filter umgeht. Während CLIP-basierte Transkription anstößige Bildinhalte kennzeichnen sollte, wird dies nicht konsistent in großen LLMs angewandt, deren linguistische Barrieren nach wie vor brüchig sind. Breitere Inhaltsinterpretation (z.B. via Heatmaps) könnte kostspielig oder unpraktikabel sein.

* Das Layout der Arbeit ist weniger strukturiert als bei typischen Studien; wir haben versucht, ihre Kerneinsichten klar zu vermitteln.

^†Die Präsentation der Ergebnisse ist besonders schwer zu interpretieren.

Zuerst veröffentlicht am Mittwoch, 17. September 2025

Verwandter Artikel

Multiverse Computing bringt kostenloses komprimiertes generatives KI-Modell auf den Markt Große Sprachmodelle stehen vor einer großen Herausforderung: ihrer immensen Größe. Das spanische Start-up Multiverse Computing geht dieses Problem an, indem es komprimierte Modelle entwickelt, die die

Geheime Tracking-Daten enthüllen Diebstahl von KI-Modellen Eine neue Methode kann Modelle wie ChatGPT innerhalb von Sekunden unsichtbar mit einem Wasserzeichen versehen, ohne dass ein erneutes Training erforderlich ist. Dabei hinterlässt sie keine Spuren in d

KI-Systeme dazu gebracht, absurde wissenschaftliche Arbeiten zu genehmigen Neue Forschungsergebnisse zeigen, dass KI-Systeme mittlerweile gefälschte wissenschaftliche Arbeiten erstellen können, die andere KI-Modelle fälschlicherweise als authentisch akzeptieren. Diese gefäls

Empfehlungen zu verwandten Spezialthemen

Geschäft

Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren

Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!

10 Tools

xix.ai

Produktivität

KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools

xix.ai

Chatbot

Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools

xix.ai

Bildung und Lernen

Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools

xix.ai

Chatbot

Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools

xix.ai

Code

Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.

Entdecken Sie die neuesten, hochbewerteten KI-Tools von 2026 für den automatisierten Unit-Testing-Prozess. Unsere sorgfältig ausgewählten Lösungen bieten leistungsstarke und bahnbrechende Funktionen, um sofort Jest-, PyTest- und JUnit-Testfälle zu generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von tatsächlichen Tests sowie wöchentlich aktualisierten Rankings auf XIX.AI. Entfalten Sie Ihr KI-Potenzial und steigern Sie noch heute die Produktivität Ihrer Entwicklungstätigkeit.

10 Tools

xix.ai