Emojis können Sicherheitsmechanismen in großen Sprachmodellen umgehen, was zu toxischen Ausgaben führt, die ansonsten blockiert würden. Diese Methode ermöglicht es LLMs, verbotene Themen wie Bombenbau und Mord zu diskutieren und Anleitungen dazu zu liefern.
Eine kürzliche chinesisch-singapurische Zusammenarbeit liefert starke Beweise dafür, dass Emojis nicht nur Inhaltsfilter in großen Sprachmodellen (LLMs) umgehen, sondern auch die Toxizität während der Interaktion verstärken können:
Aus der neuen Arbeit, eine breite Demonstration, wie das Kodieren verbotener Konzepte mit Emojis Nutzern helfen kann, beliebte LLMs zu 'jailbreaken'. Quelle: https://arxiv.org/pdf/2509.11141
In dem obigen Beispiel kann die Umwandlung einer regelverletzenden textbasierten Absicht in eine emoji-beladene Alternative eine kooperativere Antwort von fortschrittlichen Modellen wie ChatGPT-4o hervorrufen, die normalerweise Eingaben bereinigt und regelverletzende Inhalte blockiert.
Laut den Autoren können Emojis in Extremfällen effektiv als Jailbreaking-Technik dienen.
Eine offene Frage ist, warum LLMs zulassen, dass Emojis Regeln umgehen und toxische Inhalte hervorrufen, obwohl die Modelle die schädlichen Assoziationen bestimmter Emojis erkennen.
Die Forscher schlagen vor, dass LLMs, die darauf trainiert sind, Muster aus ihren Daten zu replicatedieren, Emojis als statistische Hinweise rather than als zu filternde Inhalte behandeln. Da Emojis in Trainingsdaten häufig vorkommen, lernen Modelle, sie mit spezifischen Diskursen zu assoziieren, was toxische Bedeutungen verstärkt, anstatt sie zu kennzeichnen. Sicherheitsmaßnahmen, die nachträglich und oft eng angewandt werden, könnten diese emoji-beladenen Prompts vollständig übersehen.
So wird das Modell tolerant, nicht trotz, sondern wegen der toxischen Assoziation.
Freifahrtschein
Die Autoren räumen ein, dass dies keine endgültige Erklärung für die Filterumgehung durch Emojis ist. Sie erklären:
„Modelle können die bösartige Absicht, die durch Emojis ausgedrückt wird, erkennen, doch wie sie die Sicherheitsmechanismen umgehen, bleibt unklar.“
Die Schwachstelle könnte von textzentrierten Filterdesigns stammen, die auf expliziten Tokens oder Embeddings basieren, die mit Sicherheitsregeln abgeglichen werden. Anders als Wörter existieren Emojis in einer Grauzone – weder rein Text noch Bild – was es ihnen erlaubt, der Erkennung zu entgehen. Weitere Forschung zu dieser Lücke ist erforderlich.
Die Arbeit mit dem Titel When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity involviert neun Forscher von der Tsinghua Universität und der National University of Singapore.
(Die Arbeit verweist auf Beispiele in einem Anhang, der noch nicht verfügbar ist; trotz Anfragen wurde er zum Zeitpunkt des Verfassens nicht bereitgestellt. Dennoch verdienen die Kernaussagen Beachtung.)
Drei Kerninterpretationen von Emojis
Emojis umgehen Filter durch drei sprachliche Eigenschaften. Erstens sind ihre Bedeutungen kontextabhängig. Zum Beispiel bezeichnet das 'Geld mit Flügeln'-Emoji offiziell Ausgaben, kann aber je nach Kontext illegale Aktivitäten implizieren:
In einer teilweisen Illustration kann die Bedeutung eines beliebten Emojis im Gebrauch entführt werden, was ihm einen semantischen Pass mit einer versteckten toxischen Nutzlast verschafft, die nach der Filterung ausgenutzt werden kann.
Zweitens verändern Emojis den Ton, indem sie Verspieltheit oder Ironie hinzufügen, die die emotionale Wirkung mildern. Bei schädlichen Anfragen kann dies die Absicht als Humor tarnen und die Compliance des Modells fördern:
Emojis können den Ton entgiften, ohne die schädliche Absicht zu neutralisieren.
Drittens sind Emojis sprachunabhängig und vermitteln konsistente Stimmungen über Sprachen wie Englisch, Chinesisch und Französisch hinweg. Dies macht sie ideal für mehrsprachige Prompts, da die Bedeutung trotz Übersetzung erhalten bleibt:
Das 'gebrochene Herz'-Emoji kommuniziert universell und reflektiert eine grundlegende menschliche Erfahrung, die weniger von kulturellen Unterschieden beeinflusst wird.
Vorgehensweise, Daten und Tests*
Forscher modifizierten den AdvBench-Datensatz, indem sie Emojis als Ersatz für sensible Begriffe oder dekorative Elemente hinzufügten. AdvBench umfasst 32 Hochrisikothemen wie Bombenanschläge und Hacking:
Ursprüngliche AdvBench-Beispiele zeigen, wie adversarial Prompts Sicherheitsvorkehrungen in großen Chatbots umgehen und schädliche Antworten hervorrufen, trotz Alignment-Training. Quelle: https://arxiv.org/pdf/2307.15043
Alle 520 AdvBench-Instanzen wurden emoji-modifiziert, wobei die 50 toxischsten Prompts in allen Experimenten verwendet wurden. Prompts wurden in mehrere Sprachen übersetzt und an sieben Closed- und Open-Source-Modellen getestet, kombiniert mit Jailbreak-Techniken wie PAIR, TAP und DeepInception.
Closed-Source-Modelle umfassten Gemini-2.0-flash, GPT-4o, GPT-4-0613 und Gemini-1.5-pro. Open-Source-Modelle waren Llama-3-8B-Instruct, Qwen2.5-7B-Instruct und Qwen2.5-72B-Instruct, wobei Tests dreimal für Zuverlässigkeit wiederholt wurden.
Die Studie bewertete, ob emoji-umgeschriebene Prompts die toxische Ausgabe erhöhten, auch in Übersetzungen. Sie wandte Emoji-Bearbeitungen auch auf bekannte Jailbreak-Strategien an, um eine gesteigerte Wirksamkeit zu messen.
Die Prompt-Strukturen wurden beibehalten, wobei nur sensible Begriffe gegen Emojis ausgetauscht oder dekorative Elemente hinzugefügt wurden.
Für die Auswertung führten die Autoren GPT-Judge ein, bei dem GPT-4o Antworten anderer Modelle auf einer Skala von 1-5 (Harmful Score, HS) bewertete. Antworten mit der Bewertung 5 bildeten das Harmfulness Ratio (HR).
Um Emoji-Erklärungen zu verhindern, enthielten die Prompts Anweisungen für Kurzfassungen:
Ergebnisse von emoji-basierten Prompts in 'Setting-1', verglichen mit Varianten, bei denen Emojis durch Wörter ersetzt oder entfernt wurden. Modellnamen sind abgekürzt.
Die anfänglichen Ergebnisse zeigen, dass emoji-substituierte Prompts höhere HS- und HR-Werte erzielten als textbasierte Versionen. Der Emoji-Ansatz übertraf frühere Jailbreak-Methoden, wie in der zusätzlichen Tabelle zu sehen:
Harmfulness Ratio-Ergebnisse für emoji-erweiterte Jailbreak-Prompts in 'Setting-2', mit abgekürzten Modellnamen.
Die erste Tabelle zeigt auch den sprachübergreifenden Effekt von Emojis. Als Prompts ins Chinesische, Französische, Spanische und Russische übersetzt wurden, blieben die schädlichen Ausgaben hoch, was darauf hindeutet, dass die Risiken über Englisch hinaus auf große Nutzergruppen ausgedehnt sind.
Zusammenfassend stellen die Forscher fest, dass die Wirkung von Emojis darauf zurückzuführen ist, wie Modelle sie verarbeiten – sie erkennen den Schaden, unterdrücken aber die Ablehnung, wenn Emojis vorhanden sind. Tokenisierungsstudien zeigen, dass Emojis in seltene Tokens fragmentieren und einen alternativen semantischen Kanal schaffen.
Analysen der Vortrainingsdaten zeigen häufige Emoji-Verwendung in toxischen Kontexten (z.B. Betrug, Glücksspiel), was schädliche Assoziationen normalisiert. Zusammen erklären Modellbesonderheiten und voreingenommene Daten die Wirksamkeit von Emojis bei der Umgehung von Sicherheitsvorkehrungen.
Schlussfolgerung
Alternative Eingabemethoden wie hexadezimale Kodierung wurden bereits verwendet, um LLMs zu jailbreaken. Das Problem liegt in der textzentrierten Qualifikation von Eingaben und Ausgaben.
Emojis führen unerkannt regelbrechende Bedeutung ein, da ihre unorthodoxe Übertragung Filter umgeht. Während CLIP-basierte Transkription anstößige Bildinhalte kennzeichnen sollte, wird dies nicht konsistent in großen LLMs angewandt, deren linguistische Barrieren nach wie vor brüchig sind. Breitere Inhaltsinterpretation (z.B. via Heatmaps) könnte kostspielig oder unpraktikabel sein.
* Das Layout der Arbeit ist weniger strukturiert als bei typischen Studien; wir haben versucht, ihre Kerneinsichten klar zu vermitteln.
†Die Präsentation der Ergebnisse ist besonders schwer zu interpretieren.
Zuerst veröffentlicht am Mittwoch, 17. September 2025
Geheime Tracking-Daten enthüllen Diebstahl von KI-ModellenEine neue Methode kann Modelle wie ChatGPT innerhalb von Sekunden unsichtbar mit einem Wasserzeichen versehen, ohne dass ein erneutes Training erforderlich ist. Dabei hinterlässt sie keine Spuren in d
Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!
Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.
Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.
Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.
Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.
Entdecken Sie die neuesten, hochbewerteten KI-Tools von 2026 für den automatisierten Unit-Testing-Prozess. Unsere sorgfältig ausgewählten Lösungen bieten leistungsstarke und bahnbrechende Funktionen, um sofort Jest-, PyTest- und JUnit-Testfälle zu generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von tatsächlichen Tests sowie wöchentlich aktualisierten Rankings auf XIX.AI. Entfalten Sie Ihr KI-Potenzial und steigern Sie noch heute die Produktivität Ihrer Entwicklungstätigkeit.
Durch das Klicken auf „Alle Cookies akzeptieren“ stimmen Sie zu, dass Cookies auf Ihrem Gerät gespeichert werden, um die Seitennavigation zu verbessern, die Seitennutzung zu analysieren und unsere Marketingbemühungen zu unterstützen.Datenschutzerklärung Hinweis
Beim Besuch einer Website kann diese Informationen in Ihrem Browser speichern oder abrufen, hauptsächlich in Form von Cookies. Diese Informationen können sich auf Sie, Ihre Präferenzen oder Ihr Gerät beziehen und dienen hauptsächlich dazu, dass die Website so funktioniert, wie Sie es erwarten. Die Informationen identifizieren Sie in der Regel nicht direkt, können Ihnen aber ein personalisierteres Web-Erlebnis bieten. Da wir Ihr Recht auf Privatsphäre respektieren, können Sie wählen, dass Sie bestimmte Arten von Cookies nicht zulassen. Klicken Sie auf die verschiedenen Kategorietitel, um mehr zu erfahren und unsere Standardeinstellungen zu ändern. Das Blockieren bestimmter Arten von Cookies kann jedoch Ihre Erfahrung auf der Website und die von uns angebotenen Dienste beeinträchtigen. DatenschutzerklärungErklärung
Einstellungen verwalten
Unbedingt erforderliche Cookies
Immer aktiv
Diese Cookies sind für die Funktionalität der Website erforderlich und können in unseren Systemen nicht deaktiviert werden. Sie werden normalerweise nur in Reaktion auf Ihre Aktionen gesetzt, die einer Dienstanfrage entsprechen, z. B. das Einstellen Ihrer Datenschutzpräferenzen, das Anmelden oder das Ausfüllen von Formularen. Sie können Ihren Browser so einstellen, dass diese Cookies blockiert oder Sie darüber benachrichtigt werden, aber einige Teile der Website werden dann nicht mehr funktionieren. Diese Cookies speichern keine personenbezogenen Daten.