Les émojis pourraient contourner les filtres de sécurité des chatbots IA

Maison

Nouvelles

27 novembre 2025

CharlesWhite

# LLMs

Les émojis peuvent contourner les mécanismes de sécurité des grands modèles de langage, entraînant des réponses toxiques qui seraient autrement bloquées. Cette méthode permet aux LLM de discuter et de fournir des conseils sur des sujets interdits comme la fabrication de bombes et le meurtre.

Une récente collaboration sino-singapourienne présente des preuves solides que les émojis peuvent non seulement contourner les filtres de contenu des grands modèles de langage (LLM) mais aussi amplifier la toxicité lors des interactions :

From the new paper, a broad demonstration of the ways that encoding a banned concept with emojis can help a user to

Extrait du nouvel article, une démonstration large de la manière dont l'encodage de concepts interdits avec des émojis peut aider les utilisateurs à 'jailbreaker' les LLM populaires. Source : https://arxiv.org/pdf/2509.11141

Dans l'exemple ci-dessus, la conversion d'une intention textuelle contraire aux règles en une alternative chargée d'émojis peut provoquer une réponse plus coopérative de la part de modèles avancés comme ChatGPT-4o, qui normalement assainit les entrées et bloque le contenu violant les règles.

Selon les auteurs, les émojis peuvent effectivement servir de technique de jailbreaking dans les cas extrêmes.

Une question persistante est de savoir pourquoi les LLM permettent aux émojis de contourner les règles et de provoquer du contenu toxique, même lorsque les modèles reconnaissent les associations nuisibles de certains émojis.

Les chercheurs proposent que les LLM, entraînés à reproduire des motifs à partir de leurs données, traitent les émojis comme des indices statistiques plutôt que comme du contenu à filtrer. Comme les émojis sont courants dans les données d'entraînement, les modèles apprennent à les associer à des discours spécifiques, renforçant les significations toxiques au lieu de les signaler. Les mesures de sécurité, appliquées a posteriori et souvent de manière étroite, peuvent manquer complètement ces invites chargées d'émojis.

Ainsi, le modèle devient tolérant non pas malgré l'association toxique, mais à cause d'elle.

Laissez-passer gratuit

Les auteurs reconnaissent que ce n'est pas une explication définitive du contournement du filtrage par les émojis. Ils déclarent :

« Les modèles peuvent reconnaître l'intention malveillante exprimée par les émojis, mais la manière dont elle contourne les mécanismes de sécurité reste floue. »

La vulnérabilité pourrait provenir de conceptions de filtres centrées sur le texte, qui s'appuient sur des jetons explicites ou des embeddings comparés à des règles de sécurité. Contrairement aux mots, les émojis existent dans une zone grise - ni purement texte ni image - leur permettant d'échapper à la détection. Des recherches supplémentaires sur cette faille sont nécessaires.

L'article, intitulé When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity, implique neuf chercheurs de l'Université Tsinghua et de l'Université nationale de Singapour.

(L'article référence des exemples dans une annexe non encore disponible ; malgré des demandes, elle n'a pas été fournie au moment de la rédaction. Néanmoins, les conclusions principales méritent l'attention.)

Trois interprétations fondamentales des émojis

Les émojis contournent les filtres grâce à trois traits linguistiques. Premièrement, leurs significations sont dépendantes du contexte. Par exemple, l'émoji « Billets d'argent avec des ailes » désigne officiellement des dépenses mais peut impliquer une activité illicite selon le contexte :

In a partial illustration from the new paper, we see that a popular emoji can have its meaning hijacked altered or subverted in popular usage This effectively gives the emoji an official passport into the semantic space, and a hidden payload of negative or toxic meaning that can be exploited once it is past the filters.

Dans une illustration partielle, la signification d'un émoji populaire peut être détournée dans son usage, lui accordant un passeport sémantique avec une charge toxique cachée exploitable après filtrage.

Deuxièmement, les émojis altèrent le ton, ajoutant une touche ludique ou ironique qui adoucit l'impact émotionnel. Dans les requêtes nuisibles, cela peut déguiser l'intention en humour, encourageant la compliance du modèle :

The leavening effect of emojis can detoxify tone without detoxifying intent.

Les émojis peuvent désintoxiquer le ton sans neutraliser l'intention nocive.

Troisièmement, les émojis sont agnostiques linguistiquement, transmettant un sentiment cohérent à travers des langues comme l'anglais, le chinois et le français. Cela les rend idéaux pour les invites multilingues, préservant la signification malgré la traduction :

The broken heart emoji conveys a universal message, perhaps not least because it represents a baseline case in the human condition, relatively immune to national or cultural variations.

L'émoji « cœur brisé » communique universellement, reflétant une expérience humaine fondamentale moins affectée par les différences culturelles.

Approche, Données et Tests*

Les chercheurs ont modifié l'ensemble de données AdvBench, en ajoutant des émojis comme substituts aux termes sensibles ou comme éléments décoratifs. AdvBench comprend 32 sujets à haut risque comme les bombardements et le piratage :

Original examples from AdvBench, illustrating how a single adversarial prompt can bypass safeguards in multiple major chatbots, eliciting harmful instructions despite alignment training. Source: https://arxiv.org/pdf/2307.15043

Les exemples originaux d'AdvBench montrent comment les invites adverses contournent les sauvegardes dans les principaux chatbots, provoquant des réponses nuisibles malgré l'alignement. Source : https://arxiv.org/pdf/2307.15043

Les 520 instances d'AdvBench ont été modifiées avec des émojis, les 50 invites toxiques principales étant utilisées dans toutes les expériences. Les invites ont été traduites en plusieurs langues et testées sur sept modèles open source et propriétaires, combinées à des techniques de jailbreak comme PAIR, TAP et DeepInception.

Les modèles propriétaires incluaient Gemini-2.0-flash, GPT-4o, GPT-4-0613 et Gemini-1.5-pro. Les modèles open source étaient Llama-3-8B-Instruct, Qwen2.5-7B-Instruct et Qwen2.5-72B-Instruct, les tests étant répétés trois fois pour la fiabilité.

L'étude a évalué si les invites réécrites avec des émojis augmentaient la production de contenu toxique, y compris dans les traductions. Elle a également appliqué des modifications par émojis à des stratégies de jailbreak connues pour évaluer l'efficacité accrue.

Les structures des invites ont été préservées, seuls les termes sensibles étant remplacés par des émojis ou des éléments décoratifs ajoutés.

Pour l'évaluation, les auteurs ont introduit GPT-Judge, où GPT-4o notait les réponses des autres modèles sur une échelle de Score de Nocivité (HS) de 1 à 5. Les réponses notées 5 constituaient le Taux de Nocivité (HR).

Pour éviter les explications sur les émojis, les invites incluaient des instructions de concision :

Résultats des invites basées sur des émojis dans le 'Cadre-1', comparés aux variantes où les émojis étaient remplacés par des mots ou supprimés. Les noms des modèles sont abrégés.

Les résultats initiaux montrent que les invites avec substitution par émojis ont obtenu des scores HS et HR plus élevés que les versions textuelles. L'approche par émojis a surpassé les méthodes de jailbreak antérieures, comme on le voit dans le tableau supplémentaire :

Harmfulness Ratio results for emoji-augmented jailbreak prompts in

Résultats du Taux de Nocivité pour les invites de jailbreak augmentées d'émojis dans le 'Cadre-2', avec les noms des modèles abrégés.

Le premier tableau indique également l'effet translinguistique des émojis. Lorsque les invites étaient traduites en chinois, français, espagnol et russe, les sorties nocives restaient élevées, suggérant que les risques s'étendent au-delà de l'anglais vers les principaux groupes d'utilisateurs.

En conclusion, les chercheurs notent ques les émojis peuvent être remarquablement difficiles à interpréter.

Première publication mercredi 17 septembre 2025

Article connexe

Multiverse Computing lance un modèle d'IA générative compressé gratuit Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con

Des données de suivi secrètes révèlent le vol de modèles d'IA Une nouvelle méthode permet d'apposer un filigrane invisible sur des modèles tels que ChatGPT en quelques secondes sans nécessiter de réentraînement, sans laisser de trace dans les sorties standard et

Des systèmes d'IA trompés pour approuver des articles scientifiques absurdes De nouvelles recherches révèlent que les systèmes d'IA sont désormais capables de produire des articles scientifiques frauduleux que d'autres modèles d'IA acceptent à tort comme authentiques. Ces étud

Recommandations de sujets spéciaux liés

Création de bande dessinée

Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie

Découvrez les meilleurs générateurs IA de mangas shonen de 2026 sur XIX.AI. Notre sélection triée sur le volet comprend des outils performants pour créer des séquences d'action à couper le souffle et des effets d'énergie dynamiques. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez votre potentiel créatif et commencez dès aujourd'hui à créer des mangas épiques !

15 outils

xix.ai

Entreprise

Les meilleurs outils de suivi des dépenses basés sur l'IA : numérisez vos reçus et classez automatiquement les dépenses de l'entreprise

Les meilleurs outils de gestion des dépenses basés sur l'IA en 2026 : les outils les mieux notés pour numériser vos reçus et classer automatiquement les dépenses de votre entreprise. Découvrez des solutions puissantes et révolutionnaires pour une gestion des dépenses sans effort, un suivi financier précis et une conformité simplifiée. Notre comparatif, mis à jour chaque semaine, qui oppose les options gratuites aux options payantes, vous aide à trouver la solution qui vous convient le mieux. Tirez pleinement parti de l'IA grâce aux recommandations d'experts de XIX.AI.

10 outils

xix.ai

Entreprise

Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats

Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !

10 outils

xix.ai

Productivité

Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils

xix.ai

chatbot

Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes

Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.

10 outils

xix.ai

Éducation et apprentissage

Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique

Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.

10 outils

xix.ai