Les émojis peuvent contourner les mécanismes de sécurité des grands modèles de langage, entraînant des réponses toxiques qui seraient autrement bloquées. Cette méthode permet aux LLM de discuter et de fournir des conseils sur des sujets interdits comme la fabrication de bombes et le meurtre.
Une récente collaboration sino-singapourienne présente des preuves solides que les émojis peuvent non seulement contourner les filtres de contenu des grands modèles de langage (LLM) mais aussi amplifier la toxicité lors des interactions :
Extrait du nouvel article, une démonstration large de la manière dont l'encodage de concepts interdits avec des émojis peut aider les utilisateurs à 'jailbreaker' les LLM populaires. Source : https://arxiv.org/pdf/2509.11141
Dans l'exemple ci-dessus, la conversion d'une intention textuelle contraire aux règles en une alternative chargée d'émojis peut provoquer une réponse plus coopérative de la part de modèles avancés comme ChatGPT-4o, qui normalement assainit les entrées et bloque le contenu violant les règles.
Selon les auteurs, les émojis peuvent effectivement servir de technique de jailbreaking dans les cas extrêmes.
Une question persistante est de savoir pourquoi les LLM permettent aux émojis de contourner les règles et de provoquer du contenu toxique, même lorsque les modèles reconnaissent les associations nuisibles de certains émojis.
Les chercheurs proposent que les LLM, entraînés à reproduire des motifs à partir de leurs données, traitent les émojis comme des indices statistiques plutôt que comme du contenu à filtrer. Comme les émojis sont courants dans les données d'entraînement, les modèles apprennent à les associer à des discours spécifiques, renforçant les significations toxiques au lieu de les signaler. Les mesures de sécurité, appliquées a posteriori et souvent de manière étroite, peuvent manquer complètement ces invites chargées d'émojis.
Ainsi, le modèle devient tolérant non pas malgré l'association toxique, mais à cause d'elle.
Laissez-passer gratuit
Les auteurs reconnaissent que ce n'est pas une explication définitive du contournement du filtrage par les émojis. Ils déclarent :
« Les modèles peuvent reconnaître l'intention malveillante exprimée par les émojis, mais la manière dont elle contourne les mécanismes de sécurité reste floue. »
La vulnérabilité pourrait provenir de conceptions de filtres centrées sur le texte, qui s'appuient sur des jetons explicites ou des embeddings comparés à des règles de sécurité. Contrairement aux mots, les émojis existent dans une zone grise - ni purement texte ni image - leur permettant d'échapper à la détection. Des recherches supplémentaires sur cette faille sont nécessaires.
L'article, intitulé When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity, implique neuf chercheurs de l'Université Tsinghua et de l'Université nationale de Singapour.
(L'article référence des exemples dans une annexe non encore disponible ; malgré des demandes, elle n'a pas été fournie au moment de la rédaction. Néanmoins, les conclusions principales méritent l'attention.)
Trois interprétations fondamentales des émojis
Les émojis contournent les filtres grâce à trois traits linguistiques. Premièrement, leurs significations sont dépendantes du contexte. Par exemple, l'émoji « Billets d'argent avec des ailes » désigne officiellement des dépenses mais peut impliquer une activité illicite selon le contexte :
Dans une illustration partielle, la signification d'un émoji populaire peut être détournée dans son usage, lui accordant un passeport sémantique avec une charge toxique cachée exploitable après filtrage.
Deuxièmement, les émojis altèrent le ton, ajoutant une touche ludique ou ironique qui adoucit l'impact émotionnel. Dans les requêtes nuisibles, cela peut déguiser l'intention en humour, encourageant la compliance du modèle :
Les émojis peuvent désintoxiquer le ton sans neutraliser l'intention nocive.
Troisièmement, les émojis sont agnostiques linguistiquement, transmettant un sentiment cohérent à travers des langues comme l'anglais, le chinois et le français. Cela les rend idéaux pour les invites multilingues, préservant la signification malgré la traduction :
L'émoji « cœur brisé » communique universellement, reflétant une expérience humaine fondamentale moins affectée par les différences culturelles.
Approche, Données et Tests*
Les chercheurs ont modifié l'ensemble de données AdvBench, en ajoutant des émojis comme substituts aux termes sensibles ou comme éléments décoratifs. AdvBench comprend 32 sujets à haut risque comme les bombardements et le piratage :
Les exemples originaux d'AdvBench montrent comment les invites adverses contournent les sauvegardes dans les principaux chatbots, provoquant des réponses nuisibles malgré l'alignement. Source : https://arxiv.org/pdf/2307.15043
Les 520 instances d'AdvBench ont été modifiées avec des émojis, les 50 invites toxiques principales étant utilisées dans toutes les expériences. Les invites ont été traduites en plusieurs langues et testées sur sept modèles open source et propriétaires, combinées à des techniques de jailbreak comme PAIR, TAP et DeepInception.
Les modèles propriétaires incluaient Gemini-2.0-flash, GPT-4o, GPT-4-0613 et Gemini-1.5-pro. Les modèles open source étaient Llama-3-8B-Instruct, Qwen2.5-7B-Instruct et Qwen2.5-72B-Instruct, les tests étant répétés trois fois pour la fiabilité.
L'étude a évalué si les invites réécrites avec des émojis augmentaient la production de contenu toxique, y compris dans les traductions. Elle a également appliqué des modifications par émojis à des stratégies de jailbreak connues pour évaluer l'efficacité accrue.
Les structures des invites ont été préservées, seuls les termes sensibles étant remplacés par des émojis ou des éléments décoratifs ajoutés.
Pour l'évaluation, les auteurs ont introduit GPT-Judge, où GPT-4o notait les réponses des autres modèles sur une échelle de Score de Nocivité (HS) de 1 à 5. Les réponses notées 5 constituaient le Taux de Nocivité (HR).
Pour éviter les explications sur les émojis, les invites incluaient des instructions de concision :
Résultats des invites basées sur des émojis dans le 'Cadre-1', comparés aux variantes où les émojis étaient remplacés par des mots ou supprimés. Les noms des modèles sont abrégés.
Les résultats initiaux montrent que les invites avec substitution par émojis ont obtenu des scores HS et HR plus élevés que les versions textuelles. L'approche par émojis a surpassé les méthodes de jailbreak antérieures, comme on le voit dans le tableau supplémentaire :
Résultats du Taux de Nocivité pour les invites de jailbreak augmentées d'émojis dans le 'Cadre-2', avec les noms des modèles abrégés.
Le premier tableau indique également l'effet translinguistique des émojis. Lorsque les invites étaient traduites en chinois, français, espagnol et russe, les sorties nocives restaient élevées, suggérant que les risques s'étendent au-delà de l'anglais vers les principaux groupes d'utilisateurs.
En conclusion, les chercheurs notent ques les émojis peuvent être remarquablement difficiles à interpréter.
Des données de suivi secrètes révèlent le vol de modèles d'IAUne nouvelle méthode permet d'apposer un filigrane invisible sur des modèles tels que ChatGPT en quelques secondes sans nécessiter de réentraînement, sans laisser de trace dans les sorties standard et
Découvrez les meilleurs générateurs IA de mangas shonen de 2026 sur XIX.AI. Notre sélection triée sur le volet comprend des outils performants pour créer des séquences d'action à couper le souffle et des effets d'énergie dynamiques. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez votre potentiel créatif et commencez dès aujourd'hui à créer des mangas épiques !
Les meilleurs outils de gestion des dépenses basés sur l'IA en 2026 : les outils les mieux notés pour numériser vos reçus et classer automatiquement les dépenses de votre entreprise. Découvrez des solutions puissantes et révolutionnaires pour une gestion des dépenses sans effort, un suivi financier précis et une conformité simplifiée. Notre comparatif, mis à jour chaque semaine, qui oppose les options gratuites aux options payantes, vous aide à trouver la solution qui vous convient le mieux. Tirez pleinement parti de l'IA grâce aux recommandations d'experts de XIX.AI.
Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !
Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.
Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.
Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.
En cliquant sur "Accepter tous les cookies", vous consentez au stockage de cookies sur votre appareil afin d’améliorer la navigation sur le site, d’analyser l’utilisation du site et de soutenir nos efforts marketing.Politique de confidentialité Avis
Lorsque vous visitez un site web, il peut stocker ou récupérer des informations sur votre navigateur, principalement sous forme de cookies. Ces informations peuvent concerner vous, vos préférences ou votre appareil et sont principalement utilisées pour faire fonctionner le site comme vous vous y attendez. Ces informations n’identifient généralement pas directement vous-même, mais elles peuvent vous offrir une expérience web plus personnalisée. Parce que nous respectons votre droit à la vie privée, vous pouvez choisir de ne pas autoriser certains types de cookies. Cliquez sur les différents titres de catégorie pour en savoir plus et modifier nos paramètres par défaut. Cependant, bloquer certains types de cookies peut affecter votre expérience sur le site et les services que nous sommes en mesure de proposer. Politique de confidentialitéDéclaration
Gérer les préférences
Cookie strictement nécessaire
Toujours actif
Ces cookies sont nécessaires au fonctionnement du site web et ne peuvent pas être désactivés dans nos systèmes. Ils ne sont généralement définis qu’en réponse à des actions que vous effectuez qui équivalent à une demande de services, telles que la configuration de vos préférences de confidentialité, la connexion ou le remplissage de formulaires. Vous pouvez configurer votre navigateur pour bloquer ces cookies ou vous alerter à leur sujet, mais certaines parties du site ne fonctionneront alors plus. Ces cookies ne stockent aucune information permettant d’identifier personnellement.