Смайлики могут обойти фильтры безопасности в чат-ботах с ИИ

Дом

Новости

27 ноября 2025 г.

CharlesWhite

# LLMs

Эмодзи могут обходить механизмы безопасности в больших языковых моделях, приводя к токсичным выводам, которые в противном случае были бы заблокированы. Этот метод позволяет LLM обсуждать и давать инструкции по запрещенным темам, таким как изготовление бомб и убийство.

Недавнее китайско-сингапурское исследование представляет веские доказательства того, что эмодзи не только могут обходить фильтры контента в больших языковых моделях (LLM), но и усиливать токсичность во время взаимодействия:

From the new paper, a broad demonstration of the ways that encoding a banned concept with emojis can help a user to

Из новой статьи — широкое демонстрация того, как кодирование запрещенных концепций с помощью эмодзи может помочь пользователям «взломать» популярные LLM. Источник: https://arxiv.org/pdf/2509.11141

В приведенном выше примере преобразование нарушающего правила текстового запроса в вариант, насыщенный эмодзи, может спровоцировать более кооперативный ответ от продвинутых моделей, таких как ChatGPT-4o, которые обычно «очищают» вводные данные и блокируют контент, нарушающий правила.

По словам авторов, в крайних случаях эмодзи могут эффективно служить техникой взлома.

Остается вопрос: почему LLM позволяют эмодзи обходить правила и вызывать токсичный контент, даже когда модели распознают вредные ассоциации определенных эмодзи.

Исследователи предполагают, что LLM, обученные повторять паттерны из своих данных, относятся к эмодзи как к статистическим сигналам, а не как к контенту для фильтрации. Поскольку эмодзи часто встречаются в обучающих данных, модели учатся ассоциировать их с определенным дискурсом, усиливая токсичные смыслы вместо того, чтобы помечать их. Меры безопасности, применяемые постфактум и часто узконаправленно, могут полностью пропускать такие запросы с эмодзи.

Таким образом, модель становится терпимой не вопреки токсичной ассоциации, а из-за нее.

Свободный пропуск

Авторы признают, что это не окончательное объяснение того, как эмодзи обходят фильтрацию. Они заявляют:

«Модели могут распознавать злонамеренный intent, выраженный эмодзи, однако то, как это обходит механизмы безопасности, остается неясным.»

Уязвимость может происходить из тексто-центричного дизайна фильтров, которые полагаются на явные токены или эмбеддинги, сопоставляемые с правилами безопасности. В отличие от слов, эмодзи находятся в серой зоне — ни чисто текст, ни изображение — что позволяет им уклоняться от обнаружения. Необходимы дальнейшие исследования этой лазейки.

Статья под названием Когда смайлик становится враждебным: интерпретация того, как эмодзи провоцируют токсичность в LLM подготовлена девятью исследователями из Университета Цинхуа и Национального университета Сингапура.

(В статье есть ссылки на примеры в приложении, которое пока недоступно; несмотря на запросы, оно не было предоставлено на момент написания. Тем не менее, основные выводы заслуживают внимания.)

Три основных интерпретации эмодзи

Эмодзи обходят фильтры благодаря трем лингвистическим особенностям. Во-первых, их значения зависят от контекста. Например, эмодзи «Деньги с крыльями» официально означает траты, но в зависимости от контекста может подразумевать незаконную деятельность:

In a partial illustration from the new paper, we see that a popular emoji can have its meaning hijacked altered or subverted in popular usage This effectively gives the emoji an official passport into the semantic space, and a hidden payload of negative or toxic meaning that can be exploited once it is past the filters.

На частичной иллюстрации видно, что значение популярного эмодзи может быть захвачено в использовании, что дает ему семантический пропуск со скрытым токсичным содержимым, которым можно воспользоваться после фильтрации.

Во-вторых, эмодзи изменяют тон, добавляя игривость или иронию, что смягчает эмоциональное воздействие. Во вредоносных запросах это может маскировать intent под юмор, поощряя согласие модели:

The leavening effect of emojis can detoxify tone without detoxifying intent.

Эмодзи могут детоксифицировать тон, не нейтрализуя вредоносный intent.

В-третьих, эмодзи независимы от языка, передавая consistent sentiment на таких языках, как английский, китайский и французский. Это делает их идеальными для многоязычных запросов, сохраняя смысл несмотря на перевод:

The broken heart emoji conveys a universal message, perhaps not least because it represents a baseline case in the human condition, relatively immune to national or cultural variations.

Эмодзи «разбитое сердце» передает универсальное сообщение, возможно, не в последнюю очередь потому, что представляет собой базовый случай в человеческой природе, относительно свободный от национальных или культурных вариаций.

Методология, данные и тесты*

Исследователи модифицировали набор данных AdvBench, добавив эмодзи в качестве замены чувствительным терминам или декоративных элементов. AdvBench включает 32 высокорисковые темы, такие как взрывы и хакерство:

Original examples from AdvBench, illustrating how a single adversarial prompt can bypass safeguards in multiple major chatbots, eliciting harmful instructions despite alignment training. Source: https://arxiv.org/pdf/2307.15043

Оригинальные примеры из AdvBench показывают, как adversarial prompts обходят защиту в основных чат-ботах, вызывая вредоносные ответы, несмотря на alignment-обучение. Источник: https://arxiv.org/pdf/2307.15043

Все 520 экземпляров AdvBench были модифицированы с помощью эмодзи, при этом 50 самых токсичных prompts использовались в различных экспериментах. Запросы были переведены на несколько языков и протестированы на семи закрытых и открытых моделях в сочетании с техниками взлома, такими как PAIR, TAP и DeepInception.

Закрытые модели включали Gemini-2.0-flash, GPT-4o, GPT-4-0613 и Gemini-1.5-pro. Модели с открытым исходным кодом — Llama-3-8B-Instruct, Qwen2.5-7B-Instruct и Qwen2.5-72B-Instruct; тесты повторялись трижды для надежности.

Исследование оценивало, увеличивают ли prompts, переписанные с эмодзи, токсичный вывод, в том числе при переводе. Также применялись правки эмодзи к известным стратегиям взлома для оценки усиленной эффективности.

Структура prompts сохранялась, заменялись только чувствительные термины на эмодзи или добавлялись декоративные элементы.

Для оценки авторы ввели GPT-Judge, где GPT-4o оценивала ответы других моделей по шкале Вредоносного Скора (Harmful Score, HS) от 1 до 5. Ответы с оценкой 5 составляли Коэффициент Вредоносности (Harmfulness Ratio, HR).

Чтобы предотвратить объяснения эмодзи, prompts включали инструкции быть краткими:

Результаты prompts на основе эмодзи в «Setting-1» по сравнению с вариантами, где эмодзи были заменены словами или удалены. Названия моделей сокращены.

Первоначальные результаты показывают, что prompts с заменой на эмодзи достигли более высоких показателей HS и HR по сравнению с текстовыми версиями. Подход с эмодзи превзошел предыдущие методы взлома, как видно из дополнительной таблицы:

Harmfulness Ratio results for emoji-augmented jailbreak prompts in

Результаты Коэффициента Вредоносности для усиленных эмодзи prompts взлома в «Setting-2», с сокращенными названиями моделей.

Первая таблица также указывает на кросс-языковой эффект эмодзи. Когда запросы были переведены на китайский, французский, испанский и русский языки, вредоносные выводы оставались высокими, что предполагает распространение рисков за пределы английского языка на крупные группы пользователей.

В заключение исследователи отмечают, что влияние эмодзи проистекает из того, как модели их обрабатывают — распознавая вред, но подавляя отвержение при наличии эмодзи. Исследования токенизации показывают, что эмодзи фрагментируются на редкие токены, создавая альтернативный семантический канал.

Анализ предобучающих данных выявляет частое использование эмодзи в токсичных контекстах (например, мошенничество, азартные игры), нормализуя вредоносные ассоциации. Вместе особенности моделей и смещенные данные объясняют эффективность эмодзи в обходе безопасности.

Заключение

Альтернативные методы ввода, такие как шестнадцатеричное кодирование, уже использовались для взлома LLM. Проблема заключается в тексто-центричной квалификации входных и выходных данных.

Эмодзи вносят нарушающий правила смысл незамеченными, поскольку их нетрадиционная передача обходит фильтры. В то время как CLIП-based транслитерация должна помечать оскорбительное изображение, это не всегда применяется в основных LLM, чьи лингвистические барьеры остаются хрупкими. Более широкая интерпретация контента (например, с помощью тепловых карт) может быть дорогостоящей или непрактичной.

* Макет статьи менее структурирован, чем в типичных исследованиях; мы стремились ясно передать ее основные идеи.

^†Презентация результатов особенно сложна для интерпретации.

Впервые опубликовано в среду, 17 сентября 2025 года

Связанная статья

Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в

Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта Новый метод позволяет за считанные секунды незаметно наносить водяные знаки на модели, такие как ChatGPT, без повторного обучения, не оставляя следов в стандартных выводах и противостоять всем практич

Искусственный интеллект обманом заставили одобрить абсурдные научные статьи Новые исследования показывают, что системы искусственного интеллекта теперь могут создавать фальшивые научные статьи, которые другие модели искусственного интеллекта ошибочно принимают за подлинные. Э

Рекомендации по связанным специальным темам

Создание комиксов

Лучшие генераторы на базе ИИ для сёнэн-манги: создавайте динамичные сцены боевых действий и эффекты энергии

Откройте для себя лучшие генераторы искусственного интеллекта для манги в стиле «сёнен» 2026 года на сайте XIX.AI. В нашем тщательно отобранном списке представлены мощные инструменты для создания динамичных сцен боевых действий и эффектных энергетических эффектов. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой творческий потенциал и начните создавать эпическую мангу уже сегодня!

15 инструментов

xix.ai

Бизнес

Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов

xix.ai

Бизнес

Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов

xix.ai

Производительность

Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов

xix.ai

Образование и обучение

Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов

xix.ai