Эмодзи могут обходить механизмы безопасности в больших языковых моделях, приводя к токсичным выводам, которые в противном случае были бы заблокированы. Этот метод позволяет LLM обсуждать и давать инструкции по запрещенным темам, таким как изготовление бомб и убийство.
Недавнее китайско-сингапурское исследование представляет веские доказательства того, что эмодзи не только могут обходить фильтры контента в больших языковых моделях (LLM), но и усиливать токсичность во время взаимодействия:
Из новой статьи — широкое демонстрация того, как кодирование запрещенных концепций с помощью эмодзи может помочь пользователям «взломать» популярные LLM. Источник: https://arxiv.org/pdf/2509.11141
В приведенном выше примере преобразование нарушающего правила текстового запроса в вариант, насыщенный эмодзи, может спровоцировать более кооперативный ответ от продвинутых моделей, таких как ChatGPT-4o, которые обычно «очищают» вводные данные и блокируют контент, нарушающий правила.
По словам авторов, в крайних случаях эмодзи могут эффективно служить техникой взлома.
Остается вопрос: почему LLM позволяют эмодзи обходить правила и вызывать токсичный контент, даже когда модели распознают вредные ассоциации определенных эмодзи.
Исследователи предполагают, что LLM, обученные повторять паттерны из своих данных, относятся к эмодзи как к статистическим сигналам, а не как к контенту для фильтрации. Поскольку эмодзи часто встречаются в обучающих данных, модели учатся ассоциировать их с определенным дискурсом, усиливая токсичные смыслы вместо того, чтобы помечать их. Меры безопасности, применяемые постфактум и часто узконаправленно, могут полностью пропускать такие запросы с эмодзи.
Таким образом, модель становится терпимой не вопреки токсичной ассоциации, а из-за нее.
Свободный пропуск
Авторы признают, что это не окончательное объяснение того, как эмодзи обходят фильтрацию. Они заявляют:
«Модели могут распознавать злонамеренный intent, выраженный эмодзи, однако то, как это обходит механизмы безопасности, остается неясным.»
Уязвимость может происходить из тексто-центричного дизайна фильтров, которые полагаются на явные токены или эмбеддинги, сопоставляемые с правилами безопасности. В отличие от слов, эмодзи находятся в серой зоне — ни чисто текст, ни изображение — что позволяет им уклоняться от обнаружения. Необходимы дальнейшие исследования этой лазейки.
Статья под названием Когда смайлик становится враждебным: интерпретация того, как эмодзи провоцируют токсичность в LLM подготовлена девятью исследователями из Университета Цинхуа и Национального университета Сингапура.
(В статье есть ссылки на примеры в приложении, которое пока недоступно; несмотря на запросы, оно не было предоставлено на момент написания. Тем не менее, основные выводы заслуживают внимания.)
Три основных интерпретации эмодзи
Эмодзи обходят фильтры благодаря трем лингвистическим особенностям. Во-первых, их значения зависят от контекста. Например, эмодзи «Деньги с крыльями» официально означает траты, но в зависимости от контекста может подразумевать незаконную деятельность:
На частичной иллюстрации видно, что значение популярного эмодзи может быть захвачено в использовании, что дает ему семантический пропуск со скрытым токсичным содержимым, которым можно воспользоваться после фильтрации.
Во-вторых, эмодзи изменяют тон, добавляя игривость или иронию, что смягчает эмоциональное воздействие. Во вредоносных запросах это может маскировать intent под юмор, поощряя согласие модели:
Эмодзи могут детоксифицировать тон, не нейтрализуя вредоносный intent.
В-третьих, эмодзи независимы от языка, передавая consistent sentiment на таких языках, как английский, китайский и французский. Это делает их идеальными для многоязычных запросов, сохраняя смысл несмотря на перевод:
Эмодзи «разбитое сердце» передает универсальное сообщение, возможно, не в последнюю очередь потому, что представляет собой базовый случай в человеческой природе, относительно свободный от национальных или культурных вариаций.
Методология, данные и тесты*
Исследователи модифицировали набор данных AdvBench, добавив эмодзи в качестве замены чувствительным терминам или декоративных элементов. AdvBench включает 32 высокорисковые темы, такие как взрывы и хакерство:
Оригинальные примеры из AdvBench показывают, как adversarial prompts обходят защиту в основных чат-ботах, вызывая вредоносные ответы, несмотря на alignment-обучение. Источник: https://arxiv.org/pdf/2307.15043
Все 520 экземпляров AdvBench были модифицированы с помощью эмодзи, при этом 50 самых токсичных prompts использовались в различных экспериментах. Запросы были переведены на несколько языков и протестированы на семи закрытых и открытых моделях в сочетании с техниками взлома, такими как PAIR, TAP и DeepInception.
Закрытые модели включали Gemini-2.0-flash, GPT-4o, GPT-4-0613 и Gemini-1.5-pro. Модели с открытым исходным кодом — Llama-3-8B-Instruct, Qwen2.5-7B-Instruct и Qwen2.5-72B-Instruct; тесты повторялись трижды для надежности.
Исследование оценивало, увеличивают ли prompts, переписанные с эмодзи, токсичный вывод, в том числе при переводе. Также применялись правки эмодзи к известным стратегиям взлома для оценки усиленной эффективности.
Структура prompts сохранялась, заменялись только чувствительные термины на эмодзи или добавлялись декоративные элементы.
Для оценки авторы ввели GPT-Judge, где GPT-4o оценивала ответы других моделей по шкале Вредоносного Скора (Harmful Score, HS) от 1 до 5. Ответы с оценкой 5 составляли Коэффициент Вредоносности (Harmfulness Ratio, HR).
Чтобы предотвратить объяснения эмодзи, prompts включали инструкции быть краткими:
Результаты prompts на основе эмодзи в «Setting-1» по сравнению с вариантами, где эмодзи были заменены словами или удалены. Названия моделей сокращены.
Первоначальные результаты показывают, что prompts с заменой на эмодзи достигли более высоких показателей HS и HR по сравнению с текстовыми версиями. Подход с эмодзи превзошел предыдущие методы взлома, как видно из дополнительной таблицы:
Результаты Коэффициента Вредоносности для усиленных эмодзи prompts взлома в «Setting-2», с сокращенными названиями моделей.
Первая таблица также указывает на кросс-языковой эффект эмодзи. Когда запросы были переведены на китайский, французский, испанский и русский языки, вредоносные выводы оставались высокими, что предполагает распространение рисков за пределы английского языка на крупные группы пользователей.
В заключение исследователи отмечают, что влияние эмодзи проистекает из того, как модели их обрабатывают — распознавая вред, но подавляя отвержение при наличии эмодзи. Исследования токенизации показывают, что эмодзи фрагментируются на редкие токены, создавая альтернативный семантический канал.
Анализ предобучающих данных выявляет частое использование эмодзи в токсичных контекстах (например, мошенничество, азартные игры), нормализуя вредоносные ассоциации. Вместе особенности моделей и смещенные данные объясняют эффективность эмодзи в обходе безопасности.
Заключение
Альтернативные методы ввода, такие как шестнадцатеричное кодирование, уже использовались для взлома LLM. Проблема заключается в тексто-центричной квалификации входных и выходных данных.
Эмодзи вносят нарушающий правила смысл незамеченными, поскольку их нетрадиционная передача обходит фильтры. В то время как CLIП-based транслитерация должна помечать оскорбительное изображение, это не всегда применяется в основных LLM, чьи лингвистические барьеры остаются хрупкими. Более широкая интерпретация контента (например, с помощью тепловых карт) может быть дорогостоящей или непрактичной.
* Макет статьи менее структурирован, чем в типичных исследованиях; мы стремились ясно передать ее основные идеи.
†Презентация результатов особенно сложна для интерпретации.
Впервые опубликовано в среду, 17 сентября 2025 года
Откройте для себя лучшие генераторы искусственного интеллекта для манги в стиле «сёнен» 2026 года на сайте XIX.AI. В нашем тщательно отобранном списке представлены мощные инструменты для создания динамичных сцен боевых действий и эффектных энергетических эффектов. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой творческий потенциал и начните создавать эпическую мангу уже сегодня!
Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.
Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!
Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.
Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.
Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.
При нажатии на «Принять все файлы cookie» вы соглашаетесь на хранение файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа использования сайта и поддержки наших маркетинговых усилий.Политика конфиденциальности Уведомление
При посещении любого веб-сайта он может хранить или получать информацию в вашем браузере, главным образом в виде файлов cookie. Эта информация может относиться к вам, вашим предпочтениям или вашему устройству и в основном используется для того, чтобы сайт работал так, как вы ожидаете. Эта информация обычно не идентифицирует вас напрямую, но может предоставить вам более персонализированный веб-опыт. Поскольку мы уважаем ваше право на конфиденциальность, вы можете отказаться от разрешения определенных типов файлов cookie. Нажмите на разные заголовки категорий, чтобы узнать больше и изменить наши параметры по умолчанию. Однако блокировка некоторых типов файлов cookie может повлиять на ваше восприятие сайта и предоставляемые нами услуги. Политика конфиденциальностиЗаявление
Управление предпочтениями
Строго необходимые файлы cookie
Всегда активен
Эти файлы cookie необходимы для работы веб-сайта и не могут быть отключены в наших системах. Обычно они устанавливаются только в ответ на ваши действия, которые являются запросом на предоставление услуг, например, настройка предпочтений конфиденциальности, вход в систему или заполнение форм. Вы можете настроить браузер на блокировку этих файлов cookie или оповещение о них, но тогда некоторые части сайта не будут работать. Эти файлы cookie не хранят никакой персональной информации, позволяющей идентифицировать вас.