이모지로 AI 봇 안전 필터를 우회할 수 있다

집

뉴스

2025년 11월 27일

CharlesWhite

# LLMs

이모지는 대규모 언어 모델의 안전 메커니즘을 우회하여, 일반적으로 차단될 유해한 출력을 유발할 수 있습니다. 이 방법을 통해 LLM은 폭탄 제조 및 살인과 같은 금지된 주제에 대해 논의하고 지침을 제공할 수 있게 됩니다.

최근 중국과 싱가포르의 공동 연구는 이모지가 대규모 언어 모델(LLM)의 콘텐츠 필터를 회피할 뿐만 아니라 상호작용 중 유해성을 증폭시킬 수 있다는 강력한 증거를 제시합니다:

새로운 논문에서, 금지된 개념을 이모지로 인코딩하는 것이 사용자가 인기 LLM을 '탈옥'하는 데 어떻게 도움을 줄 수 있는지에 대한 광범위한 데모. 출처: https://arxiv.org/pdf/2509.11141

위 예시에서, 규칙을 위반하는 텍스트 기반 의도를 이모지가 가득한 대안으로 변환하면, 일반적으로 입력을 정제하고 규칙 위반 콘텐츠를 차단하는 ChatGPT-4o와 같은 고급 모델로부터 더 협조적인 응답을 이끌어낼 수 있습니다.

연구 저자들에 따르면, 이모지는 극단적인 경우 효과적인 탈옥 기법으로 기능할 수 있습니다.

남은 의문은 왜 LLM이 특정 이모지의 유해한 연관성을 인식함에도 불구하고 이모지가 규칙을 우회하고 유해한 콘텐츠를 이끌어내도록 허용하는지입니다.

연구자들은 LLM이 자신의 데이터에서 패턴을 복제하도록 훈련되어, 이모지를 필터링할 콘텐츠가 아닌 통계적 단서로 처리한다고 제안합니다. 이모지는 훈련 데이터에서 흔하기 때문에, 모델은 이를 특정 담론과 연관시키도록 학습하여 유해한 의미를 강화하고 경고하지 않습니다. 사후에 적용되며 종종 제한적인 안전 조치는 이러한 이모지가 포함된 프롬프트를 완전히 놓칠 수 있습니다.

따라서 모델은 유해한 연관성에도 불구하고 감내하는 것이 아니라, 오히려 그 때문에 감내하게 됩니다.

무사통과(Free Pass)

저자들은 이것이 이모지의 필터링 우회에 대한 결정적인 설명이 아니라고 인정합니다. 그들은 다음과 같이 말합니다:

‘모델은 이모지로 표현된 악의적 의도를 인식할 수 있지만, 그것이 어떻게 안전 메커니즘을 우회하는지는 여전히 불분명합니다.’

이 취약점은 텍스트 중심의 필터 설계에서 비롯될 수 있습니다. 이 설계는 안전 규칙과 대조되는 명시적 토큰이나 임베딩에 의존합니다. 단어와 달리 이모지는 순수한 텍스트도 이미지도 아닌 회색 지대에 존재하여 탐지를 회피할 수 있습니다. 이 허점에 대한 추가 연구가 필요합니다.

When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity라는 제목의 논문에는 칭화대학교와 싱가포르국립대학교의 9명의 연구원이 참여했습니다.

(논문에는 아직 공개되지 않은 부록에 예시가 참조되어 있음; 요청에도 불구하고, 집필 시점에는 제공되지 않았습니다. 그러나 핵심 발견은 주목할 가치가 있습니다.)

세 가지 핵심 이모지 해석

이모지는 세 가지 언어적 특성을 통해 필터를 우회합니다. 첫째, 그 의미는 맥락에 의존적입니다. 예를 들어, 'Money with Wings' 이모지는 공식적으로 지출을 나타내지만 맥락에 따라 불법 활동을 암시할 수 있습니다:

새 논문의 부분적인 설명에서, 인기 있는 이모지의 의미가 대중적인 사용에서 탈취, 변경 또는 왜곡될 수 있음을 볼 수 있습니다. 이는 효과적으로 이모지에게 의미 공간으로의 공식 여권과, 필터를 통과한 후 악용될 수 있는 부정적이거나 유해한 의미의 숨겨진 페이로드를 부여합니다.

부분적인 설명에서, 인기 있는 이모지의 의미가 사용 중 탈취될 수 있어, 필터링 이후 악용 가능한 숨겨진 유해 페이로드를 가진 의미론적 여권을 부여받습니다.

둘째, 이모지는 어조를 변경하여 장난기나 아이러니를 더해 정서적 영향을 완화합니다. 유해한 질의에서 이것은 의도를 유머로 위장하여 모델의 순응을 유도할 수 있습니다:

이모지의 완화 효과는 의도를 탈독소화하지 않고도 어조를 탈독소화할 수 있습니다.

이모지는 유해한 의도를 중화시키지 않으면서 어조를 완화할 수 있습니다.

셋째, 이모지는 언어 무관적으로, 영어, 중국어, 프랑스어와 같은 다양한 언어에서 일관된 감정을 전달합니다. 이것은 다국어 프롬프트에 이상적이며, 번역에도 불구하고 의미를 보존합니다:

깨진 심장 이모지는 보편적인 메시지를 전달하는데, 아마도 그것이 국가나 문화적 변형에 상대적으로 영향을 받지 않는 인간 조건의 기준 사례를 나타내기 때문일 것입니다.

'깨진 심장' 이모지는 보편적으로 소통하며, 문화적 차이에 덜 영향을 받는 인간의 근본적인 경험을 반영합니다.

접근 방식, 데이터 및 테스트*

연구자들은 AdvBench 데이터 세트를 수정하여 민감한 용어 대체물이나 장식 요소로 이모지를 추가했습니다. AdvBench에는 폭파 및 해킹과 같은 32개의 고위험 주제가 포함됩니다:

AdvBench의 원본 예시들은, 단일 적대적 프롬프트가 어떻게 정렬 훈련에도 불구하고 여러 주요 봇의 안전장치를 우회하여 유해한 지침을 이끌어내는지 보여줍니다. 출처: https://arxiv.org/pdf/2307.15043

AdvBench의 원본 예시들은 적대적 프롬프트가 주요 챗봇의 안전장치를 우회하여 정렬에도 불구하고 유해한 응답을 이끌어냄을 보여줍니다. 출처: https://arxiv.org/pdf/2307.15043

AdvBench의 520개 인스턴스 모두 이모지로 수정되었으며, 상위 50개 유해 프롬프트가 실험 전반에 사용되었습니다. 프롬프트는 여러 언어로 번역되었고, 7개의 독점 및 오픈소스 모델에서 PAIR, TAP, DeepInception과 같은 탈옥 기법과 결합되어 테스트되었습니다.

독점 모델에는 Gemini-2.0-flash, GPT-4o, GPT-4-0613, Gemini-1.5-pro가 포함되었습니다. 오픈소스 모델은 Llama-3-8B-Instruct, Qwen2.5-7B-Instruct, Qwen2.5-72B-Instruct였으며, 신뢰성을 위해 테스트는 세 번 반복되었습니다.

이 연구는 이모지로 재작성된 프롬프트가 번언 포함 유해 출력을 증가시키는지 평가했습니다. 또한 알려진 탈옥 전략에 이모지 편집을 적용하여 향상된 효과를 측정했습니다.

프롬프트 구조는 보존되었으며, 민감한 용어만 이모지로 교체되거나 장식 요소가 추가되었습니다.

평가를 위해 저자들은 GPT-Judge를 도입했는데, 여기서 GPT-4o는 다른 모델들의 응답을 1-5점의 유해 점수(HS) 척도로 평가했습니다. 5점을 받은 응답은 유해 비율(HR)을 구성했습니다.

이모지 설명을 방지하기 위해 프롬프트에는 간결함을 위한 지시가 포함되었습니다:

'Setting-1'에서 이모지 기반 프롬프트의 결과, 이모지가 단어로 대체되거나 제거된 변형과 비교. 모델 이름은 약칭으로 표기.

초기 결과는 이모지로 대체된 프롬프트가 텍스트 기반 버전보다 더 높은 HS 및 HR 점수를 달성했음을 보여줍니다. 이모지 접근법은 추가 표에서 볼 수 있듯이 기존 탈옥 방법보다 성능이 뛰어났습니다:

'Setting-2'에서 이모지가 강화된 탈옥 프롬프트의 유해 비율 결과, 모델 이름은 약칭으로 표기.

첫 번째 표는 이모지의 교차 언어 효과도 나타냅니다. 프롬프트가 중국어, 프랑스어, 스페인어, 러시아어로 번역되었을 때 유해 출력은 여전히 높게 유지되어, 위험이 영어를 넘어 주요 사용자 집단까지 확장됨을 시사합니다.

결론적으로, 연구자들은 이모지의 영향이 모델이 이를 처리하는 방식에서 비롯된다고 지적합니다. 즉, 유해성을 인식하지만 이모지가 존재할 때 거부를 억제하는 것입니다. 토큰화 연구는 이모지가 희귀 토큰으로 분할되어 대체 의미론적 채널을 생성함을 보여줍니다.

사전 훈련 데이터 분석은 유해한 맥락(예: 사기, 도박)에서 이모지 사용이 빈번하여 유해한 연관성을 정상화함을 보여줍니다. 모델의 특성과 편향된 데이터가 함께 이모지의 안전 우회 효과를 설명합니다.

결론

16진수 인코딩과 같은 대체 입력 방법이 LLM 탈옥에 사용되어 왔습니다. 문제는 입력과 출력의 텍스트 중심 자격 검증에 있습니다.

이모지는 비정통적인 전송 방식이 필터를 회피하기 때문에 탐지되지 않은 채 규칙 위반 의미를 도입합니다. CLIP 기반 음역법은 불쾌한 이미지 콘텐츠에 대해 경고해야 하지만, 이것은 주요 LLM에서 일관되게 적용되지 않으며, 그들의 언어적 장벽은 여전히 취약합니다. 더 광범위한 콘텐츠 해석(예: 히트맵을 통한)은 비용이 많이 들거나 비실용적일 수 있습니다.

* 논문의 구성은 일반적인 연구보다 덜 구조화되어 있습니다; 우리는 그 핵심 통찰력을 명확하게 전달하고자 노력했습니다.

^†결과 제시는 해석하기 특히 어렵습니다.

최초 게시일: 2025년 9월 17일 수요일

관련 특별 주제 추천

사업

최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요

2026년 최신 최고의 AI 경비 관리 도구: 영수증을 스캔하고 기업 경비를 자동으로 분류해 주는 최고 평점의 도구들. 손쉬운 경비 관리, 정확한 재무 추적, 효율적인 규정 준수를 위한 강력하고 혁신적인 솔루션을 만나보세요. 무료 및 유료 옵션을 엄선하여 매주 업데이트되는 비교 자료를 통해 귀사에 딱 맞는 도구를 찾으실 수 있습니다. XIX.AI의 전문가 추천 목록으로 AI의 장점을 최대한 활용하세요.

10 도구

xix.ai

사업

최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구

xix.ai

생산력

AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구

xix.ai

챗봇

최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구

xix.ai

교육 및 학습

최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구

xix.ai

챗봇

최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요

XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.

10 도구

xix.ai