분위기 기반 이미지 라벨링은 상당한 위험을 초래한다

집

뉴스

2026년 2월 21일

BillyGarcía

비록 보수가 거의 없거나 아예 없는 경우가 많지만, '유해한' 콘텐츠를 평가하는 익명의 개인들은 그들의 결정으로 당신의 삶에 상당한 영향력을 행사합니다. 구글의 주요 신규 연구에 따르면, 이러한 평가자들은 종종 '유해한' 또는 불쾌한 자료의 기준에 대해 자신만의 개인적인 규칙을 발전시키는데—그들이 이미지에 대해 보이는 반응이 얼마나 특이하거나 주관적이든 상관없이—이른바 '문제'가 발생할 수 있다는 점을 시사합니다.

의견 이번 주 구글 리서치와 구글 마인드의 공동 연구로 13명의 연구진이 참여한 새 논문은 이미지 어노테이터들의 '직감'이 확립된 평가 기준과 상충할 때조차 알고리즘의 이미지 등급 결정에 영향을 미쳐야 하는지 검토했습니다.

이 문제가 중요한 이유는, 주석가들이 모욕적이라고 합의한 기준이 자동화된 관리 시스템, '음란' 또는 '용납할 수 없는' 콘텐츠에 대한 법적 정의(예: 영국에서 곧 시행될 NSFW 방화벽* 및 호주에서도 곧 도입 예정), 소셜 미디어 및 기타 플랫폼의 콘텐츠 평가 메커니즘에 내재되기 때문입니다.

간단히 말해, 불쾌감을 유발하는 것으로 간주되는 기준이 넓어질수록 잠재적인 검열 범위도 확대됩니다.

분위기 검열

연구는 여기서 그치지 않습니다. 이미지 평가자들이 자신뿐만 아니라 타인에게 불쾌감을 줄 수 있다고 생각하는 내용에 대해 더 엄격하게 검열하는 경향이 있음을 드러냈습니다. 또한 화질과 무관함에도 저품질 이미지가 안전성 우려를 자주 유발합니다.

결론 부분에서 논문은 마치 핵심 주장이 부족했던 것처럼 이 두 가지 발견을 강조하지만, 연구진은 어쨌든 발표할 수밖에 없었다고 느꼈다.

학술 출판에서 흔한 일이긴 하지만, 자세히 들여다보면 더 불안한 흐름이 감지된다: 주석 작업 관행이 이른바 '분위기 주석(vibe-annotating)'으로 변모하고 있을 수 있다는 점이다:

"우리의 연구 결과는 기존 프레임워크가 감정적 반응, 암묵적 판단, 문화적 해악 해석과 같은 주관적·맥락적 차원을 고려해야 함을 시사합니다. 주석 작성자들이 감정적 언어를 빈번히 사용하고 사전 정의된 해악 라벨과 괴리되는 점은 현재 평가 관행의 한계를 드러냅니다.

다양한 문화적·감정적 해석의 예시를 포함하도록 주석 지침을 확장하는 것이 이러한 격차 해소에 도움이 될 수 있습니다."

그림이 거의 없는 이 새로운 논문은 평범한 독자에게도 명확하고 공감할 수 있는 사례로 시작하지만, 실제 핵심 내용은 훨씬 더 모호하며 훨씬 더 많은 의문을 불러일으킨다. 여기, 각 이미지 아래에는 주석 작성자들이 보인다.

이 새로운 논문은 핵심 내용이 훨씬 더 복잡한 질문을 제기하지만, 대부분의 독자에게 공감을 불러일으키는 직관적인 예시를 사용합니다. 여기서는 각 이미지에 주석 작성자들의 감정적 반응이 함께 제시됩니다. 출처: https://arxiv.org/pdf/2507.16033

처음에는 이미지 속 '피해'를 더 잘 정의하려는 합리적인 노력으로 들린다—가치 있는 목표다. 그러나 논문은 이를 달성하는 것이 실용적이지 않을 뿐만 아니라 바람직하지도 않을 수 있음을 반복적으로 시사한다:

"우리의 연구 결과는 기존 프레임워크가 감정적 반응, 암묵적 판단, 피해에 대한 문화적 해석과 같은 주관적·맥락적 차원을 고려해야 함을 시사합니다. 주석 작성자들이 감정적 언어를 빈번히 사용하고 사전 정의된 피해 라벨과 차이가 나는 점은 현재 평가 관행의 공백을 부각시킵니다.

다양한 문화적·감정적 해석의 예시를 포함하도록 주석 지침을 확장하면 이러한 격차를 해소하는 데 도움이 될 수 있습니다 […]

[…] 주석 작성자들이 모호한 이미지를 해석하는 과정은 종종 개인적, 문화적, 감정적 관점을 반영하며, 이는 체계화하거나 표준화하기 어렵습니다."

"다양한 문화적·감정적 해석의 예시적 사례"를 포함하는 것이 합리적인 평가 체계에 어떻게 부합하는지 이해하기 어렵습니다. 저자들은 이 점을 반복적으로 고민하면서도 명확한 해결책을 제시하지 못해, 핵심 논증마저 무형의 심리적 요소를 다루면서도 '분위기'에 의해 주도되는 것처럼 느껴지게 합니다.

간단히 말해, 이러한 방식으로 주석 기준을 확대하면 주석자가 강하게 반응하는 어떤 콘텐츠든, 심지어 전체 주제까지도 억압되거나 가려질 수 있습니다.

이분법적 판단

이미지와 텍스트가 초래하는 해악을 정량화하는 것은 본질적으로 어렵습니다. 특히 예술과 문학에서 볼 수 있듯 "고급" 문화와 "대중" 문화가 종종 중첩되기 때문입니다. 이는 음란물을 엄격한 정의가 아닌 "보면 알 수 있다"는 원칙으로 판단하는 초기 형태의 "분위기 기반" 검열로 이어졌습니다.

공감과 미묘함에 대한 광범위한 논의 아래, 이 논문은 "폭력", "노출", "혐오"와 같은 중앙 집중적이고 표준화된 범주의 권위에 미묘하게 도전한다. 이러한 범주는 플랫폼이 합리적인 정확도로 확장 가능한 검토를 구현할 수 있게 한다.

새로운 주장은 오직 분산적이고 주관적이며 맥락을 인지하는 인간의 판단만이 생성형 AI 출력을 제대로 평가할 수 있다는 것이다.

그러나 이 접근법은 확장성이 부족하다. '느낌'이나 개인적 경험만으로 수십억 장의 이미지를 필터링할 수 없다. 피해는 구체적인 속성으로 정량화되어야 하며, 필터링 시스템에는 명확한 한계가 필요하고, 경계 사례에는 업데이트된 가이드라인이 요구된다. 마치 독특한 불만을 해결하기 위해 새로운 법이 필요한 경우와 유사하다.

대신, 이 논문은 자동으로 범위를 확대하는 자동화된 검토 시스템을 옹호하는 것으로 보입니다. 너무 신중해서 단 한 명의 주석자가 매우 개인적인 반응을 보인다고 해도 다른 누구에게도 불쾌감을 주지 않는 이미지가 불이익을 받을 수 있습니다.

도덕적 확장

본 논문은 탐구적 성격이 강하지만 과학적 방법을 적용했습니다: 저자들은 이미지에 대한 어노테이터 반응의 폭넓은 범위를 식별하기 위한 프레임워크를 구축했으며(엄밀한 측정은 아님), 이러한 반응이 성별 및 기타 인구통계학적 요인에 따라 어떻게 달라지는지 분석했습니다.

^{해악 중심성†을} 분석하는 것을 넘어, 이 연구는 주석 작성자들의 추가 코멘트에서 "도덕적 추론"을 조사했습니다. 참가자들은 이미지, 프롬프트 및 관련 텍스트가 포함된 수정된 데이터 세트를 주석 달도록 요청받았습니다.

이 "도덕적 감정 자동 평가기"는 도덕적 기초 이론(Moral Foundations Theory)에 기반하여 배려, 평등, 비례성, 충성, 권위, 순수성 등의 도덕적 가치를 포착하도록 설계되었습니다. 이 심리학적 모델은 유동적인 특성으로 인해 대규모 평가 시스템에 필요한 구체적인 정의를 만드는 데는 부적합합니다.

이 이론에서 영감을 받아 저자들은 공포, 분노, 슬픔, 혐오, 혼란, 기이함 등 추가적인 안전 차원을 도입했습니다.

저자들은 공포에 대해 다음과 같이 설명합니다:

"많은 주석 작성자들은 '무섭다'(예: 왜곡된 얼굴이나 아이를 겨누는 총과 같은 폭력을 암시하는 이미지), '불쾌하다'(예: '누군가 차에 치이는 모습을 보는 건 정말 역겹고, 매우 고통스럽고 불쾌하다', 또는 빨간 페인트에 대해 '불쾌하고 피처럼 보인다'), '불안감'(예: '소년 이미지에 많은 왜곡이 있다… 소년이 안전 난간 반대편에서 놀고 있는 것처럼 보여 불쾌하다') 등의 표현을 사용했습니다.

[아래 그래프]는 '공포'가 가장 빈번히 언급된 감정(233회)임을 보여줍니다. 이 중 거의 절반이 폭력적 콘텐츠와 연관되었으나, 두 번째로 많은 공포 언급은 유해하지 않다고 판단된 콘텐츠에서 나왔습니다."

감정 관련 용어의 피해 유형별 분포. 막대 높이는 댓글 비율을 나타내며, 막대 내부에 표시된 숫자는 해당 유형의 댓글 수, 각 유형 상단에 표시된 숫자는 전체 댓글 수를 나타냄.

유해성 범주별 감정 관련 용어 분포. 막대 높이는 댓글 비율을, 막대 내 숫자는 언급 횟수를, 각 범주 상단의 숫자는 총 댓글 수를 나타냅니다.

이러한 새로운 안전 차원에 대해 저자들은 다음과 같이 언급합니다:

"이러한 새롭게 부각된 주제들은 주관적, 감정적, 지각적 요소를 통합하여 AI 이미지 평가 프레임워크를 보완할 필요성이 시급함을 강조한다."

이러한 방향은 위험할 수 있습니다. 모든 주석자가 일관된 기준을 따르도록 요구하기보다, 주석 과정이 개인의 반응에 기반한 규칙을 임의로 도입할 수 있기 때문입니다.

여기서 경제적 동기가 있다면, 이 모델이 초대규모 인간 주석을 가능케 한다는 점이다: 참가자들이 스스로 규칙을 정의하는 마찰 없는 자율 규제 시스템이다.

표준 주석 작업에서는 규칙이 합의에 의해 정해지고 주석 작성자들이 이를 따릅니다. 논문에서 제안한 모델에서는 이러한 감독이 축소되거나 제거됩니다. 즉, 합의 도출이 비용과 시간이 많이 드는 만큼, 단 한 사람이라도 불쾌감을 느끼는 이미지는 신고될 수 있다는 의미입니다.

로르샤흐 판단

주석 작업의 목표는 전문가 감독, 합의 또는 이상적으로는 양자를 통해 정확한 설명을 생산하는 것이다. 명확한 피해 계층 구조를 "직관적"이고 매우 개인적인 과정으로 확장하는 것은 로르샤흐 테스트에 주석을 달아주는 것과 같다.

예를 들어, 논문은 일부 주석자가 JPEG 아티팩트나 기술적 결함과 같은 낮은 화질을 "불쾌한" 또는 "피해의 징후"로 해석했다고 지적한다 :

"이는 작업 지침에 화질 관련 지시가 누락되었음에도 발생한 현상이다. 더욱이 주석 작성자들은 이러한 품질 아티팩트를 의미론적으로 해석했다.

한 주석자는 '이 이미지는 전혀 해롭지 않다. 단지 얼굴이 약간 왜곡되었을 뿐이다'라고 언급했다. 마찬가지로 다른 주석자들은 이미지 결함을 의도적인 해악으로 보고 결함에 감정적 의미를 부여했다. 예를 들어 한 주석자는 왜곡된 얼굴을 '고통을 암시한다'고 해석했다."

사전 정의된 안전성 라벨보다 주관적·감정적·맥락적 반응을 우선시하는 이 접근법은 모든 것이 임의로 유해하다고 표시될 수 있는 시스템을 조성할 위험이 있습니다. 이는 특히 특정 이익 집단을 불쾌하게 할 수 있는 콘텐츠에 대해 즉흥적인 삭제나 재분류라는 '위축 효과'로 이어질 수 있습니다.

논문 "그냥 이상한 사진일 뿐": 다양한 주석자의 관점에서 본 GenAI 이미지 안전성 주석 작업의 '안전성' 평가는 Arxiv에서 확인할 수 있습니다.

* 본문의 주요 초점이 아니므로 간략히 언급함. 새 법에 따라 위반 사이트는 자체 감시, 비용이 많이 드는 검토 및 연령 확인 시스템 도입(대형 플랫폼만 가능), 또는 영국 접속 차단(이 역시 자체 비용 부담) 중 하나를 선택해야 합니다.

† 흔히 "아이들을 생각하라"는 밈으로 단순화되는데, 이는 표면상 이타적인 목적으로 타인의 도덕적 판단력을 이용하는 행태를 풍자한다.

최초 게재일: 2025년 7월 25일 금요일

관련 특별 주제 추천

만화 창작

소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기

XIX.AI에서 2026년 최고의 소년 만화 AI 생성기를 만나보세요. 엄선된 최고 평점 목록에는 박진감 넘치는 액션 장면과 역동적인 에너지 효과를 연출할 수 있는 강력한 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 여러분의 창의력을 마음껏 발휘하여 오늘 바로 장대한 만화를 만들어 보세요!

15 도구

xix.ai

사업

최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요

2026년 최신 최고의 AI 경비 관리 도구: 영수증을 스캔하고 기업 경비를 자동으로 분류해 주는 최고 평점의 도구들. 손쉬운 경비 관리, 정확한 재무 추적, 효율적인 규정 준수를 위한 강력하고 혁신적인 솔루션을 만나보세요. 무료 및 유료 옵션을 엄선하여 매주 업데이트되는 비교 자료를 통해 귀사에 딱 맞는 도구를 찾으실 수 있습니다. XIX.AI의 전문가 추천 목록으로 AI의 장점을 최대한 활용하세요.

10 도구

xix.ai

사업

최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구

xix.ai

생산력

AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구

xix.ai

챗봇

최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구

xix.ai

교육 및 학습

최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구

xix.ai