유출 된 데이터로 노출 된 중국 AI 검열

집

뉴스

2025년 4월 10일

WillGarcía

102

# China

중국의 AI를 활용한 검열 능력 강화가 새로운 수준에 도달했으며, 이는 중국 정부가 민감한 내용으로 분류한 133,000개의 콘텐츠 사례가 포함된 유출된 데이터베이스를 통해 밝혀졌다. 이 정교한 대규모 언어 모델(LLM)은 농촌 지역의 빈곤, 공산당 내부의 부패, 그리고 심지어 미묘한 정치적 풍자에 이르기까지 다양한 주제와 관련된 콘텐츠를 자동으로 감지하고 검열하도록 설계되었다.

철조망 뒤에 있는 중국 국기

2019년 6월 4일에 촬영된 이 사진은 중국 서부 신장 지역 카슈가르 남쪽 옌기사르의 주거 단지에서 철조망 뒤에 있는 중국 국기를 보여준다. 이미지 제공: Greg Baker / AFP / Getty Images

UC Berkeley의 중국 검열 전문 연구원인 샤오 창(Xiao Qiang)에 따르면, 이 데이터베이스는 중국 정부 또는 그와 관련된 기관이 LLM을 활용하여 억압 노력을 강화하고 있다는 "명백한 증거"이다. 인간 모더레이터와 키워드 필터링에 의존하는 전통적인 방법과 달리, 이 AI 기반 접근법은 국가가 통제하는 정보 관리의 효율성과 정밀도를 크게 향상시킬 수 있다.

보안 연구원 NetAskari가 바이두 서버에서 보호되지 않은 Elasticsearch 데이터베이스에서 발견한 이 데이터셋은 2024년 12월의 최근 항목을 포함하고 있다. 데이터셋을 누가 정확히 만들었는지는 불분명하지만, 그 목적은 분명하다: 오염, 식품 안전, 금융 사기, 노동 분쟁, 군사 문제와 같은 민감한 주제와 관련된 콘텐츠를 식별하고 플래그를 지정하도록 LLM을 훈련시키는 것이다. 특히 역사적 비유나 대만과 관련된 정치적 풍자도 우선순위가 높은 대상이다.

프롬프트 토큰과 LLM을 참조하는 JSON 코드 조각. 내용의 대부분은 중국어로 되어 있다.

이미지 제공: Charles Rollet

훈련 데이터에는 부패한 경찰관에 대한 불만, 농촌 빈곤에 대한 보고서, 공산당에서 제명된 관리들에 대한 뉴스 등 사회적 불안을 유발할 가능성이 있는 다양한 콘텐츠 사례가 포함되어 있다. 데이터셋에는 대만 및 군사 관련 주제에 대한 광범위한 언급도 포함되어 있으며, 대만(台湾)이라는 중국어 단어가 15,000번 이상 등장한다.

데이터셋의 의도된 용도는 "여론 작업"으로 설명되며, Article 19의 마이클 캐스터(Michael Caster)는 이 용어가 일반적으로 중국 사이버 공간 관리국(CAC)과 관련이 있으며 검열 및 선전 노력을 포함한다고 설명한다. 이는 시진핑 중국 국가주석이 인터넷을 공산당의 여론 작업의 "최전선"으로 보는 관점과 일치한다.

이러한 발전은 권위주의 정권이 억압 목적으로 AI 기술을 채택하는 더 광범위한 추세의 일부이다. OpenAI는 최근 중국으로 추정되는 미확인 행위자가 생성 AI를 사용하여 소셜 미디어를 모니터링하고 반정부 게시물을 중국 정부에 전달했다고 보고했다. 동일한 기술은 또한 저명한 중국 반체제 인사인 차이 샤(Cai Xia)에 대한 비판적인 댓글을 생성하는 데 사용되었다.

중국의 전통적인 검열 방법은 블랙리스트에 오른 용어를 차단하는 기본 알고리즘에 의존하지만, LLM의 사용은 상당한 발전을 나타낸다. 이러한 AI 시스템은 대규모로 미묘한 비판까지 감지할 수 있으며, 더 많은 데이터를 처리하면서 지속적으로 개선된다.

"AI 기반 검열이 어떻게 진화하고 있는지, 특히 DeepSeek과 같은 중국 AI 모델이 주목받고 있는 시점에서 국가가 공공 담론을 더욱 정교하게 통제하고 있다는 점을 강조하는 것이 중요하다고 생각한다,"라고 샤오 창이 TechCrunch에 말했다.

관련 기사

ByteDance, Seed-Thinking-v1.5 AI 모델 공개로 추론 능력 강화 고급 추론 AI를 위한 경쟁은 2024년 9월 OpenAI의 o1 모델로 시작되었으며, 2025년 1월 DeepSeek의 R1 출시로 더욱 가속화되었습니다.주요 AI 개발자들은 이제 체인 오브 쏘트 프로세스를 통해 정확하고 신중한 응답을 제공하는 더 빠르고 비용 효율적인 추론 AI 모델을 만들기 위해 경쟁하고 있습니다.TikTok의 모회사인 ByteDanc

Alibaba, Wan2.1-VACE 공개: 오픈소스 AI 비디오 솔루션 Alibaba가 Wan2.1-VACE를 공개, 비디오 제작 및 편집 프로세스를 혁신할 오픈소스 AI 모델.VACE는 Alibaba의 Wan2.1 비디오 AI 모델 패밀리의 핵심 구성 요소로, 회사는 이를 업계 최초의 다양한 비디오 생성 및 편집 작업을 위한 포괄적 솔루션을 제공하는 오픈소스 모델이라고 주장.Alibaba가 비디오 제작 프로세스를 간소화하고

화웨이 CEO 런정페이의 중국 AI 야망과 회복력 전략 화웨이 CEO 런정페이가 중국의 AI 환경과 회사가 직면한 도전에 대해 솔직한 통찰을 공유합니다."너무 깊이 생각하지 않았습니다," 런정페이가 인민일보 Q&A에서 말합니다. "과도한 생각은 무익합니다."전략적 계획과 위기 대응의 시대에 그의 조언은 놀라울 정도로 직설적입니다: "장애물을 무시하세요. 행동하고 꾸준히 전진하세요."이 철학은 글로벌 제재와 제한

의견 (38)

0/200

제출하다

HarryRoberts

2025년 8월 12일 오전 3시 1분 5초 GMT+09:00

Whoa, 133,000 flagged posts? That's wild! China's AI censorship game is intense, but I'm curious—how do they even decide what's 'sensitive'? Sounds like a slippery slope. 😬

CharlesGonzalez

2025년 8월 1일 오후 10시 47분 34초 GMT+09:00

This leak is wild! 133,000 flagged posts show how deep China's AI censorship goes. It's like a digital Big Brother on steroids. 😳 Makes you wonder how much we're not seeing online.

ElijahWalker

2025년 7월 22일 오후 4시 35분 51초 GMT+09:00

This leak is wild! 133,000 flagged posts? That’s a scary peek into how AI’s being used to control speech in China. Makes you wonder how much is being filtered without us knowing. 😳

MichaelDavis

2025년 4월 21일 오후 5시 6분 3초 GMT+09:00

Essa ferramenta é reveladora! Mostra como a censura por AI na China é profunda. O vazamento do banco de dados é um pouco assustador, mas é importante saber o que está acontecendo nos bastidores. Definitivamente, algo que todos interessados em liberdade na internet devem conhecer. Fique de olho nisso! 👀

SebastianAnderson

2025년 4월 20일 오전 7시 25분 56초 GMT+09:00

Los datos filtrados sobre la censura de IA en China son escalofriantes. Es aterrador pensar en cómo se está utilizando la IA para controlar la información. Necesitamos más transparencia y menos censura, ¿no crees? 🤔

RoyYoung

2025년 4월 20일 오전 1시 38분 42초 GMT+09:00

中国的AI审查越来越失控了！😱 泄露了133,000个被标记内容的例子，显示出这有多深入。想到AI在自动审查东西，真是可怕。我们需要更多的透明度和更少的控制，对吧？🚫

최고의 뉴스

Gemini 2.5 Pro는 이제 Claude보다 무제한과 저렴한 GPT-4O 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 AI 목소리: 현실적인 목소리 제작 궁극 가이드 Cambium의 AI는 폐기물을 목재로 변형시킵니다 OpenAi는 더 나은 채팅을 위해 AI 음성 어시스턴트를 향상시킵니다 AI 통합에 데이터가 신뢰할 수 있는지 확인하는 방법 Notebooklm은 전 세계적으로 확장하고 슬라이드와 향상된 사실 확인을 추가합니다 미국에 대한 조정은 76GW의 새로운 전력 용량을 잠금 해제 할 수 있습니다. Google은 AI를 사용하여 사기의 의심에 대한 3,900 만 광고 계정을 중단합니다. AI 보이스 클로닝: 음성 변환 마스터 가이드

더