Censura da IA chinesa exposta por dados vazados
O uso da IA da China para aprimorar seus recursos de censura atingiu um novo nível, conforme revelado por um banco de dados vazado contendo 133.000 exemplos de conteúdo sinalizado para sensibilidade pelo governo chinês. Este sofisticado modelo de grande linguagem (LLM) foi projetado para detectar e censurar automaticamente o conteúdo relacionado a uma ampla gama de tópicos, da pobreza nas áreas rurais à corrupção dentro do Partido Comunista e até mesmo sátira política.

Esta foto tirada em 4 de junho de 2019 mostra a bandeira chinesa por trás do Razor Wire em um composto habitacional em Yengisar, ao sul de Kashgar, na região do Xinjiang da China.
Segundo Xiao Qiang, pesquisador da UC Berkeley especializado em censura chinesa, esse banco de dados é "evidência clara" de que o governo chinês ou suas afiliadas estão usando LLMs para reforçar seus esforços de repressão. Diferentemente dos métodos tradicionais que dependem de moderadores humanos e filtragem de palavras-chave, essa abordagem orientada a IA pode aumentar significativamente a eficiência e a precisão do gerenciamento de informações controlado pelo estado.
O conjunto de dados, descoberto pelo pesquisador de segurança Netaskari em um banco de dados de Elasticsearch não garantido hospedado em um servidor Baidu, inclui entradas recentes de dezembro de 2024. Não está claro quem exatamente criou o conjunto de dados, mas seu objetivo é evidente: treinar um LLM para identificar e sinalizar conteúdo relacionado e sensibilidade, como poluição, segurança alimentar, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes, fraudes financeiras, fraudes, fraudes financeiras, llm para identificar e sinalizar conteúdo e sinalização relacionados à sensibilidade, como poluição, segurança alimentar. A sátira política, especialmente quando envolve analogias históricas ou referências a Taiwan, também é um alvo de alta prioridade.

Créditos da imagem: Charles Rollet
Os dados de treinamento incluem vários exemplos de conteúdo que podem potencialmente provocar agitação social, como reclamações sobre policiais corruptos, relatórios sobre pobreza rural e notícias sobre funcionários do Partido Comunista Expelido. O conjunto de dados também contém referências extensas a tópicos relacionados a Taiwan e relacionados a militares, com a palavra chinesa para Taiwan (台湾) aparecendo mais de 15.000 vezes.
O uso pretendido do conjunto de dados é descrito como "trabalho de opinião pública", um termo que Michael Caster do artigo 19 explica normalmente está associado à administração do ciberespaço da China (CAC) e envolve esforços de censura e propaganda. Isso se alinha com a visão do presidente chinês Xi Jinping da Internet como a "linha de frente" do trabalho de opinião pública do Partido Comunista.
Esse desenvolvimento faz parte de uma tendência mais ampla de regimes autoritários que adotam a tecnologia de IA para fins repressivos. O Openai relatou recentemente que um ator não identificado, provavelmente da China, usou IA generativa para monitorar as mídias sociais e avançar os cargos antigovernamentais para o governo chinês. A mesma tecnologia também foi usada para gerar comentários críticos sobre um importante dissidente chinês, Cai Xia.
Embora os métodos tradicionais de censura da China dependam de algoritmos básicos para bloquear os termos na lista negra, o uso do LLMS representa um avanço significativo. Esses sistemas de IA podem detectar críticas sutis em uma escala enorme e melhorar continuamente à medida que processam mais dados.
"Eu acho crucial destacar como a censura orientada pela IA está evoluindo, tornando o controle do estado sobre o discurso público ainda mais sofisticado, especialmente em um momento em que modelos de IA chineses, como Deepseek, estão fazendo ondas de cabeça", disse Xiao Qiang ao TechCrunch.
Artigo relacionado
分析揭示了AI对中国的反应因语言而有所不同
探索AI审查制度:基于语言的分析毫不秘密,即来自中国实验室(例如DeepSeek)的AI模型受到严格的审查规则。 2023年来自中国执政党的法规明确禁止这些模型产生可能破坏国家统一左右的内容
中国在计算机视觉监视研究中排名全球排名:CSET
安全与新兴技术中心(CSET)的最新研究揭示了中国在与AI相关的监视技术研究中的重要领导。该报告标题为“ AI研究中的**趋势有关人群的视觉监视**),研究中国的研究如何
埃里克·施密特(Eric Schmidt)反对阿吉·曼哈顿(Agi Manhattan)项目
在周三发布的一份政策文件中,前Google首席执行官埃里克·施密特(Eric Schmidt)以及Scale AI首席执行官Alexandr Wang和AI安全总监Dan Hendrycks中心和AI安全总监Dan Hendrycks中心,建议不要发起曼哈顿项目风格的计划,以开发AI Systems,以“超级人类”的智慧开发AI System
Comentários (35)
0/200
FrankMartínez
11 de Abril de 2025 à0 00:00:00 GMT
This app is eye-opening but kinda scary. It shows how AI is used for censorship in China, which is pretty intense. The database is huge, but navigating it feels clunky. It's a good wake-up call about AI's potential for harm, but the interface could use some work.
0
GregoryWilson
11 de Abril de 2025 à0 00:00:00 GMT
このアプリは目を開かせるけど、ちょっと怖いです。中国でのAIによる検閲の使い方を示していて、かなり強烈です。データベースは巨大ですが、操作がぎこちない感じがします。AIの害の可能性についての良い警告ですが、インターフェースは改善の余地がありますね。
0
RoyLopez
11 de Abril de 2025 à0 00:00:00 GMT
이 앱은 눈을 뜨게 하지만 좀 무섭네요. 중국에서 AI가 검열에 어떻게 사용되는지 보여주는데, 꽤 강렬해요. 데이터베이스는 거대하지만, 사용하기가 좀 어색해요. AI의 해악 가능성에 대한 좋은 경고지만, 인터페이스는 개선의 여지가 있어요.
0
MichaelDavis
12 de Abril de 2025 à0 00:00:00 GMT
Este aplicativo é revelador, mas um pouco assustador. Mostra como a IA é usada para censura na China, o que é bastante intenso. O banco de dados é enorme, mas navegar por ele parece desajeitado. É um bom alerta sobre o potencial de dano da IA, mas a interface poderia ser melhorada.
0
CharlesWhite
12 de Abril de 2025 à0 00:00:00 GMT
Esta aplicación abre los ojos pero da un poco de miedo. Muestra cómo se usa la IA para la censura en China, lo cual es bastante intenso. La base de datos es enorme, pero navegar por ella se siente torpe. Es una buena llamada de atención sobre el potencial de daño de la IA, pero la interfaz podría mejorar.
0
CarlLewis
16 de Abril de 2025 à0 00:00:00 GMT
The leaked data on Chinese AI censorship is pretty scary. It's like Big Brother on steroids! 😱 But I'm not surprised, just wish there was a way to fight back against this kind of control. Any ideas? 🤔
0
O uso da IA da China para aprimorar seus recursos de censura atingiu um novo nível, conforme revelado por um banco de dados vazado contendo 133.000 exemplos de conteúdo sinalizado para sensibilidade pelo governo chinês. Este sofisticado modelo de grande linguagem (LLM) foi projetado para detectar e censurar automaticamente o conteúdo relacionado a uma ampla gama de tópicos, da pobreza nas áreas rurais à corrupção dentro do Partido Comunista e até mesmo sátira política.
Segundo Xiao Qiang, pesquisador da UC Berkeley especializado em censura chinesa, esse banco de dados é "evidência clara" de que o governo chinês ou suas afiliadas estão usando LLMs para reforçar seus esforços de repressão. Diferentemente dos métodos tradicionais que dependem de moderadores humanos e filtragem de palavras-chave, essa abordagem orientada a IA pode aumentar significativamente a eficiência e a precisão do gerenciamento de informações controlado pelo estado.
O conjunto de dados, descoberto pelo pesquisador de segurança Netaskari em um banco de dados de Elasticsearch não garantido hospedado em um servidor Baidu, inclui entradas recentes de dezembro de 2024. Não está claro quem exatamente criou o conjunto de dados, mas seu objetivo é evidente: treinar um LLM para identificar e sinalizar conteúdo relacionado e sensibilidade, como poluição, segurança alimentar, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes financeiras, fraudes, fraudes financeiras, fraudes, fraudes financeiras, llm para identificar e sinalizar conteúdo e sinalização relacionados à sensibilidade, como poluição, segurança alimentar. A sátira política, especialmente quando envolve analogias históricas ou referências a Taiwan, também é um alvo de alta prioridade.
Os dados de treinamento incluem vários exemplos de conteúdo que podem potencialmente provocar agitação social, como reclamações sobre policiais corruptos, relatórios sobre pobreza rural e notícias sobre funcionários do Partido Comunista Expelido. O conjunto de dados também contém referências extensas a tópicos relacionados a Taiwan e relacionados a militares, com a palavra chinesa para Taiwan (台湾) aparecendo mais de 15.000 vezes.
O uso pretendido do conjunto de dados é descrito como "trabalho de opinião pública", um termo que Michael Caster do artigo 19 explica normalmente está associado à administração do ciberespaço da China (CAC) e envolve esforços de censura e propaganda. Isso se alinha com a visão do presidente chinês Xi Jinping da Internet como a "linha de frente" do trabalho de opinião pública do Partido Comunista.
Esse desenvolvimento faz parte de uma tendência mais ampla de regimes autoritários que adotam a tecnologia de IA para fins repressivos. O Openai relatou recentemente que um ator não identificado, provavelmente da China, usou IA generativa para monitorar as mídias sociais e avançar os cargos antigovernamentais para o governo chinês. A mesma tecnologia também foi usada para gerar comentários críticos sobre um importante dissidente chinês, Cai Xia.
Embora os métodos tradicionais de censura da China dependam de algoritmos básicos para bloquear os termos na lista negra, o uso do LLMS representa um avanço significativo. Esses sistemas de IA podem detectar críticas sutis em uma escala enorme e melhorar continuamente à medida que processam mais dados.
"Eu acho crucial destacar como a censura orientada pela IA está evoluindo, tornando o controle do estado sobre o discurso público ainda mais sofisticado, especialmente em um momento em que modelos de IA chineses, como Deepseek, estão fazendo ondas de cabeça", disse Xiao Qiang ao TechCrunch.




This app is eye-opening but kinda scary. It shows how AI is used for censorship in China, which is pretty intense. The database is huge, but navigating it feels clunky. It's a good wake-up call about AI's potential for harm, but the interface could use some work.




このアプリは目を開かせるけど、ちょっと怖いです。中国でのAIによる検閲の使い方を示していて、かなり強烈です。データベースは巨大ですが、操作がぎこちない感じがします。AIの害の可能性についての良い警告ですが、インターフェースは改善の余地がありますね。




이 앱은 눈을 뜨게 하지만 좀 무섭네요. 중국에서 AI가 검열에 어떻게 사용되는지 보여주는데, 꽤 강렬해요. 데이터베이스는 거대하지만, 사용하기가 좀 어색해요. AI의 해악 가능성에 대한 좋은 경고지만, 인터페이스는 개선의 여지가 있어요.




Este aplicativo é revelador, mas um pouco assustador. Mostra como a IA é usada para censura na China, o que é bastante intenso. O banco de dados é enorme, mas navegar por ele parece desajeitado. É um bom alerta sobre o potencial de dano da IA, mas a interface poderia ser melhorada.




Esta aplicación abre los ojos pero da un poco de miedo. Muestra cómo se usa la IA para la censura en China, lo cual es bastante intenso. La base de datos es enorme, pero navegar por ella se siente torpe. Es una buena llamada de atención sobre el potencial de daño de la IA, pero la interfaz podría mejorar.




The leaked data on Chinese AI censorship is pretty scary. It's like Big Brother on steroids! 😱 But I'm not surprised, just wish there was a way to fight back against this kind of control. Any ideas? 🤔












