Censure de l'IA chinoise exposée par des données divulguées
L'utilisation de l'IA par la Chine pour améliorer ses capacités de censure a atteint un nouveau niveau, comme l'a révélé une base de données divulguée contenant 133 000 exemples de contenu signalé pour la sensibilité par le gouvernement chinois. Ce modèle sophistiqué de grand langage (LLM) est conçu pour détecter et censurer automatiquement le contenu lié à un large éventail de sujets, de la pauvreté dans les zones rurales à la corruption au sein du Parti communiste et même de la satire politique subtile.

Cette photo prise le 4 juin 2019 montre le drapeau chinois derrière Razor Wire dans un composé de logement à Yengisar, au sud de Kashgar, dans la région chinoise du Xinjiang. Crédits d'image: Greg Baker / AFP / Getty Images
Selon Xiao Qiang, chercheur à UC Berkeley qui se spécialise dans la censure chinoise, cette base de données est "une preuve claire" que le gouvernement chinois ou ses affiliés utilisent les LLM pour renforcer leurs efforts de répression. Contrairement aux méthodes traditionnelles qui dépendent des modérateurs humains et du filtrage des mots clés, cette approche axée sur l'IA peut améliorer considérablement l'efficacité et la précision de la gestion de l'information contrôlée par l'État.
L'ensemble de données, découvert par le chercheur en sécurité Netaskari sur une base de données Elasticsearch non sécurisée hébergée sur un serveur Baidu, comprend des entrées récentes de décembre 2024. Il n'est pas clair qui a exactement créé l'ensemble de données, mais son objectif est évident: former une LLM pour identifier et signaler le contenu lié à des sujets sensibles tels que la pollution, la sécurité alimentaire, la fraude financière, les différends travailliste et les matières militaires. La satire politique, en particulier lorsqu'elle implique des analogies historiques ou des références à Taïwan, est également une cible de grande priorité.

Crédits d'image: Charles Roulet
Les données de formation comprennent divers exemples de contenu qui pourraient potentiellement susciter des troubles sociaux, tels que les plaintes concernant des policiers corrompus, des rapports sur la pauvreté rurale et des nouvelles concernant les fonctionnaires expulsés du Parti communiste. L'ensemble de données contient également de nombreuses références à Taïwan et à des sujets liés à l'armée, le mot chinois pour Taïwan (台湾) apparaissant plus de 15 000 fois.
L'utilisation prévue de l'ensemble de données est décrite comme un «travail d'opinion publique», un terme que Michael Caster de l'article 19 explique est généralement associé à l'administration du cyberespace de la Chine (CAC) et implique des efforts de censure et de propagande. Cela s'aligne sur la vision du président chinois Xi Jinping sur Internet comme la "première ligne" du travail d'opinion publique du Parti communiste.
Cette évolution fait partie d'une tendance plus large des régimes autoritaires adoptant la technologie d'IA à des fins répressives. OpenAI a récemment rapporté qu'un acteur non identifié, probablement en provenance de Chine, a utilisé une AI générative pour surveiller les médias sociaux et transmettre des postes antigouvernementaux au gouvernement chinois. La même technologie a également été utilisée pour générer des commentaires critiques sur un dissident chinois de premier plan, Cai Xia.
Alors que les méthodes de censure traditionnelles de la Chine reposent sur des algorithmes de base pour bloquer les termes mis sur liste noire, l'utilisation de LLMS représente un progrès significatif. Ces systèmes d'IA peuvent détecter des critiques encore subtiles à une échelle massive et s'améliorer continuellement à mesure qu'elles traitent plus de données.
"Je pense qu'il est crucial de souligner comment l'évolution de la censure axée sur l'IA, ce qui rend le contrôle de l'État sur le discours public encore plus sophistiqué, en particulier à un moment où des modèles d'IA chinois tels que Deepseek font des ondes", a déclaré Xiao Qiang à TechCrunch.
Article connexe
分析揭示了AI对中国的反应因语言而有所不同
探索AI审查制度:基于语言的分析毫不秘密,即来自中国实验室(例如DeepSeek)的AI模型受到严格的审查规则。 2023年来自中国执政党的法规明确禁止这些模型产生可能破坏国家统一左右的内容
中国在计算机视觉监视研究中排名全球排名:CSET
安全与新兴技术中心(CSET)的最新研究揭示了中国在与AI相关的监视技术研究中的重要领导。该报告标题为“ AI研究中的**趋势有关人群的视觉监视**),研究中国的研究如何
埃里克·施密特(Eric Schmidt)反对阿吉·曼哈顿(Agi Manhattan)项目
在周三发布的一份政策文件中,前Google首席执行官埃里克·施密特(Eric Schmidt)以及Scale AI首席执行官Alexandr Wang和AI安全总监Dan Hendrycks中心和AI安全总监Dan Hendrycks中心,建议不要发起曼哈顿项目风格的计划,以开发AI Systems,以“超级人类”的智慧开发AI System
commentaires (35)
0/200
FrankMartínez
11 avril 2025 00:00:00 UTC
This app is eye-opening but kinda scary. It shows how AI is used for censorship in China, which is pretty intense. The database is huge, but navigating it feels clunky. It's a good wake-up call about AI's potential for harm, but the interface could use some work.
0
GregoryWilson
11 avril 2025 00:00:00 UTC
このアプリは目を開かせるけど、ちょっと怖いです。中国でのAIによる検閲の使い方を示していて、かなり強烈です。データベースは巨大ですが、操作がぎこちない感じがします。AIの害の可能性についての良い警告ですが、インターフェースは改善の余地がありますね。
0
RoyLopez
11 avril 2025 00:00:00 UTC
이 앱은 눈을 뜨게 하지만 좀 무섭네요. 중국에서 AI가 검열에 어떻게 사용되는지 보여주는데, 꽤 강렬해요. 데이터베이스는 거대하지만, 사용하기가 좀 어색해요. AI의 해악 가능성에 대한 좋은 경고지만, 인터페이스는 개선의 여지가 있어요.
0
MichaelDavis
12 avril 2025 00:00:00 UTC
Este aplicativo é revelador, mas um pouco assustador. Mostra como a IA é usada para censura na China, o que é bastante intenso. O banco de dados é enorme, mas navegar por ele parece desajeitado. É um bom alerta sobre o potencial de dano da IA, mas a interface poderia ser melhorada.
0
CharlesWhite
12 avril 2025 00:00:00 UTC
Esta aplicación abre los ojos pero da un poco de miedo. Muestra cómo se usa la IA para la censura en China, lo cual es bastante intenso. La base de datos es enorme, pero navegar por ella se siente torpe. Es una buena llamada de atención sobre el potencial de daño de la IA, pero la interfaz podría mejorar.
0
CarlLewis
16 avril 2025 00:00:00 UTC
The leaked data on Chinese AI censorship is pretty scary. It's like Big Brother on steroids! 😱 But I'm not surprised, just wish there was a way to fight back against this kind of control. Any ideas? 🤔
0
L'utilisation de l'IA par la Chine pour améliorer ses capacités de censure a atteint un nouveau niveau, comme l'a révélé une base de données divulguée contenant 133 000 exemples de contenu signalé pour la sensibilité par le gouvernement chinois. Ce modèle sophistiqué de grand langage (LLM) est conçu pour détecter et censurer automatiquement le contenu lié à un large éventail de sujets, de la pauvreté dans les zones rurales à la corruption au sein du Parti communiste et même de la satire politique subtile.
Selon Xiao Qiang, chercheur à UC Berkeley qui se spécialise dans la censure chinoise, cette base de données est "une preuve claire" que le gouvernement chinois ou ses affiliés utilisent les LLM pour renforcer leurs efforts de répression. Contrairement aux méthodes traditionnelles qui dépendent des modérateurs humains et du filtrage des mots clés, cette approche axée sur l'IA peut améliorer considérablement l'efficacité et la précision de la gestion de l'information contrôlée par l'État.
L'ensemble de données, découvert par le chercheur en sécurité Netaskari sur une base de données Elasticsearch non sécurisée hébergée sur un serveur Baidu, comprend des entrées récentes de décembre 2024. Il n'est pas clair qui a exactement créé l'ensemble de données, mais son objectif est évident: former une LLM pour identifier et signaler le contenu lié à des sujets sensibles tels que la pollution, la sécurité alimentaire, la fraude financière, les différends travailliste et les matières militaires. La satire politique, en particulier lorsqu'elle implique des analogies historiques ou des références à Taïwan, est également une cible de grande priorité.
Les données de formation comprennent divers exemples de contenu qui pourraient potentiellement susciter des troubles sociaux, tels que les plaintes concernant des policiers corrompus, des rapports sur la pauvreté rurale et des nouvelles concernant les fonctionnaires expulsés du Parti communiste. L'ensemble de données contient également de nombreuses références à Taïwan et à des sujets liés à l'armée, le mot chinois pour Taïwan (台湾) apparaissant plus de 15 000 fois.
L'utilisation prévue de l'ensemble de données est décrite comme un «travail d'opinion publique», un terme que Michael Caster de l'article 19 explique est généralement associé à l'administration du cyberespace de la Chine (CAC) et implique des efforts de censure et de propagande. Cela s'aligne sur la vision du président chinois Xi Jinping sur Internet comme la "première ligne" du travail d'opinion publique du Parti communiste.
Cette évolution fait partie d'une tendance plus large des régimes autoritaires adoptant la technologie d'IA à des fins répressives. OpenAI a récemment rapporté qu'un acteur non identifié, probablement en provenance de Chine, a utilisé une AI générative pour surveiller les médias sociaux et transmettre des postes antigouvernementaux au gouvernement chinois. La même technologie a également été utilisée pour générer des commentaires critiques sur un dissident chinois de premier plan, Cai Xia.
Alors que les méthodes de censure traditionnelles de la Chine reposent sur des algorithmes de base pour bloquer les termes mis sur liste noire, l'utilisation de LLMS représente un progrès significatif. Ces systèmes d'IA peuvent détecter des critiques encore subtiles à une échelle massive et s'améliorer continuellement à mesure qu'elles traitent plus de données.
"Je pense qu'il est crucial de souligner comment l'évolution de la censure axée sur l'IA, ce qui rend le contrôle de l'État sur le discours public encore plus sophistiqué, en particulier à un moment où des modèles d'IA chinois tels que Deepseek font des ondes", a déclaré Xiao Qiang à TechCrunch.




This app is eye-opening but kinda scary. It shows how AI is used for censorship in China, which is pretty intense. The database is huge, but navigating it feels clunky. It's a good wake-up call about AI's potential for harm, but the interface could use some work.




このアプリは目を開かせるけど、ちょっと怖いです。中国でのAIによる検閲の使い方を示していて、かなり強烈です。データベースは巨大ですが、操作がぎこちない感じがします。AIの害の可能性についての良い警告ですが、インターフェースは改善の余地がありますね。




이 앱은 눈을 뜨게 하지만 좀 무섭네요. 중국에서 AI가 검열에 어떻게 사용되는지 보여주는데, 꽤 강렬해요. 데이터베이스는 거대하지만, 사용하기가 좀 어색해요. AI의 해악 가능성에 대한 좋은 경고지만, 인터페이스는 개선의 여지가 있어요.




Este aplicativo é revelador, mas um pouco assustador. Mostra como a IA é usada para censura na China, o que é bastante intenso. O banco de dados é enorme, mas navegar por ele parece desajeitado. É um bom alerta sobre o potencial de dano da IA, mas a interface poderia ser melhorada.




Esta aplicación abre los ojos pero da un poco de miedo. Muestra cómo se usa la IA para la censura en China, lo cual es bastante intenso. La base de datos es enorme, pero navegar por ella se siente torpe. Es una buena llamada de atención sobre el potencial de daño de la IA, pero la interfaz podría mejorar.




The leaked data on Chinese AI censorship is pretty scary. It's like Big Brother on steroids! 😱 But I'm not surprised, just wish there was a way to fight back against this kind of control. Any ideas? 🤔












