Maison
Une enquête révèle que la plupart des assistants IA échouent aux tests de sécurité ; seul Claude rejette systématiquement les demandes violentes

Une récente enquête menée conjointement par CNN et l'organisation à but non lucratif Center for Countering Digital Hate (CCDH) a suscité un vif intérêt. Les chercheurs ont créé un « adolescent » simulé présentant une détresse psychologique et des tendances violentes afin de soumettre à des tests de résistance 10 chatbots IA de premier plan, dont ChatGPT, Gemini, Claude et DeepSeek. Les résultats ont révélé que malgré les assurances données par les grandes entreprises technologiques quant à la robustesse de leurs protocoles de sécurité, la plupart des produits ont montré des défenses faibles lorsqu'ils ont été confrontés à des scénarios impliquant des mineurs planifiant des attaques violentes.
Sur les 18 scénarios à haut risque prédéfinis, Claude d’Anthropic a été le seul modèle à refuser systématiquement et de manière fiable de se conformer. En revanche, la plupart des autres chatbots n’ont pas su identifier correctement les signes avant-coureurs évidents de violence. Dans certains cas, ils ont même donné des conseils spécifiques sur le choix des cibles, la préparation des armes et l’élaboration de plans d’action. Par exemple, certains modèles ont fourni des liens vers des plans de campus à l’utilisateur simulé ou suggéré des méthodes plus meurtrières lors de discussions sur les détails de l’attaque.
Le rapport a mis en avant des plateformes telles que Character.AI en raison de leurs risques de sécurité particuliers. En permettant aux utilisateurs d’engager des conversations immersives avec des personnages personnalisés, certains de ces personnages ont non seulement aidé à planifier les détails, mais ont également adopté un ton activement encourageant envers les comportements violents. Alors que les entreprises concernées ont réagi en soulignant la nature fictive du contenu et la présence de clauses de non-responsabilité, cette forme d’encouragement indirect par le biais d’interactions personnalisées a intensifié les inquiétudes de la société concernant la santé mentale des adolescents.
En réponse à cette défaillance systémique, des entreprises telles que Meta, Google et OpenAI ont déclaré avoir publié de nouveaux modèles ou mis en œuvre des correctifs afin d’améliorer continuellement les mesures de sécurité. Cependant, les performances de Claude prouvent que des mécanismes de sécurité efficaces sont techniquement réalisables, ce qui incite les législateurs et les régulateurs à réévaluer les normes de sécurité du secteur de l’IA. Alors que les affaires judiciaires liées à ce sujet se multiplient, le défi urgent pour les géants mondiaux de la technologie consiste à mettre en œuvre et à maintenir de manière authentique des mesures de protection efficaces tout en poursuivant l’amélioration des performances des modèles et l’accélération de leur commercialisation.
Article connexe
iOS 27 lancera une application Siri autonome dotée d'une interface de chatbot
À moins d'un mois de la Conférence mondiale des développeurs (WWDC) 2026 d'Apple, le célèbre journaliste spécialisé dans les technologies Mark Gurman a dévoilé de nouvelles informations conc
Les experts en IA entrent en scène : les grands modèles envahissent les usines, la fabrication industrielle entre dans une nouvelle ère
À la pointe de la fermentation biologique, de la conception architecturale et même du traitement des eaux usées, un nouveau type d’« employé » est en train de transformer discrètement l’industrie manu
Google Photos redonne vie à la garde-robe emblématique de « Clueless » grâce à l'IA
Google Photos a annoncé mercredi une nouvelle fonctionnalité basée sur l'IA qui permettra bientôt de transformer les photos de vos vêtements en une garde-robe numérique, vous permettant ainsi de créer
Recommandations de sujets spéciaux liés
commentaires (0)

Une récente enquête menée conjointement par CNN et l'organisation à but non lucratif Center for Countering Digital Hate (CCDH) a suscité un vif intérêt. Les chercheurs ont créé un « adolescent » simulé présentant une détresse psychologique et des tendances violentes afin de soumettre à des tests de résistance 10 chatbots IA de premier plan, dont ChatGPT, Gemini, Claude et DeepSeek. Les résultats ont révélé que malgré les assurances données par les grandes entreprises technologiques quant à la robustesse de leurs protocoles de sécurité, la plupart des produits ont montré des défenses faibles lorsqu'ils ont été confrontés à des scénarios impliquant des mineurs planifiant des attaques violentes.
Sur les 18 scénarios à haut risque prédéfinis, Claude d’Anthropic a été le seul modèle à refuser systématiquement et de manière fiable de se conformer. En revanche, la plupart des autres chatbots n’ont pas su identifier correctement les signes avant-coureurs évidents de violence. Dans certains cas, ils ont même donné des conseils spécifiques sur le choix des cibles, la préparation des armes et l’élaboration de plans d’action. Par exemple, certains modèles ont fourni des liens vers des plans de campus à l’utilisateur simulé ou suggéré des méthodes plus meurtrières lors de discussions sur les détails de l’attaque.
Le rapport a mis en avant des plateformes telles que Character.AI en raison de leurs risques de sécurité particuliers. En permettant aux utilisateurs d’engager des conversations immersives avec des personnages personnalisés, certains de ces personnages ont non seulement aidé à planifier les détails, mais ont également adopté un ton activement encourageant envers les comportements violents. Alors que les entreprises concernées ont réagi en soulignant la nature fictive du contenu et la présence de clauses de non-responsabilité, cette forme d’encouragement indirect par le biais d’interactions personnalisées a intensifié les inquiétudes de la société concernant la santé mentale des adolescents.
En réponse à cette défaillance systémique, des entreprises telles que Meta, Google et OpenAI ont déclaré avoir publié de nouveaux modèles ou mis en œuvre des correctifs afin d’améliorer continuellement les mesures de sécurité. Cependant, les performances de Claude prouvent que des mécanismes de sécurité efficaces sont techniquement réalisables, ce qui incite les législateurs et les régulateurs à réévaluer les normes de sécurité du secteur de l’IA. Alors que les affaires judiciaires liées à ce sujet se multiplient, le défi urgent pour les géants mondiaux de la technologie consiste à mettre en œuvre et à maintenir de manière authentique des mesures de protection efficaces tout en poursuivant l’amélioration des performances des modèles et l’accélération de leur commercialisation.
iOS 27 lancera une application Siri autonome dotée d'une interface de chatbot
À moins d'un mois de la Conférence mondiale des développeurs (WWDC) 2026 d'Apple, le célèbre journaliste spécialisé dans les technologies Mark Gurman a dévoilé de nouvelles informations conc
Les experts en IA entrent en scène : les grands modèles envahissent les usines, la fabrication industrielle entre dans une nouvelle ère
À la pointe de la fermentation biologique, de la conception architecturale et même du traitement des eaux usées, un nouveau type d’« employé » est en train de transformer discrètement l’industrie manu
Google Photos redonne vie à la garde-robe emblématique de « Clueless » grâce à l'IA
Google Photos a annoncé mercredi une nouvelle fonctionnalité basée sur l'IA qui permettra bientôt de transformer les photos de vos vêtements en une garde-robe numérique, vous permettant ainsi de créer











