Maison
Les données mémorisées des modèles d'IA exposées dans la violation de la vie privée de CAMIA
Une nouvelle attaque révolutionnaire en matière de protection de la vie privée met en évidence les vulnérabilités en détectant si des données personnelles ont été utilisées pour former des systèmes d'intelligence artificielle.
Développée conjointement par Brave et des chercheurs de l'Université nationale de Singapour, CAMIA (Context-Aware Membership Inference Attack) est nettement plus performante que les méthodes précédentes d'analyse de la mémoire des modèles d'IA.
Le secteur de l'IA est de plus en plus préoccupé par la "mémorisation des données", c'est-à-dire par le fait que les modèles conservent involontairement des informations de formation sensibles. L'IA dans le domaine de la santé pourrait divulguer des dossiers de patients, tandis que les modèles formés par les entreprises pourraient régurgiter des courriels confidentiels.
Des développements récents, comme le projet de LinkedIn d'utiliser les données des utilisateurs pour la formation à l'IA, ont intensifié les débats sur la protection de la vie privée, soulignant les risques potentiels d'apparition d'informations sensibles dans le contenu généré.
Les professionnels de la sécurité utilisent des attaques par inférence d'appartenance (MIA) pour détecter les fuites de données. Ces tests posent essentiellement la question suivante aux modèles : "Cet exemple spécifique faisait-il partie de votre formation ?" Les attaques réussies confirment les violations dangereuses de la vie privée.
Le principe découle du fait que les modèles traitent les données d'entraînement familières différemment des nouvelles informations - les attaques par inférence exploitent systématiquement ces différences de comportement.
Les MIA traditionnels se sont révélés inefficaces contre l'IA générative moderne parce qu'ils ont été conçus pour des modèles de classification plus simples. Les grands modèles de langage génèrent du texte de manière séquentielle, ce qui rend les évaluations holistiques inadéquates pour repérer les fuites.
L'innovation de CAMIA reconnaît que la mémorisation de l'IA dépend du contexte. Les modèles s'appuient davantage sur le contenu mémorisé lorsqu'ils sont incertains des réponses ultérieures.
Prenons l'exemple de la phrase "Harry Potter est... écrit par... Le monde de Harry..." - les modèles prédisent facilement "Potter" grâce à des indices contextuels plutôt qu'à la mémorisation.

Cependant, si l'on se limite à "Harry", la prédiction de "Potter" nécessite la mémorisation des données d'entraînement. Des prédictions très fiables dans des contextes ambigus indiquent clairement que le contenu a été mémorisé.
CAMIA représente la première attaque contre la vie privée conçue spécifiquement pour l'IA générative. Elle suit les fluctuations de l'incertitude pendant la génération du texte, en faisant la distinction entre la devinette contextuelle et le véritable rappel.
Les tests sur les repères MIMIR avec les modèles Pythia et GPT-Neo ont donné des résultats impressionnants. Par rapport à un modèle Pythia de 2,8 milliards de paramètres, CAMIA a presque doublé la précision de détection tout en maintenant un taux de faux positifs minimal de 1 %.
L'attaque fonctionne efficacement - le traitement de 1 000 échantillons prend environ 38 minutes sur un GPU A100, ce qui la rend viable pour un audit de modèle pratique.
Cette recherche souligne les risques pour la vie privée inhérents à l'entraînement de modèles massifs sur des ensembles de données non validés. L'équipe vise à promouvoir des techniques de préservation de la vie privée qui concilient l'utilité de l'IA et la protection de l'utilisateur.
Voir aussi : Samsung évalue la productivité réelle des modèles d'IA d'entreprise

Explorez les avancées en matière d'IA et de big data à l'occasion de l'exposition AI & Big Data à Amsterdam, en Californie et à Londres. Cet événement affilié à TechEx offre des perspectives complètes en même temps que des conférences technologiques de premier plan.
AI News vous est présenté par TechForge Media. Découvrez les prochains événements et webinaires sur les technologies d'entreprise.
Article connexe
Meta fait l'objet d'une plainte concernant la confidentialité de ses lunettes connectées, des employés ayant apparemment visionné du contenu à caractère explicite
Meta fait l'objet d'une nouvelle action en justice concernant des problèmes de confidentialité liés à ses lunettes intelligentes dotées d'IA. Selon une enquête menée par des journaux suédois, des empl
Sam Altman, d'OpenAI, annonce l'avènement de l'ère de la superintelligence
Sam Altman, PDG d'OpenAI, a annoncé que l'humanité était entrée dans l'ère de la superintelligence artificielle et qu'il n'y avait plus de retour en arrière possible.« Nous av
Le boom de l'IA fait écho aux inquiétudes liées à la bulle Internet
L'afflux d'investissements de plusieurs milliards de dollars dans l'IA a alimenté un débat houleux : le secteur se dirige-t-il vers une bulle spéculative similaire à celle des dot-com ?Les investisseu
Recommandations de sujets spéciaux liés
commentaires (3)
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔
Une nouvelle attaque révolutionnaire en matière de protection de la vie privée met en évidence les vulnérabilités en détectant si des données personnelles ont été utilisées pour former des systèmes d'intelligence artificielle.
Développée conjointement par Brave et des chercheurs de l'Université nationale de Singapour, CAMIA (Context-Aware Membership Inference Attack) est nettement plus performante que les méthodes précédentes d'analyse de la mémoire des modèles d'IA.
Le secteur de l'IA est de plus en plus préoccupé par la "mémorisation des données", c'est-à-dire par le fait que les modèles conservent involontairement des informations de formation sensibles. L'IA dans le domaine de la santé pourrait divulguer des dossiers de patients, tandis que les modèles formés par les entreprises pourraient régurgiter des courriels confidentiels.
Des développements récents, comme le projet de LinkedIn d'utiliser les données des utilisateurs pour la formation à l'IA, ont intensifié les débats sur la protection de la vie privée, soulignant les risques potentiels d'apparition d'informations sensibles dans le contenu généré.
Les professionnels de la sécurité utilisent des attaques par inférence d'appartenance (MIA) pour détecter les fuites de données. Ces tests posent essentiellement la question suivante aux modèles : "Cet exemple spécifique faisait-il partie de votre formation ?" Les attaques réussies confirment les violations dangereuses de la vie privée.
Le principe découle du fait que les modèles traitent les données d'entraînement familières différemment des nouvelles informations - les attaques par inférence exploitent systématiquement ces différences de comportement.
Les MIA traditionnels se sont révélés inefficaces contre l'IA générative moderne parce qu'ils ont été conçus pour des modèles de classification plus simples. Les grands modèles de langage génèrent du texte de manière séquentielle, ce qui rend les évaluations holistiques inadéquates pour repérer les fuites.
L'innovation de CAMIA reconnaît que la mémorisation de l'IA dépend du contexte. Les modèles s'appuient davantage sur le contenu mémorisé lorsqu'ils sont incertains des réponses ultérieures.
Prenons l'exemple de la phrase "Harry Potter est... écrit par... Le monde de Harry..." - les modèles prédisent facilement "Potter" grâce à des indices contextuels plutôt qu'à la mémorisation.

Cependant, si l'on se limite à "Harry", la prédiction de "Potter" nécessite la mémorisation des données d'entraînement. Des prédictions très fiables dans des contextes ambigus indiquent clairement que le contenu a été mémorisé.
CAMIA représente la première attaque contre la vie privée conçue spécifiquement pour l'IA générative. Elle suit les fluctuations de l'incertitude pendant la génération du texte, en faisant la distinction entre la devinette contextuelle et le véritable rappel.
Les tests sur les repères MIMIR avec les modèles Pythia et GPT-Neo ont donné des résultats impressionnants. Par rapport à un modèle Pythia de 2,8 milliards de paramètres, CAMIA a presque doublé la précision de détection tout en maintenant un taux de faux positifs minimal de 1 %.
L'attaque fonctionne efficacement - le traitement de 1 000 échantillons prend environ 38 minutes sur un GPU A100, ce qui la rend viable pour un audit de modèle pratique.
Cette recherche souligne les risques pour la vie privée inhérents à l'entraînement de modèles massifs sur des ensembles de données non validés. L'équipe vise à promouvoir des techniques de préservation de la vie privée qui concilient l'utilité de l'IA et la protection de l'utilisateur.
Voir aussi : Samsung évalue la productivité réelle des modèles d'IA d'entreprise

Explorez les avancées en matière d'IA et de big data à l'occasion de l'exposition AI & Big Data à Amsterdam, en Californie et à Londres. Cet événement affilié à TechEx offre des perspectives complètes en même temps que des conférences technologiques de premier plan.
AI News vous est présenté par TechForge Media. Découvrez les prochains événements et webinaires sur les technologies d'entreprise.
Meta fait l'objet d'une plainte concernant la confidentialité de ses lunettes connectées, des employés ayant apparemment visionné du contenu à caractère explicite
Meta fait l'objet d'une nouvelle action en justice concernant des problèmes de confidentialité liés à ses lunettes intelligentes dotées d'IA. Selon une enquête menée par des journaux suédois, des empl
Le boom de l'IA fait écho aux inquiétudes liées à la bulle Internet
L'afflux d'investissements de plusieurs milliards de dollars dans l'IA a alimenté un débat houleux : le secteur se dirige-t-il vers une bulle spéculative similaire à celle des dot-com ?Les investisseu
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔











