Datenschutzverstoß bei CAMIA: Gespeicherte Daten von KI-Modellen offengelegt
Ein bahnbrechender neuer Angriff auf die Privatsphäre deckt Schwachstellen auf, indem er erkennt, ob persönliche Daten zum Training von KI-Systemen verwendet wurden.
CAMIA (Context-Aware Membership Inference Attack) wurde gemeinsam von Forschern von Brave und der National University of Singapore entwickelt und übertrifft bisherige Methoden zur Analyse des KI-Modellspeichers deutlich.
In der KI-Branche wächst die Besorgnis über die "Datenspeicherung", bei der Modelle unbeabsichtigt sensible Trainingsinformationen speichern. KI im Gesundheitswesen könnte Patientendaten offenlegen, während in Unternehmen trainierte Modelle vertrauliche E-Mails ausspucken könnten.
Jüngste Entwicklungen wie die Pläne von LinkedIn, Nutzerdaten für das KI-Training zu nutzen, haben die Datenschutzdebatte verschärft und die potenziellen Risiken von sensiblen Informationen in generierten Inhalten aufgezeigt.
Sicherheitsexperten setzen Membership Inference Attacks (MIAs) ein, um Datenlecks zu erkennen. Bei diesen Tests werden die Modelle im Wesentlichen gefragt: "War dieses spezifische Beispiel Teil deiner Ausbildung?" Erfolgreiche Angriffe bestätigen gefährliche Datenschutzverstöße.
Das Prinzip beruht darauf, dass Modelle vertraute Trainingsdaten anders verarbeiten als neue Informationen - MIAs nutzen diese Verhaltensunterschiede systematisch aus.
Herkömmliche MIAs erwiesen sich als unwirksam gegen moderne generative KI, da sie für einfachere Klassifizierungsmodelle entwickelt wurden. Große Sprachmodelle generieren Text sequentiell, so dass ganzheitliche Auswertungen zum Aufspüren von Lecks ungeeignet sind.
Die Innovation von CAMIA erkennt an, dass die KI-Erinnerung vom Kontext abhängt. Modelle verlassen sich vor allem dann auf gespeicherte Inhalte, wenn sie sich über die nachfolgenden Antworten nicht sicher sind.
Nehmen wir den Satz "Harry Potter ist... geschrieben von... Die Welt von Harry..." - Modelle können "Potter" leicht durch kontextbezogene Hinweise und nicht durch Auswendiglernen vorhersagen.

Die Vorhersage von "Potter" erfordert jedoch bei dem Satz "Harry" das Auswendiglernen von Trainingsdaten. Vorhersagen mit hoher Konfidenz in mehrdeutigen Kontexten weisen stark auf auswendig gelernte Inhalte hin.
CAMIA ist der erste Angriff auf die Privatsphäre, der speziell für generative KI entwickelt wurde. Es verfolgt Unsicherheitsschwankungen während der Texterzeugung und unterscheidet zwischen kontextbezogenem Raten und echtem Abruf.
Tests auf MIMIR-Benchmarks mit Pythia- und GPT-Neo-Modellen ergaben beeindruckende Ergebnisse. Im Vergleich zu einem Pythia-Modell mit 2,8 B-Parametern konnte CAMIA die Erkennungsgenauigkeit fast verdoppeln und gleichzeitig eine minimale Falsch-Positiv-Rate von 1 % beibehalten.
Der Angriff arbeitet effizient - die Verarbeitung von 1.000 Stichproben dauert etwa 38 Minuten auf einem A100-Grafikprozessor, was ihn für die praktische Modellprüfung brauchbar macht.
Diese Forschung unterstreicht die Risiken für die Privatsphäre, die mit dem Training umfangreicher Modelle auf nicht überprüften Datensätzen verbunden sind. Das Team möchte datenschutzfreundliche Techniken fördern, die den Nutzen der KI mit dem Schutz der Nutzer in Einklang bringen.
Siehe auch: Samsung testet die tatsächliche Produktivität von KI-Modellen in Unternehmen

Erkunden Sie die Fortschritte in den Bereichen KI und Big Data auf der AI & Big Data Expo in Amsterdam, Kalifornien und London. Diese TechEx angegliederte Veranstaltung bietet neben führenden Technologiekonferenzen umfassende Einblicke.
AI News wird Ihnen von TechForge Media zur Verfügung gestellt. Entdecken Sie kommende Veranstaltungen und Webinare im Bereich Unternehmenstechnologie.
Verwandter Artikel
Meta sieht sich mit einer Klage wegen Datenschutzbedenken bei KI-Brillen konfrontiert, da Mitarbeiter Berichten zufolge explizite Inhalte angesehen haben sollen
Meta sieht sich einer neuen Klage wegen Datenschutzbedenken im Zusammenhang mit seiner KI-Smartbrille gegenüber. Laut einer Untersuchung schwedischer Zeitungen haben Mitarbeiter eines in Kenia ansässi
Sam Altman von OpenAI verkündet den Beginn des Zeitalters der Superintelligenz
Sam Altman, CEO von OpenAI, hat verkündet, dass die Menschheit in das Zeitalter der künstlichen Superintelligenz eingetreten ist und es kein Zurück mehr gibt.„Wir haben den Punkt erreicht, an dem es k
Der KI-Boom weckt Erinnerungen an die Dotcom-Blase
Der Zufluss von Investitionen in Höhe von mehreren Milliarden Dollar in KI hat eine hitzige Debatte ausgelöst: Steuert die Branche auf eine Blase im Stil der Dotcom-Ära zu?Investoren beobachten aufmer
Empfehlungen zu verwandten Spezialthemen
Kommentare (3)
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔
Ein bahnbrechender neuer Angriff auf die Privatsphäre deckt Schwachstellen auf, indem er erkennt, ob persönliche Daten zum Training von KI-Systemen verwendet wurden.
CAMIA (Context-Aware Membership Inference Attack) wurde gemeinsam von Forschern von Brave und der National University of Singapore entwickelt und übertrifft bisherige Methoden zur Analyse des KI-Modellspeichers deutlich.
In der KI-Branche wächst die Besorgnis über die "Datenspeicherung", bei der Modelle unbeabsichtigt sensible Trainingsinformationen speichern. KI im Gesundheitswesen könnte Patientendaten offenlegen, während in Unternehmen trainierte Modelle vertrauliche E-Mails ausspucken könnten.
Jüngste Entwicklungen wie die Pläne von LinkedIn, Nutzerdaten für das KI-Training zu nutzen, haben die Datenschutzdebatte verschärft und die potenziellen Risiken von sensiblen Informationen in generierten Inhalten aufgezeigt.
Sicherheitsexperten setzen Membership Inference Attacks (MIAs) ein, um Datenlecks zu erkennen. Bei diesen Tests werden die Modelle im Wesentlichen gefragt: "War dieses spezifische Beispiel Teil deiner Ausbildung?" Erfolgreiche Angriffe bestätigen gefährliche Datenschutzverstöße.
Das Prinzip beruht darauf, dass Modelle vertraute Trainingsdaten anders verarbeiten als neue Informationen - MIAs nutzen diese Verhaltensunterschiede systematisch aus.
Herkömmliche MIAs erwiesen sich als unwirksam gegen moderne generative KI, da sie für einfachere Klassifizierungsmodelle entwickelt wurden. Große Sprachmodelle generieren Text sequentiell, so dass ganzheitliche Auswertungen zum Aufspüren von Lecks ungeeignet sind.
Die Innovation von CAMIA erkennt an, dass die KI-Erinnerung vom Kontext abhängt. Modelle verlassen sich vor allem dann auf gespeicherte Inhalte, wenn sie sich über die nachfolgenden Antworten nicht sicher sind.
Nehmen wir den Satz "Harry Potter ist... geschrieben von... Die Welt von Harry..." - Modelle können "Potter" leicht durch kontextbezogene Hinweise und nicht durch Auswendiglernen vorhersagen.

Die Vorhersage von "Potter" erfordert jedoch bei dem Satz "Harry" das Auswendiglernen von Trainingsdaten. Vorhersagen mit hoher Konfidenz in mehrdeutigen Kontexten weisen stark auf auswendig gelernte Inhalte hin.
CAMIA ist der erste Angriff auf die Privatsphäre, der speziell für generative KI entwickelt wurde. Es verfolgt Unsicherheitsschwankungen während der Texterzeugung und unterscheidet zwischen kontextbezogenem Raten und echtem Abruf.
Tests auf MIMIR-Benchmarks mit Pythia- und GPT-Neo-Modellen ergaben beeindruckende Ergebnisse. Im Vergleich zu einem Pythia-Modell mit 2,8 B-Parametern konnte CAMIA die Erkennungsgenauigkeit fast verdoppeln und gleichzeitig eine minimale Falsch-Positiv-Rate von 1 % beibehalten.
Der Angriff arbeitet effizient - die Verarbeitung von 1.000 Stichproben dauert etwa 38 Minuten auf einem A100-Grafikprozessor, was ihn für die praktische Modellprüfung brauchbar macht.
Diese Forschung unterstreicht die Risiken für die Privatsphäre, die mit dem Training umfangreicher Modelle auf nicht überprüften Datensätzen verbunden sind. Das Team möchte datenschutzfreundliche Techniken fördern, die den Nutzen der KI mit dem Schutz der Nutzer in Einklang bringen.
Siehe auch: Samsung testet die tatsächliche Produktivität von KI-Modellen in Unternehmen

Erkunden Sie die Fortschritte in den Bereichen KI und Big Data auf der AI & Big Data Expo in Amsterdam, Kalifornien und London. Diese TechEx angegliederte Veranstaltung bietet neben führenden Technologiekonferenzen umfassende Einblicke.
AI News wird Ihnen von TechForge Media zur Verfügung gestellt. Entdecken Sie kommende Veranstaltungen und Webinare im Bereich Unternehmenstechnologie.
Meta sieht sich mit einer Klage wegen Datenschutzbedenken bei KI-Brillen konfrontiert, da Mitarbeiter Berichten zufolge explizite Inhalte angesehen haben sollen
Meta sieht sich einer neuen Klage wegen Datenschutzbedenken im Zusammenhang mit seiner KI-Smartbrille gegenüber. Laut einer Untersuchung schwedischer Zeitungen haben Mitarbeiter eines in Kenia ansässi
Der KI-Boom weckt Erinnerungen an die Dotcom-Blase
Der Zufluss von Investitionen in Höhe von mehreren Milliarden Dollar in KI hat eine hitzige Debatte ausgelöst: Steuert die Branche auf eine Blase im Stil der Dotcom-Ära zu?Investoren beobachten aufmer
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔





Heim






