Hogar
La violación de la privacidad de CAMIA deja al descubierto los datos memorizados de modelos de inteligencia artificial
Un nuevo e innovador ataque a la privacidad pone al descubierto vulnerabilidades al detectar si se han utilizado datos personales para entrenar sistemas de IA.
Desarrollado conjuntamente por investigadores de Brave y de la Universidad Nacional de Singapur, CAMIA (Context-Aware Membership Inference Attack) supera con creces los métodos anteriores para analizar la memoria de los modelos de IA.
La industria de la IA se enfrenta a una creciente preocupación por la "memorización de datos", en la que los modelos retienen involuntariamente información de entrenamiento sensible. La IA sanitaria podría revelar historiales de pacientes, mientras que los modelos entrenados para empresas podrían regurgitar correos electrónicos confidenciales.
Acontecimientos recientes como los planes de LinkedIn de utilizar los datos de los usuarios para el entrenamiento de la IA han intensificado los debates sobre la privacidad, poniendo de relieve los riesgos potenciales de que aparezca información sensible en el contenido generado.
Los profesionales de la seguridad emplean Ataques de Inferencia de Membresía (MIA) para detectar fugas de datos. Estas pruebas esencialmente preguntan a los modelos: "¿Este ejemplo concreto formaba parte de tu formación?". Los ataques exitosos confirman peligrosas violaciones de la privacidad.
El principio se basa en que los modelos procesan los datos de entrenamiento conocidos de forma diferente a la información nueva: los MIA explotan estas diferencias de comportamiento de forma sistemática.
Los MIA tradicionales resultaron ineficaces contra la IA generativa moderna porque se diseñaron para modelos de clasificación más sencillos. Los grandes modelos lingüísticos generan texto de forma secuencial, por lo que las evaluaciones holísticas resultan inadecuadas para detectar filtraciones.
La innovación de CAMIA reconoce que la memorización de la IA depende del contexto. Los modelos recurren más al contenido memorizado cuando no están seguros de las respuestas posteriores.
Pensemos en la frase "Harry Potter está... escrito por... El mundo de Harry..." - los modelos predicen fácilmente "Potter" gracias a pistas contextuales más que a la memorización.

Sin embargo, si sólo se dice "Harry", para predecir "Potter" hay que memorizar los datos de entrenamiento. Las predicciones de alta fiabilidad en contextos ambiguos indican claramente que se ha memorizado el contenido.
CAMIA representa el primer ataque a la privacidad diseñado específicamente para la IA generativa. Realiza un seguimiento de las fluctuaciones de incertidumbre durante la generación de texto, distinguiendo entre la adivinación contextual y la memorización real.
Las pruebas realizadas en los parámetros MIMIR con los modelos Pythia y GPT-Neo arrojaron resultados impresionantes. Frente a un modelo Pythia de 2,8 mil millones de parámetros, CAMIA casi duplicó la precisión de detección, manteniendo una tasa mínima de falsos positivos del 1%.
El ataque funciona de forma eficiente: procesar 1.000 muestras lleva aproximadamente 38 minutos en una GPU A100, lo que lo hace viable para la auditoría práctica de modelos.
Esta investigación subraya los riesgos para la privacidad inherentes al entrenamiento de modelos masivos en conjuntos de datos no verificados. El objetivo del equipo es promover técnicas de preservación de la privacidad que equilibren la utilidad de la IA con la protección del usuario.
Véase también: Samsung evalúa la productividad real de los modelos empresariales de IA

Explore los avances de la IA y los macrodatos en la AI & Big Data Expo de Ámsterdam, California y Londres. Este evento afiliado a TechEx ofrece información exhaustiva junto con las principales conferencias tecnológicas.
TechForge Media pone a su disposición AI News. Descubra los próximos eventos y seminarios web sobre tecnología empresarial.
Artículo relacionado
Meta se enfrenta a una demanda por la privacidad de sus gafas con IA, ya que, según se informa, algunos empleados vieron contenido explícito
Meta se enfrenta a una nueva demanda relacionada con cuestiones de privacidad en torno a sus gafas inteligentes con IA. Según una investigación realizada por varios periódicos suecos, los trabajadores
Sam Altman, de OpenAI, declara el amanecer de la era de la superinteligencia.
El director ejecutivo de OpenAI, Sam Altman, ha anunciado que la humanidad ha entrado en la era de la superinteligencia artificial y que ya no hay vuelta atrás.«Hemos pasado el punto de no retorno; el
El auge de la IA recuerda las preocupaciones sobre la burbuja de la era puntocom
La afluencia de inversiones multimillonarias en IA ha alimentado un acalorado debate: ¿se encamina la industria hacia una burbuja similar a la de las puntocom?Los inversores están atentos a cualquier
Recomendaciones de temas especiales relacionados
comentario (3)
0/500
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔
Un nuevo e innovador ataque a la privacidad pone al descubierto vulnerabilidades al detectar si se han utilizado datos personales para entrenar sistemas de IA.
Desarrollado conjuntamente por investigadores de Brave y de la Universidad Nacional de Singapur, CAMIA (Context-Aware Membership Inference Attack) supera con creces los métodos anteriores para analizar la memoria de los modelos de IA.
La industria de la IA se enfrenta a una creciente preocupación por la "memorización de datos", en la que los modelos retienen involuntariamente información de entrenamiento sensible. La IA sanitaria podría revelar historiales de pacientes, mientras que los modelos entrenados para empresas podrían regurgitar correos electrónicos confidenciales.
Acontecimientos recientes como los planes de LinkedIn de utilizar los datos de los usuarios para el entrenamiento de la IA han intensificado los debates sobre la privacidad, poniendo de relieve los riesgos potenciales de que aparezca información sensible en el contenido generado.
Los profesionales de la seguridad emplean Ataques de Inferencia de Membresía (MIA) para detectar fugas de datos. Estas pruebas esencialmente preguntan a los modelos: "¿Este ejemplo concreto formaba parte de tu formación?". Los ataques exitosos confirman peligrosas violaciones de la privacidad.
El principio se basa en que los modelos procesan los datos de entrenamiento conocidos de forma diferente a la información nueva: los MIA explotan estas diferencias de comportamiento de forma sistemática.
Los MIA tradicionales resultaron ineficaces contra la IA generativa moderna porque se diseñaron para modelos de clasificación más sencillos. Los grandes modelos lingüísticos generan texto de forma secuencial, por lo que las evaluaciones holísticas resultan inadecuadas para detectar filtraciones.
La innovación de CAMIA reconoce que la memorización de la IA depende del contexto. Los modelos recurren más al contenido memorizado cuando no están seguros de las respuestas posteriores.
Pensemos en la frase "Harry Potter está... escrito por... El mundo de Harry..." - los modelos predicen fácilmente "Potter" gracias a pistas contextuales más que a la memorización.

Sin embargo, si sólo se dice "Harry", para predecir "Potter" hay que memorizar los datos de entrenamiento. Las predicciones de alta fiabilidad en contextos ambiguos indican claramente que se ha memorizado el contenido.
CAMIA representa el primer ataque a la privacidad diseñado específicamente para la IA generativa. Realiza un seguimiento de las fluctuaciones de incertidumbre durante la generación de texto, distinguiendo entre la adivinación contextual y la memorización real.
Las pruebas realizadas en los parámetros MIMIR con los modelos Pythia y GPT-Neo arrojaron resultados impresionantes. Frente a un modelo Pythia de 2,8 mil millones de parámetros, CAMIA casi duplicó la precisión de detección, manteniendo una tasa mínima de falsos positivos del 1%.
El ataque funciona de forma eficiente: procesar 1.000 muestras lleva aproximadamente 38 minutos en una GPU A100, lo que lo hace viable para la auditoría práctica de modelos.
Esta investigación subraya los riesgos para la privacidad inherentes al entrenamiento de modelos masivos en conjuntos de datos no verificados. El objetivo del equipo es promover técnicas de preservación de la privacidad que equilibren la utilidad de la IA con la protección del usuario.
Véase también: Samsung evalúa la productividad real de los modelos empresariales de IA

Explore los avances de la IA y los macrodatos en la AI & Big Data Expo de Ámsterdam, California y Londres. Este evento afiliado a TechEx ofrece información exhaustiva junto con las principales conferencias tecnológicas.
TechForge Media pone a su disposición AI News. Descubra los próximos eventos y seminarios web sobre tecnología empresarial.
Meta se enfrenta a una demanda por la privacidad de sus gafas con IA, ya que, según se informa, algunos empleados vieron contenido explícito
Meta se enfrenta a una nueva demanda relacionada con cuestiones de privacidad en torno a sus gafas inteligentes con IA. Según una investigación realizada por varios periódicos suecos, los trabajadores
El auge de la IA recuerda las preocupaciones sobre la burbuja de la era puntocom
La afluencia de inversiones multimillonarias en IA ha alimentado un acalorado debate: ¿se encamina la industria hacia una burbuja similar a la de las puntocom?Los inversores están atentos a cualquier
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔











