Dados memorizados de modelos de IA expostos na violação de privacidade da CAMIA
Um novo e inovador ataque à privacidade expõe vulnerabilidades ao detectar se dados pessoais foram usados para treinar sistemas de IA.
Desenvolvido em conjunto por pesquisadores da Brave e da Universidade Nacional de Cingapura, o CAMIA (Context-Aware Membership Inference Attack) supera significativamente os métodos anteriores de análise da memória do modelo de IA.
O setor de IA enfrenta preocupações crescentes com a "memorização de dados", em que os modelos retêm involuntariamente informações confidenciais de treinamento. A IA do setor de saúde pode divulgar registros de pacientes, enquanto modelos treinados por empresas podem regurgitar e-mails confidenciais.
Desenvolvimentos recentes, como os planos do LinkedIn de utilizar dados de usuários para treinamento de IA, intensificaram os debates sobre privacidade, destacando os possíveis riscos de informações confidenciais aparecerem no conteúdo gerado.
Os profissionais de segurança empregam ataques de inferência de membros (MIAs) para detectar vazamentos de dados. Esses testes basicamente perguntam aos modelos: "Esse exemplo específico fez parte do seu treinamento?" Ataques bem-sucedidos confirmam violações de privacidade perigosas.
O princípio decorre do fato de os modelos processarem dados de treinamento familiares de forma diferente das novas informações - os MIAs exploram sistematicamente essas diferenças de comportamento.
Os MIAs tradicionais se mostraram ineficazes contra a IA geradora moderna porque foram projetados para modelos de classificação mais simples. Grandes modelos de linguagem geram texto sequencialmente, tornando as avaliações holísticas inadequadas para detectar vazamentos.
A inovação da CAMIA reconhece que a memorização da IA depende do contexto. Os modelos dependem mais do conteúdo memorizado quando não têm certeza das respostas subsequentes.
Considere a frase "Harry Potter é... escrito por... O mundo de Harry..." - Os modelos preveem facilmente "Potter" por meio de pistas contextuais em vez de memorização.

No entanto, se for considerado apenas "Harry", a previsão de "Potter" exige a memorização real dos dados de treinamento. As previsões de alta confiança em contextos ambíguos indicam fortemente o conteúdo memorizado.
A CAMIA representa o primeiro ataque à privacidade projetado especificamente para IA generativa. Ele rastreia as flutuações de incerteza durante a geração de texto, distinguindo entre adivinhação contextual e recuperação genuína.
Os testes em benchmarks MIMIR com os modelos Pythia e GPT-Neo produziram resultados impressionantes. Contra um modelo Pythia de 2,8B parâmetros, a CAMIA quase dobrou a precisão da detecção, mantendo uma taxa mínima de 1% de falsos positivos.
O ataque opera de forma eficiente - o processamento de 1.000 amostras leva cerca de 38 minutos em uma GPU A100, o que o torna viável para a auditoria prática de modelos.
Essa pesquisa ressalta os riscos à privacidade inerentes ao treinamento de modelos maciços em conjuntos de dados não verificados. A equipe tem como objetivo promover técnicas de preservação da privacidade que equilibrem a utilidade da IA com a proteção do usuário.
Veja também: Samsung avalia a produtividade real dos modelos de IA corporativos

Explore os avanços da IA e do Big Data na AI & Big Data Expo em Amsterdã, Califórnia e Londres. Esse evento afiliado à TechEx oferece insights abrangentes juntamente com as principais conferências de tecnologia.
As notícias sobre IA são trazidas a você pela TechForge Media. Descubra os próximos eventos e webinars sobre tecnologia empresarial.
Artigo relacionado
Meta enfrenta processo judicial por questões de privacidade relacionadas aos óculos com IA, já que funcionários teriam visualizado conteúdo explícito
A Meta enfrenta um novo processo judicial relacionado a questões de privacidade envolvendo seus óculos inteligentes com IA. De acordo com uma investigação realizada por jornais suecos, funcionários de
Sam Altman, da OpenAI, declara o início da era da superinteligência
O CEO da OpenAI, Sam Altman, anunciou que a humanidade entrou na era da superinteligência artificial e que não há mais volta.“Passamos do ponto sem volta; a ascensão começou”, afirma Altman. “Estamos
O boom da IA ecoa as preocupações com a bolha da era das pontocom
O influxo de investimentos multimilionários em IA alimentou um debate acalorado: o setor está caminhando para uma bolha semelhante à das empresas ponto com?Os investidores estão atentos a qualquer arr
Recomendações de tópicos especiais relacionados
Comentários (3)
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔
Um novo e inovador ataque à privacidade expõe vulnerabilidades ao detectar se dados pessoais foram usados para treinar sistemas de IA.
Desenvolvido em conjunto por pesquisadores da Brave e da Universidade Nacional de Cingapura, o CAMIA (Context-Aware Membership Inference Attack) supera significativamente os métodos anteriores de análise da memória do modelo de IA.
O setor de IA enfrenta preocupações crescentes com a "memorização de dados", em que os modelos retêm involuntariamente informações confidenciais de treinamento. A IA do setor de saúde pode divulgar registros de pacientes, enquanto modelos treinados por empresas podem regurgitar e-mails confidenciais.
Desenvolvimentos recentes, como os planos do LinkedIn de utilizar dados de usuários para treinamento de IA, intensificaram os debates sobre privacidade, destacando os possíveis riscos de informações confidenciais aparecerem no conteúdo gerado.
Os profissionais de segurança empregam ataques de inferência de membros (MIAs) para detectar vazamentos de dados. Esses testes basicamente perguntam aos modelos: "Esse exemplo específico fez parte do seu treinamento?" Ataques bem-sucedidos confirmam violações de privacidade perigosas.
O princípio decorre do fato de os modelos processarem dados de treinamento familiares de forma diferente das novas informações - os MIAs exploram sistematicamente essas diferenças de comportamento.
Os MIAs tradicionais se mostraram ineficazes contra a IA geradora moderna porque foram projetados para modelos de classificação mais simples. Grandes modelos de linguagem geram texto sequencialmente, tornando as avaliações holísticas inadequadas para detectar vazamentos.
A inovação da CAMIA reconhece que a memorização da IA depende do contexto. Os modelos dependem mais do conteúdo memorizado quando não têm certeza das respostas subsequentes.
Considere a frase "Harry Potter é... escrito por... O mundo de Harry..." - Os modelos preveem facilmente "Potter" por meio de pistas contextuais em vez de memorização.

No entanto, se for considerado apenas "Harry", a previsão de "Potter" exige a memorização real dos dados de treinamento. As previsões de alta confiança em contextos ambíguos indicam fortemente o conteúdo memorizado.
A CAMIA representa o primeiro ataque à privacidade projetado especificamente para IA generativa. Ele rastreia as flutuações de incerteza durante a geração de texto, distinguindo entre adivinhação contextual e recuperação genuína.
Os testes em benchmarks MIMIR com os modelos Pythia e GPT-Neo produziram resultados impressionantes. Contra um modelo Pythia de 2,8B parâmetros, a CAMIA quase dobrou a precisão da detecção, mantendo uma taxa mínima de 1% de falsos positivos.
O ataque opera de forma eficiente - o processamento de 1.000 amostras leva cerca de 38 minutos em uma GPU A100, o que o torna viável para a auditoria prática de modelos.
Essa pesquisa ressalta os riscos à privacidade inerentes ao treinamento de modelos maciços em conjuntos de dados não verificados. A equipe tem como objetivo promover técnicas de preservação da privacidade que equilibrem a utilidade da IA com a proteção do usuário.
Veja também: Samsung avalia a produtividade real dos modelos de IA corporativos

Explore os avanços da IA e do Big Data na AI & Big Data Expo em Amsterdã, Califórnia e Londres. Esse evento afiliado à TechEx oferece insights abrangentes juntamente com as principais conferências de tecnologia.
As notícias sobre IA são trazidas a você pela TechForge Media. Descubra os próximos eventos e webinars sobre tecnologia empresarial.
Meta enfrenta processo judicial por questões de privacidade relacionadas aos óculos com IA, já que funcionários teriam visualizado conteúdo explícito
A Meta enfrenta um novo processo judicial relacionado a questões de privacidade envolvendo seus óculos inteligentes com IA. De acordo com uma investigação realizada por jornais suecos, funcionários de
O boom da IA ecoa as preocupações com a bolha da era das pontocom
O influxo de investimentos multimilionários em IA alimentou um debate acalorado: o setor está caminhando para uma bolha semelhante à das empresas ponto com?Os investidores estão atentos a qualquer arr
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔





Lar






