Дом
Запомненные данные моделей искусственного интеллекта раскрыты в результате нарушения конфиденциальности CAMIA
Новая революционная атака на конфиденциальность выявляет уязвимости, определяя, использовались ли личные данные для обучения систем искусственного интеллекта.
Атака CAMIA (Context-Aware Membership Inference Attack), разработанная совместно исследователями Brave и Национального университета Сингапура, значительно превосходит предыдущие методы анализа памяти моделей ИИ.
Индустрия ИИ сталкивается с растущей обеспокоенностью по поводу "запоминания данных", когда модели непреднамеренно сохраняют конфиденциальную учебную информацию. ИИ в здравоохранении может раскрыть записи пациентов, а модели, обученные в корпорациях, могут запомнить конфиденциальную электронную почту.
Недавние события, такие как планы LinkedIn по использованию пользовательских данных для обучения ИИ, обострили споры о конфиденциальности, подчеркнув потенциальные риски появления конфиденциальной информации в генерируемом контенте.
Для обнаружения утечек данных специалисты по безопасности применяют атаки на членские выводы (MIA). Эти тесты, по сути, спрашивают модели: "Был ли этот конкретный пример частью вашего обучения?". Успешные атаки подтверждают опасные нарушения конфиденциальности.
Принцип заключается в том, что модели обрабатывают знакомые учебные данные иначе, чем новую информацию, и MIA систематически используют эти различия в поведении.
Традиционные MIA оказались неэффективны против современного генеративного ИИ, поскольку были разработаны для более простых моделей классификации. Большие языковые модели генерируют текст последовательно, что делает целостную оценку неадекватной для выявления утечек.
Инновация CAMIA признает, что запоминание ИИ зависит от контекста. Модели больше всего полагаются на запомненный контент, когда не уверены в последующих ответах.
Рассмотрим фразу "Гарри Поттер... написан... Мир Гарри..." - Модели легко предсказывают слово "Поттер" благодаря контекстуальным подсказкам, а не запоминанию.

Однако, если речь идет только о "Гарри", для предсказания "Поттера" требуется фактическое запоминание обучающих данных. Высокое доверие к предсказаниям в неоднозначных контекстах убедительно свидетельствует о заученном контенте.
CAMIA представляет собой первую атаку на конфиденциальность, разработанную специально для генеративного ИИ. Она отслеживает колебания неопределенности во время генерации текста, различая контекстуальное угадывание и реальное запоминание.
Тестирование на бенчмарках MIMIR с моделями Pythia и GPT-Neo дало впечатляющие результаты. В сравнении с моделью Pythia с параметрами 2,8 Б, CAMIA почти удвоила точность обнаружения, сохранив при этом минимальный коэффициент ложных срабатываний в 1%.
Атака работает эффективно - обработка 1000 образцов занимает около 38 минут на графическом процессоре A100, что делает ее пригодной для практического аудита моделей.
Это исследование подчеркивает риски конфиденциальности, присущие обучению массивных моделей на непроверенных наборах данных. Команда стремится продвигать методы сохранения приватности, которые позволяют сбалансировать полезность ИИ и защиту пользователей.
См. также: Samsung оценивает реальную производительность корпоративных моделей ИИ

Познакомьтесь с достижениями в области ИИ и больших данных на выставке AI & Big Data Expo в Амстердаме, Калифорнии и Лондоне. Это мероприятие, организованное TechEx, предлагает всестороннюю информацию наряду с ведущими технологическими конференциями.
Новости об искусственном интеллекте предоставляются компанией TechForge Media. Узнайте о предстоящих мероприятиях и вебинарах по корпоративным технологиям.
Связанная статья
На Meta подали иск в связи с нарушением конфиденциальности при использовании очков с ИИ: по сообщениям, сотрудники просматривали контент с откровенными сценами
Компания Meta столкнулась с новым судебным иском, связанным с нарушением конфиденциальности при использовании ее умных очков с искусственным интеллектом. Согласно расследованию шведских газет, сотрудн
Сэм Альтман из OpenAI объявляет о наступлении эры сверхинтеллекта
Генеральный директор OpenAI Сэм Альтман объявил, что человечество вступило в эру искусственного сверхразума, и пути назад уже нет.«Мы прошли точку невозврата; восхождение началось, — говорит Альтман.
Бум искусственного интеллекта вызывает опасения, напоминающие пузырь эпохи доткомов
Приток многомиллиардных инвестиций в искусственный интеллект вызвал бурную дискуссию: не грозит ли отрасли пузырь, подобный тому, что был в сфере интернет-компаний?Инвесторы внимательно следят за любы
Рекомендации по связанным специальным темам
Комментарии (3)
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔
Новая революционная атака на конфиденциальность выявляет уязвимости, определяя, использовались ли личные данные для обучения систем искусственного интеллекта.
Атака CAMIA (Context-Aware Membership Inference Attack), разработанная совместно исследователями Brave и Национального университета Сингапура, значительно превосходит предыдущие методы анализа памяти моделей ИИ.
Индустрия ИИ сталкивается с растущей обеспокоенностью по поводу "запоминания данных", когда модели непреднамеренно сохраняют конфиденциальную учебную информацию. ИИ в здравоохранении может раскрыть записи пациентов, а модели, обученные в корпорациях, могут запомнить конфиденциальную электронную почту.
Недавние события, такие как планы LinkedIn по использованию пользовательских данных для обучения ИИ, обострили споры о конфиденциальности, подчеркнув потенциальные риски появления конфиденциальной информации в генерируемом контенте.
Для обнаружения утечек данных специалисты по безопасности применяют атаки на членские выводы (MIA). Эти тесты, по сути, спрашивают модели: "Был ли этот конкретный пример частью вашего обучения?". Успешные атаки подтверждают опасные нарушения конфиденциальности.
Принцип заключается в том, что модели обрабатывают знакомые учебные данные иначе, чем новую информацию, и MIA систематически используют эти различия в поведении.
Традиционные MIA оказались неэффективны против современного генеративного ИИ, поскольку были разработаны для более простых моделей классификации. Большие языковые модели генерируют текст последовательно, что делает целостную оценку неадекватной для выявления утечек.
Инновация CAMIA признает, что запоминание ИИ зависит от контекста. Модели больше всего полагаются на запомненный контент, когда не уверены в последующих ответах.
Рассмотрим фразу "Гарри Поттер... написан... Мир Гарри..." - Модели легко предсказывают слово "Поттер" благодаря контекстуальным подсказкам, а не запоминанию.

Однако, если речь идет только о "Гарри", для предсказания "Поттера" требуется фактическое запоминание обучающих данных. Высокое доверие к предсказаниям в неоднозначных контекстах убедительно свидетельствует о заученном контенте.
CAMIA представляет собой первую атаку на конфиденциальность, разработанную специально для генеративного ИИ. Она отслеживает колебания неопределенности во время генерации текста, различая контекстуальное угадывание и реальное запоминание.
Тестирование на бенчмарках MIMIR с моделями Pythia и GPT-Neo дало впечатляющие результаты. В сравнении с моделью Pythia с параметрами 2,8 Б, CAMIA почти удвоила точность обнаружения, сохранив при этом минимальный коэффициент ложных срабатываний в 1%.
Атака работает эффективно - обработка 1000 образцов занимает около 38 минут на графическом процессоре A100, что делает ее пригодной для практического аудита моделей.
Это исследование подчеркивает риски конфиденциальности, присущие обучению массивных моделей на непроверенных наборах данных. Команда стремится продвигать методы сохранения приватности, которые позволяют сбалансировать полезность ИИ и защиту пользователей.
См. также: Samsung оценивает реальную производительность корпоративных моделей ИИ

Познакомьтесь с достижениями в области ИИ и больших данных на выставке AI & Big Data Expo в Амстердаме, Калифорнии и Лондоне. Это мероприятие, организованное TechEx, предлагает всестороннюю информацию наряду с ведущими технологическими конференциями.
Новости об искусственном интеллекте предоставляются компанией TechForge Media. Узнайте о предстоящих мероприятиях и вебинарах по корпоративным технологиям.
На Meta подали иск в связи с нарушением конфиденциальности при использовании очков с ИИ: по сообщениям, сотрудники просматривали контент с откровенными сценами
Компания Meta столкнулась с новым судебным иском, связанным с нарушением конфиденциальности при использовании ее умных очков с искусственным интеллектом. Согласно расследованию шведских газет, сотрудн
Бум искусственного интеллекта вызывает опасения, напоминающие пузырь эпохи доткомов
Приток многомиллиардных инвестиций в искусственный интеллект вызвал бурную дискуссию: не грозит ли отрасли пузырь, подобный тому, что был в сфере интернет-компаний?Инвесторы внимательно следят за любы
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔











