CAMIA 개인정보 유출로 노출된 AI 모델의 기억된 데이터
획기적인 새로운 개인정보 공격은 개인 데이터가 AI 시스템 학습에 사용되었는지 여부를 탐지하여 취약점을 노출시킵니다.
Brave와 싱가포르 국립대학교 연구진이 공동으로 개발한 CAMIA(컨텍스트 인식 멤버십 추론 공격)는 AI 모델 메모리를 분석하는 기존 방법보다 훨씬 뛰어난 성능을 발휘합니다.
AI 업계는 모델이 의도치 않게 민감한 학습 정보를 보유하게 되는 '데이터 암기'에 대한 우려가 커지고 있습니다. 의료 AI는 환자 기록을 공개할 수 있고, 기업에서 학습한 모델은 기밀 이메일을 역추적할 수 있습니다.
최근 LinkedIn에서 AI 학습에 사용자 데이터를 활용하려는 계획과 같이 개인정보 보호에 대한 논쟁이 심화되면서 생성된 콘텐츠에 민감한 정보가 포함될 수 있는 잠재적 위험이 부각되고 있습니다.
보안 전문가들은 데이터 유출을 탐지하기 위해 멤버십 추론 공격(MIA)을 사용합니다. 이러한 테스트는 기본적으로 모델에게 다음과 같이 질문합니다: "이 특정 사례가 교육에 포함되었나요?" 공격이 성공하면 위험한 개인정보 유출이 확인됩니다.
이 원리는 익숙한 학습 데이터를 새로운 정보와 다르게 처리하는 모델에서 비롯되며, MIA는 이러한 행동 차이를 체계적으로 악용합니다.
기존의 MIA는 단순한 분류 모델을 위해 설계되었기 때문에 최신 생성형 AI에는 효과가 없는 것으로 판명되었습니다. 대규모 언어 모델은 텍스트를 순차적으로 생성하기 때문에 전체적인 평가가 누출을 발견하는 데 부적절합니다.
CAMIA의 혁신은 AI 암기가 맥락에 따라 달라진다는 점을 인식합니다. 모델은 후속 반응이 불확실할 때 암기된 콘텐츠에 가장 많이 의존합니다.
"해리포터는...에 의해...쓰여진..."이라는 문구를 생각해 보십시오. 해리의 세계..." - 모델은 암기보다는 문맥적 단서를 통해 "포터"를 쉽게 예측합니다.

하지만 '해리'만 주어졌을 때 '포터'를 예측하려면 학습 데이터를 실제로 암기해야 합니다. 모호한 문맥에서 높은 신뢰도의 예측은 암기된 내용을 강력하게 나타냅니다.
CAMIA는 생성형 AI를 위해 특별히 설계된 최초의 프라이버시 공격입니다. 텍스트 생성 중 불확실성 변동을 추적하여 문맥에 따른 추측과 실제 기억을 구분합니다.
Pythia 및 GPT-Neo 모델을 사용하여 MIMIR 벤치마크에서 테스트한 결과 인상적인 결과를 얻었습니다. 28억 개의 파라미터를 가진 Pythia 모델에 대해 CAMIA는 최소 1%의 오탐률을 유지하면서 탐지 정확도를 거의 두 배로 높였습니다.
이 공격은 효율적으로 작동하여 A100 GPU에서 1,000개의 샘플을 처리하는 데 약 38분이 소요되어 실제 모델 감사에 사용할 수 있습니다.
이 연구는 검증되지 않은 데이터 세트에 대한 대규모 모델 훈련에 내재된 개인정보 보호 위험을 강조합니다. 연구팀은 AI의 유용성과 사용자 보호의 균형을 맞추는 개인정보 보호 기술을 장려하는 것을 목표로 하고 있습니다.
참조: 엔터프라이즈 AI 모델의 실제 생산성을 벤치마킹하는 삼성

암스테르담, 캘리포니아, 런던에서 열리는 AI & 빅 데이터 엑스포에서 AI와 빅 데이터의 발전을 살펴보세요. TechEx와 제휴한 이 행사는 주요 기술 컨퍼런스와 함께 포괄적인 인사이트를 제공합니다.
AI 뉴스는 TechForge Media에서 제공합니다. 예정된 엔터프라이즈 기술 이벤트와 웨비나를 알아보세요.
관련 기사
메타, 직원들이 노골적인 콘텐츠를 시청했다는 보도에 따라 AI 안경 개인정보 보호 문제로 소송에 직면
메타가 자사의 AI 스마트 안경과 관련된 개인정보 보호 문제로 새로운 소송에 직면했다. 스웨덴 언론의 취재에 따르면, 케냐에 기반을 둔 하청업체 직원들이 고객의 영상을 검토해 온 것으로 드러났다. 이 영상에는 나체, 성행위, 화장실 이용 장면 등 민감한 내용이 포함된 것으로 알려졌다.메타는 이미지의 얼굴을 흐리게 처리한다고 밝혔으나, 언론 보도에 따르면 이
오픈AI의 샘 알트먼, 초지능 시대의 도래 선언
오픈AI의 샘 알트만 최고경영자(CEO)는 인류가 인공 초지능 시대에 진입했으며 되돌릴 수 없다고 선언했다."우리는 되돌릴 수 없는 지점을 넘어섰으며, 상승이 시작됐다"고 알트먼은 말한다. "우리는 디지털 초지능을 창조하는 문턱에 서 있으며, 지금까지는 상상했던 것보다 놀랍게도 덜 낯설다."로봇이 아직 거리에서 흔히 보이지도 않고 질병도 여전히 존재하는 등
인공지능 붐, 닷컴 시대 버블 우려를 재현하다
인공지능(AI) 분야에 수십억 달러 규모의 투자가 쏟아지면서 뜨거운 논쟁이 벌어지고 있다: 이 산업이 닷컴 버블과 같은 거품 현상으로 치닫고 있는 것인가?투자자들은 열기가 식거나 칩 및 인프라에 대한 막대한 지출이 기대 수익을 내지 못하고 있다는 징후를 경계하고 있다. 최근 BofA 글로벌 리서치 설문조사에서 펀드 매니저의 54%가 AI 주식이 이미 버블
관련 특별 주제 추천
의견 (3)
0/500
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔
획기적인 새로운 개인정보 공격은 개인 데이터가 AI 시스템 학습에 사용되었는지 여부를 탐지하여 취약점을 노출시킵니다.
Brave와 싱가포르 국립대학교 연구진이 공동으로 개발한 CAMIA(컨텍스트 인식 멤버십 추론 공격)는 AI 모델 메모리를 분석하는 기존 방법보다 훨씬 뛰어난 성능을 발휘합니다.
AI 업계는 모델이 의도치 않게 민감한 학습 정보를 보유하게 되는 '데이터 암기'에 대한 우려가 커지고 있습니다. 의료 AI는 환자 기록을 공개할 수 있고, 기업에서 학습한 모델은 기밀 이메일을 역추적할 수 있습니다.
최근 LinkedIn에서 AI 학습에 사용자 데이터를 활용하려는 계획과 같이 개인정보 보호에 대한 논쟁이 심화되면서 생성된 콘텐츠에 민감한 정보가 포함될 수 있는 잠재적 위험이 부각되고 있습니다.
보안 전문가들은 데이터 유출을 탐지하기 위해 멤버십 추론 공격(MIA)을 사용합니다. 이러한 테스트는 기본적으로 모델에게 다음과 같이 질문합니다: "이 특정 사례가 교육에 포함되었나요?" 공격이 성공하면 위험한 개인정보 유출이 확인됩니다.
이 원리는 익숙한 학습 데이터를 새로운 정보와 다르게 처리하는 모델에서 비롯되며, MIA는 이러한 행동 차이를 체계적으로 악용합니다.
기존의 MIA는 단순한 분류 모델을 위해 설계되었기 때문에 최신 생성형 AI에는 효과가 없는 것으로 판명되었습니다. 대규모 언어 모델은 텍스트를 순차적으로 생성하기 때문에 전체적인 평가가 누출을 발견하는 데 부적절합니다.
CAMIA의 혁신은 AI 암기가 맥락에 따라 달라진다는 점을 인식합니다. 모델은 후속 반응이 불확실할 때 암기된 콘텐츠에 가장 많이 의존합니다.
"해리포터는...에 의해...쓰여진..."이라는 문구를 생각해 보십시오. 해리의 세계..." - 모델은 암기보다는 문맥적 단서를 통해 "포터"를 쉽게 예측합니다.

하지만 '해리'만 주어졌을 때 '포터'를 예측하려면 학습 데이터를 실제로 암기해야 합니다. 모호한 문맥에서 높은 신뢰도의 예측은 암기된 내용을 강력하게 나타냅니다.
CAMIA는 생성형 AI를 위해 특별히 설계된 최초의 프라이버시 공격입니다. 텍스트 생성 중 불확실성 변동을 추적하여 문맥에 따른 추측과 실제 기억을 구분합니다.
Pythia 및 GPT-Neo 모델을 사용하여 MIMIR 벤치마크에서 테스트한 결과 인상적인 결과를 얻었습니다. 28억 개의 파라미터를 가진 Pythia 모델에 대해 CAMIA는 최소 1%의 오탐률을 유지하면서 탐지 정확도를 거의 두 배로 높였습니다.
이 공격은 효율적으로 작동하여 A100 GPU에서 1,000개의 샘플을 처리하는 데 약 38분이 소요되어 실제 모델 감사에 사용할 수 있습니다.
이 연구는 검증되지 않은 데이터 세트에 대한 대규모 모델 훈련에 내재된 개인정보 보호 위험을 강조합니다. 연구팀은 AI의 유용성과 사용자 보호의 균형을 맞추는 개인정보 보호 기술을 장려하는 것을 목표로 하고 있습니다.
참조: 엔터프라이즈 AI 모델의 실제 생산성을 벤치마킹하는 삼성

암스테르담, 캘리포니아, 런던에서 열리는 AI & 빅 데이터 엑스포에서 AI와 빅 데이터의 발전을 살펴보세요. TechEx와 제휴한 이 행사는 주요 기술 컨퍼런스와 함께 포괄적인 인사이트를 제공합니다.
AI 뉴스는 TechForge Media에서 제공합니다. 예정된 엔터프라이즈 기술 이벤트와 웨비나를 알아보세요.
메타, 직원들이 노골적인 콘텐츠를 시청했다는 보도에 따라 AI 안경 개인정보 보호 문제로 소송에 직면
메타가 자사의 AI 스마트 안경과 관련된 개인정보 보호 문제로 새로운 소송에 직면했다. 스웨덴 언론의 취재에 따르면, 케냐에 기반을 둔 하청업체 직원들이 고객의 영상을 검토해 온 것으로 드러났다. 이 영상에는 나체, 성행위, 화장실 이용 장면 등 민감한 내용이 포함된 것으로 알려졌다.메타는 이미지의 얼굴을 흐리게 처리한다고 밝혔으나, 언론 보도에 따르면 이
인공지능 붐, 닷컴 시대 버블 우려를 재현하다
인공지능(AI) 분야에 수십억 달러 규모의 투자가 쏟아지면서 뜨거운 논쟁이 벌어지고 있다: 이 산업이 닷컴 버블과 같은 거품 현상으로 치닫고 있는 것인가?투자자들은 열기가 식거나 칩 및 인프라에 대한 막대한 지출이 기대 수익을 내지 못하고 있다는 징후를 경계하고 있다. 최근 BofA 글로벌 리서치 설문조사에서 펀드 매니저의 54%가 AI 주식이 이미 버블
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔





집






