AI 模型的記憶資料在 CAMIA 隱私外洩事件中曝光
一項突破性的全新隱私權攻擊透過偵測個人資料是否被用於訓練 AI 系統來揭露漏洞。
由 Brave 與新加坡國立大學研究人員共同開發的 CAMIA (Context-Aware Membership Inference Attack,情境感知成員推理攻擊) 在分析 AI 模型記憶體方面顯著優於之前的方法。
AI 產業面臨越來越多有關「資料記憶化」的疑慮,模型會在無意間保留敏感的訓練資訊。醫療保健 AI 可能會洩露病患記錄,而企業訓練的模型則可能會反覆敘述機密電子郵件。
最近的發展,例如 LinkedIn 計劃利用使用者資料進行 AI 訓練,更激化了隱私權的爭論,突顯出敏感資訊出現在生成內容中的潛在風險。
安全專家採用會員推論攻擊 (Membership Inference Attacks, MIAs) 來偵測資料洩漏。這些測試基本上是詢問模型"這個特定範例是您訓練的一部分嗎?成功的攻擊會確認危險的隱私外洩。
其原理源於模型處理熟悉訓練資料的方式與處理新資訊的方式不同 - MIA 系統性地利用這些行為差異。
傳統的 MIA 被證明對現代生成式 AI 無效,因為它們是針對較簡單的分類模型所設計。大型語言模型會依序產生文字,因此整體評估不足以發現洩漏。
CAMIA 的創新意識到 AI 的記憶取決於上下文。當後續回應不確定時,模型最依賴記住的內容。
考慮「哈利波特是......寫的......哈利的世界......"。- 模型可透過上下文線索而非記憶,輕鬆預測「波特」。

但是,如果只給出 "Harry「,預測 」Potter "就需要實際記憶訓練資料。在模棱兩可的情境中,高置信度的預測強烈顯示出已記憶的內容。
CAMIA 代表了第一個專門為生成式 AI 設計的隱私攻擊。它追蹤文字產生過程中的不確定性波動,區分上下文猜測與真正的回憶。
使用 Pythia 和 GPT-Neo 模型在 MIMIR 基準上進行測試,結果令人印象深刻。針對 2.8B 參數的 Pythia 模型,CAMIA 將偵測準確率提高近一倍,同時維持最低的 1% 誤判率。
該攻擊的運作效率很高 - 在 A100 GPU 上處理 1,000 個樣本僅需約 38 分鐘,使其成為實際模型稽核的可行方法。
這項研究強調了在未經審核的資料集上訓練大量模型所固有的隱私風險。該團隊的目標是推廣保護隱私的技術,以平衡 AI 效用與使用者保護。
另請參閱:三星基準企業 AI 模型的實際生產力

在阿姆斯特丹、加利福尼亞和倫敦的 AI & Big Data Expo 上探索 AI 和大數據進展。這項隸屬於 TechEx 的活動可與領先的技術會議一同提供全面的洞察力。
AI News 由 TechForge Media 提供。探索即將舉行的企業技術活動和網路研討會。
相關文章
據報導,員工瀏覽了露骨內容,Meta 因此面臨關於 AI 眼鏡隱私問題的訴訟
Meta 正因旗下 AI 智慧眼鏡的隱私問題面臨新一波訴訟。根據瑞典報紙的調查,一家總部位於肯亞的分包商員工一直在審查客戶的影像資料。據報導,這些影像包含裸露、性行為以及如廁等敏感內容。Meta聲稱會對影像中的臉部進行模糊處理,但新聞報導援引消息來源指出,此舉並非總是能有效發揮作用。這項調查結果促使英國資訊專員辦公室展開調查。這家科技巨頭如今在美國也面臨法律訴訟。在這份新提交的訴狀中,由公益律師事
OpenAI執行長山姆·阿特曼宣告超級智能時代的來臨
OpenAI執行長山姆·奧特曼宣佈,人類已邁入人工超級智慧時代,且此進程不可逆轉。「我們已跨越無法回頭的臨界點,升華之路正式展開,」奧特曼表示:「人類正站在創造數位超級智能的門檻上,而迄今為止,這過程竟比想像中更為尋常。」儘管缺乏明顯跡象——街頭尚未遍布機器人,疾病仍未絕跡——但奧特曼所描述的深刻變革已悄然啟動。在諸如其公司等機構中,正研發出能超越人類通用智能的系統。「從重要層面而言,ChatGP
人工智慧熱潮引發網路泡沫時期的泡沫憂慮
數十億美元湧入人工智慧領域的投資熱潮,引發一場激烈辯論:該產業是否正走向網路泡沫式的泡沫?投資者正密切關注熱潮是否降溫,或巨額晶片與基礎建設支出未能帶來預期回報的跡象。美銀全球研究近期調查凸顯此種謹慎態度:54%基金經理人認為人工智慧股票已處泡沫期,38%持反對意見。與網路泡沫的相似之處儘管樂觀情緒蔓延,質疑者仍質疑人工智慧的實質影響力,部分人士更直指其為虛張聲勢或即將破裂的泡沫。思科亞太、日本及
相關專題推薦
評論 (3)
0/500
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔
一項突破性的全新隱私權攻擊透過偵測個人資料是否被用於訓練 AI 系統來揭露漏洞。
由 Brave 與新加坡國立大學研究人員共同開發的 CAMIA (Context-Aware Membership Inference Attack,情境感知成員推理攻擊) 在分析 AI 模型記憶體方面顯著優於之前的方法。
AI 產業面臨越來越多有關「資料記憶化」的疑慮,模型會在無意間保留敏感的訓練資訊。醫療保健 AI 可能會洩露病患記錄,而企業訓練的模型則可能會反覆敘述機密電子郵件。
最近的發展,例如 LinkedIn 計劃利用使用者資料進行 AI 訓練,更激化了隱私權的爭論,突顯出敏感資訊出現在生成內容中的潛在風險。
安全專家採用會員推論攻擊 (Membership Inference Attacks, MIAs) 來偵測資料洩漏。這些測試基本上是詢問模型"這個特定範例是您訓練的一部分嗎?成功的攻擊會確認危險的隱私外洩。
其原理源於模型處理熟悉訓練資料的方式與處理新資訊的方式不同 - MIA 系統性地利用這些行為差異。
傳統的 MIA 被證明對現代生成式 AI 無效,因為它們是針對較簡單的分類模型所設計。大型語言模型會依序產生文字,因此整體評估不足以發現洩漏。
CAMIA 的創新意識到 AI 的記憶取決於上下文。當後續回應不確定時,模型最依賴記住的內容。
考慮「哈利波特是......寫的......哈利的世界......"。- 模型可透過上下文線索而非記憶,輕鬆預測「波特」。

但是,如果只給出 "Harry「,預測 」Potter "就需要實際記憶訓練資料。在模棱兩可的情境中,高置信度的預測強烈顯示出已記憶的內容。
CAMIA 代表了第一個專門為生成式 AI 設計的隱私攻擊。它追蹤文字產生過程中的不確定性波動,區分上下文猜測與真正的回憶。
使用 Pythia 和 GPT-Neo 模型在 MIMIR 基準上進行測試,結果令人印象深刻。針對 2.8B 參數的 Pythia 模型,CAMIA 將偵測準確率提高近一倍,同時維持最低的 1% 誤判率。
該攻擊的運作效率很高 - 在 A100 GPU 上處理 1,000 個樣本僅需約 38 分鐘,使其成為實際模型稽核的可行方法。
這項研究強調了在未經審核的資料集上訓練大量模型所固有的隱私風險。該團隊的目標是推廣保護隱私的技術,以平衡 AI 效用與使用者保護。
另請參閱:三星基準企業 AI 模型的實際生產力

在阿姆斯特丹、加利福尼亞和倫敦的 AI & Big Data Expo 上探索 AI 和大數據進展。這項隸屬於 TechEx 的活動可與領先的技術會議一同提供全面的洞察力。
AI News 由 TechForge Media 提供。探索即將舉行的企業技術活動和網路研討會。
據報導,員工瀏覽了露骨內容,Meta 因此面臨關於 AI 眼鏡隱私問題的訴訟
Meta 正因旗下 AI 智慧眼鏡的隱私問題面臨新一波訴訟。根據瑞典報紙的調查,一家總部位於肯亞的分包商員工一直在審查客戶的影像資料。據報導,這些影像包含裸露、性行為以及如廁等敏感內容。Meta聲稱會對影像中的臉部進行模糊處理,但新聞報導援引消息來源指出,此舉並非總是能有效發揮作用。這項調查結果促使英國資訊專員辦公室展開調查。這家科技巨頭如今在美國也面臨法律訴訟。在這份新提交的訴狀中,由公益律師事
人工智慧熱潮引發網路泡沫時期的泡沫憂慮
數十億美元湧入人工智慧領域的投資熱潮,引發一場激烈辯論:該產業是否正走向網路泡沫式的泡沫?投資者正密切關注熱潮是否降溫,或巨額晶片與基礎建設支出未能帶來預期回報的跡象。美銀全球研究近期調查凸顯此種謹慎態度:54%基金經理人認為人工智慧股票已處泡沫期,38%持反對意見。與網路泡沫的相似之處儘管樂觀情緒蔓延,質疑者仍質疑人工智慧的實質影響力,部分人士更直指其為虛張聲勢或即將破裂的泡沫。思科亞太、日本及
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔





首頁






