CAMIA 隐私泄露事件暴露了人工智能模型的记忆数据
一种突破性的新型隐私攻击通过检测个人数据是否被用于训练人工智能系统来暴露漏洞。
CAMIA(情境感知成员推理攻击)由Brave和新加坡国立大学的研究人员联合开发,其性能大大优于以往的人工智能模型记忆分析方法。
人工智能行业面临着越来越多的 "数据记忆 "问题,即模型无意中保留了敏感的训练信息。医疗保健领域的人工智能可能会泄露病人记录,而企业训练的模型则可能会反刍机密邮件。
LinkedIn 计划利用用户数据进行人工智能训练等最新进展加剧了对隐私问题的争论,凸显了敏感信息出现在生成内容中的潜在风险。
安全专家采用成员推理攻击(MIAs)来检测数据泄露。这些测试主要是询问模型"这个具体例子是你培训的一部分吗?成功的攻击会确认危险的隐私泄露。
其原理源于模型处理熟悉的训练数据的方式与处理新信息的方式不同--MIA 系统地利用了这些行为差异。
事实证明,传统的 MIA 对现代生成式人工智能无效,因为它们是为更简单的分类模型设计的。大型语言模型是按顺序生成文本的,因此整体评估不足以发现漏洞。
CAMIA 的创新认识到,人工智能的记忆取决于上下文。在不确定后续反应时,模型最依赖于记忆内容。
考虑一下 "哈利-波特是......写的......哈利的世界......"。- 通过上下文线索而不是记忆,模型很容易预测出 "波特"。

然而,如果只给出 "哈利",预测 "波特 "则需要实际记忆训练数据。在模棱两可的语境中,高置信度的预测结果有力地表明了记忆内容。
CAMIA 是首个专为生成式人工智能设计的隐私攻击工具。它跟踪文本生成过程中的不确定性波动,区分上下文猜测和真正的回忆。
使用 Pythia 和 GPT-Neo 模型在 MIMIR 基准上进行的测试结果令人印象深刻。与参数为 2.8B 的 Pythia 模型相比,CAMIA 将检测准确率提高了近一倍,同时保持了最低的 1%误报率。
这种攻击的运行效率很高--在 A100 GPU 上处理 1,000 个样本大约需要 38 分钟,这使它在实际模型审计中变得可行。
这项研究强调了在未经审核的数据集上训练大规模模型所固有的隐私风险。该团队旨在推广隐私保护技术,在人工智能的实用性和用户保护之间取得平衡。
另请参见:三星为企业人工智能模型的实际生产力设定基准

在阿姆斯特丹、加利福尼亚和伦敦举行的人工智能和大数据博览会上探索人工智能和大数据的发展。这一 TechEx 附属活动与领先的技术会议一起提供全面的见解。
人工智能新闻由 TechForge Media 为您提供。了解即将举行的企业技术活动和网络研讨会。
相关文章
据报道员工浏览了露骨内容,Meta因AI眼镜隐私问题面临诉讼
Meta正面临一起涉及其AI智能眼镜隐私问题的新诉讼。据瑞典媒体调查,一家位于肯尼亚的分包商员工一直在审查客户的视频 footage。据报道,这些视频包含裸露、性行为以及人们如厕等敏感内容。Meta表示会在图像中对人脸进行模糊处理,但新闻报道援引消息人士称,这一措施并非总是有效。这一调查结果促使英国信息专员办公室展开调查。这家科技巨头目前在美国也面临法律诉讼。在最新提交的诉状中,由公益律所克拉克森
OpenAI创始人山姆·阿尔特曼宣告超级智能时代来临
OpenAI首席执行官山姆·奥尔特曼宣布,人类已进入人工智能超级智能时代,且无法回头。"我们已越过不可逆转的临界点,上升阶段正式开启,"奥特曼表示,"人类正站在创造数字超级智能的边缘,而迄今为止,其发展态势竟比想象中更不令人感到陌生。"尽管缺乏明显迹象——街头尚未遍布机器人,疾病依然存在——但奥特曼所描述的深刻变革已悄然启动。在他这样的公司内部,正在研发能够超越人类通用智能的系统。"从重要意义上说
人工智能热潮引发对互联网泡沫时代的担忧
人工智能领域数十亿美元的投资涌入,引发了一场激烈争论:该行业是否正走向互联网泡沫式的泡沫?投资者正警惕着热情降温的迹象,或芯片与基础设施巨额投入未能带来预期回报的征兆。美银全球研究近期调查凸显了这种谨慎态度:54%的基金经理认为人工智能股票已处于泡沫状态,38%持反对意见。与互联网泡沫的相似之处尽管普遍乐观,质疑者仍质疑人工智能的实质影响,部分人将其斥为虚张声势或即将破灭的泡沫。思科亚太、日本及中
相关专题推荐
评论 (3)
0/500
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔
一种突破性的新型隐私攻击通过检测个人数据是否被用于训练人工智能系统来暴露漏洞。
CAMIA(情境感知成员推理攻击)由Brave和新加坡国立大学的研究人员联合开发,其性能大大优于以往的人工智能模型记忆分析方法。
人工智能行业面临着越来越多的 "数据记忆 "问题,即模型无意中保留了敏感的训练信息。医疗保健领域的人工智能可能会泄露病人记录,而企业训练的模型则可能会反刍机密邮件。
LinkedIn 计划利用用户数据进行人工智能训练等最新进展加剧了对隐私问题的争论,凸显了敏感信息出现在生成内容中的潜在风险。
安全专家采用成员推理攻击(MIAs)来检测数据泄露。这些测试主要是询问模型"这个具体例子是你培训的一部分吗?成功的攻击会确认危险的隐私泄露。
其原理源于模型处理熟悉的训练数据的方式与处理新信息的方式不同--MIA 系统地利用了这些行为差异。
事实证明,传统的 MIA 对现代生成式人工智能无效,因为它们是为更简单的分类模型设计的。大型语言模型是按顺序生成文本的,因此整体评估不足以发现漏洞。
CAMIA 的创新认识到,人工智能的记忆取决于上下文。在不确定后续反应时,模型最依赖于记忆内容。
考虑一下 "哈利-波特是......写的......哈利的世界......"。- 通过上下文线索而不是记忆,模型很容易预测出 "波特"。

然而,如果只给出 "哈利",预测 "波特 "则需要实际记忆训练数据。在模棱两可的语境中,高置信度的预测结果有力地表明了记忆内容。
CAMIA 是首个专为生成式人工智能设计的隐私攻击工具。它跟踪文本生成过程中的不确定性波动,区分上下文猜测和真正的回忆。
使用 Pythia 和 GPT-Neo 模型在 MIMIR 基准上进行的测试结果令人印象深刻。与参数为 2.8B 的 Pythia 模型相比,CAMIA 将检测准确率提高了近一倍,同时保持了最低的 1%误报率。
这种攻击的运行效率很高--在 A100 GPU 上处理 1,000 个样本大约需要 38 分钟,这使它在实际模型审计中变得可行。
这项研究强调了在未经审核的数据集上训练大规模模型所固有的隐私风险。该团队旨在推广隐私保护技术,在人工智能的实用性和用户保护之间取得平衡。
另请参见:三星为企业人工智能模型的实际生产力设定基准

在阿姆斯特丹、加利福尼亚和伦敦举行的人工智能和大数据博览会上探索人工智能和大数据的发展。这一 TechEx 附属活动与领先的技术会议一起提供全面的见解。
人工智能新闻由 TechForge Media 为您提供。了解即将举行的企业技术活动和网络研讨会。
据报道员工浏览了露骨内容,Meta因AI眼镜隐私问题面临诉讼
Meta正面临一起涉及其AI智能眼镜隐私问题的新诉讼。据瑞典媒体调查,一家位于肯尼亚的分包商员工一直在审查客户的视频 footage。据报道,这些视频包含裸露、性行为以及人们如厕等敏感内容。Meta表示会在图像中对人脸进行模糊处理,但新闻报道援引消息人士称,这一措施并非总是有效。这一调查结果促使英国信息专员办公室展开调查。这家科技巨头目前在美国也面临法律诉讼。在最新提交的诉状中,由公益律所克拉克森
人工智能热潮引发对互联网泡沫时代的担忧
人工智能领域数十亿美元的投资涌入,引发了一场激烈争论:该行业是否正走向互联网泡沫式的泡沫?投资者正警惕着热情降温的迹象,或芯片与基础设施巨额投入未能带来预期回报的征兆。美银全球研究近期调查凸显了这种谨慎态度:54%的基金经理认为人工智能股票已处于泡沫状态,38%持反对意见。与互联网泡沫的相似之处尽管普遍乐观,质疑者仍质疑人工智能的实质影响,部分人将其斥为虚张声势或即将破灭的泡沫。思科亚太、日本及中
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔





首页






