CAMIAのプライバシー侵害でAIモデルの記憶データが流出
画期的な新しいプライバシー攻撃は、個人データがAIシステムの訓練に使用されたかどうかを検出することで脆弱性を暴く。
Braveとシンガポール国立大学の研究者が共同開発したCAMIA(Context-Aware Membership Inference Attack)は、AIモデルの記憶を分析する従来の手法を大幅に上回る。
AI業界は、モデルが意図せずに機密性の高い学習情報を保持する「データ記憶」に関する懸念の高まりに直面している。ヘルスケアAIは患者の記録を開示する可能性があり、企業で訓練されたモデルは機密メールを再作成する可能性がある。
LinkedInがAIトレーニングにユーザーデータを活用する計画を立てているような最近の動きは、プライバシーに関する議論を激化させ、生成されたコンテンツに機密情報が含まれる潜在的なリスクを浮き彫りにしている。
セキュリティの専門家は、データ漏洩を検出するためにメンバーシップ推論攻撃(MIA)を採用している。これらのテストは基本的にモデルに問いかける:「この特定の例は、あなたのトレーニングの一部でしたか?攻撃が成功すると、危険なプライバシー侵害が確認される。
この原理は、モデルが使い慣れたトレーニングデータを新しい情報とは異なる方法で処理することに起因しています。
従来のMIAは、より単純な分類モデル用に設計されていたため、最新の生成AIに対しては効果がないことが判明した。大規模な言語モデルはテキストを逐次生成するため、全体的な評価では漏れを発見することができない。
CAMIAのイノベーションは、AIの記憶化がコンテキストに依存することを認識している。モデルが記憶した内容に最も依存するのは、その後の応答が不確かな場合である。
ハリー・ポッターは...によって書かれた...」というフレーズを考えてみよう。ハリーの世界..."- というフレーズを考えてみてください。モデルは、記憶するよりも文脈を手がかりに「ポッター」を簡単に予測します。

しかし、"Harry "とだけ与えられた場合、"Potter "を予測するには、訓練データを実際に記憶する必要がある。曖昧な文脈で信頼度の高い予測は、記憶された内容を強く示している。
CAMIAは、生成AIのために特別に設計された最初のプライバシー攻撃である。テキスト生成中の不確実性の変動を追跡し、文脈推測と真の想起を区別する。
PythiaとGPT-Neoモデルを用いてMIMIRベンチマークでテストしたところ、印象的な結果が得られた。2.8BパラメータのPythiaモデルに対して、CAMIAは最小1%の誤検出率を維持しながら、検出精度をほぼ2倍にしました。
この攻撃は効率的に動作し、A100 GPUで1,000サンプルを処理するのに約38分かかるため、実用的なモデル監査が可能です。
この研究は、検証されていないデータセットで大規模なモデルをトレーニングすることに内在するプライバシーリスクを強調している。研究チームは、AIの有用性とユーザー保護のバランスをとるプライバシー保護技術の普及を目指している。
こちらもご覧ください:サムスン、エンタープライズAIモデルの実際の生産性をベンチマーク

アムステルダム、カリフォルニア、ロンドンで開催されるAI & Big Data Expoで、AIとビッグデータの進歩を探求してください。このTechEx系列のイベントは、主要なテクノロジーカンファレンスとともに包括的な洞察を提供します。
AIニュースはTechForge Mediaがお届けします。今後開催されるエンタープライズ・テクノロジーのイベントやウェビナーをご覧ください。
関連記事
メタ、AIメガネのプライバシー問題をめぐり訴訟に直面 従業員がわいせつなコンテンツを閲覧していたと報じられる
Metaは、同社のAIスマートグラスに関するプライバシー問題をめぐり、新たな訴訟に直面している。スウェーデンの新聞による調査によると、ケニアに拠点を置く下請け業者の従業員が、顧客の映像を閲覧していたという。この映像には、ヌードや性行為、トイレを使用している様子などの機微な内容が含まれていたと報じられている。Metaは画像内の顔をぼかしていると説明しているが、報道では、この措置が常に効果的に機能して
OpenAIのサム・アルトマン、超知能時代の到来を宣言
OpenAIのサム・アルトマンCEOは、人類が人工超知能の時代に入り、後戻りは不可能だと発表した。「我々は後戻りできない地点を通過し、上昇が始まった」とアルトマンは語る。「デジタル超知能の創造の瀬戸際に立っているが、これまでのところ、想像していたよりも驚くほど奇妙ではない」明らかな兆候(街中にロボットが溢れていない、疾病が依然存在する)がないことは、アルトマンが「既に進行中の深い変革」と表現する実
AIブームがドットコムバブル時代の懸念を想起させる
人工知能(AI)分野への数十億ドル規模の投資流入が、業界がドットコムバブルのような過熱状態に向かっているのかという激しい議論を巻き起こしている。投資家は熱狂の冷めや、チップやインフラへの巨額支出が期待通りのリターンを生んでいない兆候に警戒している。米バンク・オブ・アメリカ(BofA)グローバルリサーチの最近の調査はこの警戒感を裏付けており、ファンドマネージャーの54%がAI株は既にバブル状態にある
関連特集おすすめ
コメント (3)
0/500
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔
画期的な新しいプライバシー攻撃は、個人データがAIシステムの訓練に使用されたかどうかを検出することで脆弱性を暴く。
Braveとシンガポール国立大学の研究者が共同開発したCAMIA(Context-Aware Membership Inference Attack)は、AIモデルの記憶を分析する従来の手法を大幅に上回る。
AI業界は、モデルが意図せずに機密性の高い学習情報を保持する「データ記憶」に関する懸念の高まりに直面している。ヘルスケアAIは患者の記録を開示する可能性があり、企業で訓練されたモデルは機密メールを再作成する可能性がある。
LinkedInがAIトレーニングにユーザーデータを活用する計画を立てているような最近の動きは、プライバシーに関する議論を激化させ、生成されたコンテンツに機密情報が含まれる潜在的なリスクを浮き彫りにしている。
セキュリティの専門家は、データ漏洩を検出するためにメンバーシップ推論攻撃(MIA)を採用している。これらのテストは基本的にモデルに問いかける:「この特定の例は、あなたのトレーニングの一部でしたか?攻撃が成功すると、危険なプライバシー侵害が確認される。
この原理は、モデルが使い慣れたトレーニングデータを新しい情報とは異なる方法で処理することに起因しています。
従来のMIAは、より単純な分類モデル用に設計されていたため、最新の生成AIに対しては効果がないことが判明した。大規模な言語モデルはテキストを逐次生成するため、全体的な評価では漏れを発見することができない。
CAMIAのイノベーションは、AIの記憶化がコンテキストに依存することを認識している。モデルが記憶した内容に最も依存するのは、その後の応答が不確かな場合である。
ハリー・ポッターは...によって書かれた...」というフレーズを考えてみよう。ハリーの世界..."- というフレーズを考えてみてください。モデルは、記憶するよりも文脈を手がかりに「ポッター」を簡単に予測します。

しかし、"Harry "とだけ与えられた場合、"Potter "を予測するには、訓練データを実際に記憶する必要がある。曖昧な文脈で信頼度の高い予測は、記憶された内容を強く示している。
CAMIAは、生成AIのために特別に設計された最初のプライバシー攻撃である。テキスト生成中の不確実性の変動を追跡し、文脈推測と真の想起を区別する。
PythiaとGPT-Neoモデルを用いてMIMIRベンチマークでテストしたところ、印象的な結果が得られた。2.8BパラメータのPythiaモデルに対して、CAMIAは最小1%の誤検出率を維持しながら、検出精度をほぼ2倍にしました。
この攻撃は効率的に動作し、A100 GPUで1,000サンプルを処理するのに約38分かかるため、実用的なモデル監査が可能です。
この研究は、検証されていないデータセットで大規模なモデルをトレーニングすることに内在するプライバシーリスクを強調している。研究チームは、AIの有用性とユーザー保護のバランスをとるプライバシー保護技術の普及を目指している。
こちらもご覧ください:サムスン、エンタープライズAIモデルの実際の生産性をベンチマーク

アムステルダム、カリフォルニア、ロンドンで開催されるAI & Big Data Expoで、AIとビッグデータの進歩を探求してください。このTechEx系列のイベントは、主要なテクノロジーカンファレンスとともに包括的な洞察を提供します。
AIニュースはTechForge Mediaがお届けします。今後開催されるエンタープライズ・テクノロジーのイベントやウェビナーをご覧ください。
メタ、AIメガネのプライバシー問題をめぐり訴訟に直面 従業員がわいせつなコンテンツを閲覧していたと報じられる
Metaは、同社のAIスマートグラスに関するプライバシー問題をめぐり、新たな訴訟に直面している。スウェーデンの新聞による調査によると、ケニアに拠点を置く下請け業者の従業員が、顧客の映像を閲覧していたという。この映像には、ヌードや性行為、トイレを使用している様子などの機微な内容が含まれていたと報じられている。Metaは画像内の顔をぼかしていると説明しているが、報道では、この措置が常に効果的に機能して
AIブームがドットコムバブル時代の懸念を想起させる
人工知能(AI)分野への数十億ドル規模の投資流入が、業界がドットコムバブルのような過熱状態に向かっているのかという激しい議論を巻き起こしている。投資家は熱狂の冷めや、チップやインフラへの巨額支出が期待通りのリターンを生んでいない兆候に警戒している。米バンク・オブ・アメリカ(BofA)グローバルリサーチの最近の調査はこの警戒感を裏付けており、ファンドマネージャーの54%がAI株は既にバブル状態にある
This is wild! 🤯 So basically they can tell if my personal data was used to train an AI? That's both cool and terrifying. What if companies get sued over this? Privacy laws need to catch up fast, because memorization is a real issue.
Also das mit dem CAMIA-Angriff klingt echt nicht gut. KI-Modelle sollen doch keine persönlichen Daten speichern, oder? Wenn jetzt jeder prüfen kann, ob seine eigenen Daten im Training waren, wo soll das hinführen? Da müssen dringend strengere Datenschutzregeln für KI-Entwicklung her. Ist ja fast schon beängstigend, was da alles rauskommen könnte... 🤔





家






