オプション
ニュース
新しい研究がLLMが実際にどれだけデータを記憶するかを明らかに

新しい研究がLLMが実際にどれだけデータを記憶するかを明らかに

2025年7月6日
40

新しい研究がLLMが実際にどれだけデータを記憶するかを明らかに

AIモデルは実際にどれだけ記憶するのか? 新しい研究が驚くべき洞察を明らかに

ChatGPT、Claude、Geminiなどの大規模言語モデル(LLM)は、本、ウェブサイト、コード、そして画像や音声などのマルチメディアからなる膨大なデータセット—何兆もの単語—で訓練されています。しかし、そのデータはどうなるのでしょうか? これらのモデルは本当に言語を「理解」しているのか、それとも記憶した断片をただ繰り返しているだけなのでしょうか?

Meta、Google DeepMind、コーネル、NVIDIAによる画期的な新しい研究が、ついに具体的な答えを提供します—その結果は驚くべきものかもしれません。

大きな疑問:記憶 vs. 一般化

LLMはその核心で、言語の統計的パターンを検出することによって機能します。ChatGPTにリンゴについて尋ねると、それは人間の意味でリンゴを「知っている」わけではありません—代わりに、「リンゴ」という単語が「果物」「赤」「果樹園」、あるいは「iPhone」といった単語と頻繁に一緒に現れることを認識します。この統計的理解は、数十億のパラメータ(AIのニューラルネットワーク内の調整可能な設定)にエンコードされています。

しかし、ここに100万ドルの疑問があります:LLMの知識のどれだけが一般化された学習から来て、どれだけが単なる逐語的な記憶なのか?

これは単なる学術的な問題ではありません—実際の法的影響があります。もしAIモデルが著作権のあるテキストの大きな塊を「コピー」していると判明した場合、アーティスト、著者、出版社からの訴訟が勢いを増す可能性があります。しかし、正確なコンテンツではなく「パターン」を本当に学んでいる場合、AI企業はより強力なフェアユースの防御を持つかもしれません。

答え:パラメータあたり3.6ビット

研究では、LLMはパラメータあたり約3.6ビットの固定記憶容量を持つことがわかりました。これは実際にはどういう意味でしょうか?

  • 1ビットは最小のデジタル単位(0または1)です。
  • 3.6ビットは、年の月を選ぶか、12面のサイコロを振るような約12の異なる値を保存できます。
  • 完全な英語の文字(約4.7ビット必要)を保存するには十分ではありませんが、10の一般的な文字の縮小セットから文字をエンコードすることは可能です。
  • バイトでは、3.6ビットはわずか0.45バイト—標準的なASCII文字の半分以下です。

重要なことに、この数字はモデルサイズ、アーキテクチャ、さらには精度レベルに関係なく一定でした(ただし、完全精度モデルはわずかに高く、パラメータあたり3.83ビットに達しました)。

大きな驚き:データ量が多いほど記憶が減少

ここで本当に興味深いことが起こります:より多くのデータで訓練すると、記憶は増加せず、実際には「減少」します。

主任研究者のジャック・モリスは次のように説明しました:

「より多くのデータで訓練すると、モデルはサンプルごとに記憶する量が減ります。」

こう考えてみてください:AIに固定された「メモリ予算」がある場合、それを「より大きな」データセットに分散させると、個々のピースごとに割り当てられる「ストレージ」が「減少」します。したがって、大きなデータセットは、単なるコピーではなく一般化を促進します—これにより、AIが著作権や機密コンテンツをそのまま吐き出すことへの懸念が軽減される可能性があります。

研究者はどうやってこれを測定したのか?

記憶と一般化を分離するために、チームは「完全にランダムなビット文字列」—パターンや構造が全くないデータ—でモデルを訓練しました。

なぜか? モデルがランダムな文字列を再構築する場合、それは「記憶」したに違いありません—推論するための基礎となるロジックがないからです。

このアプローチにより、以下が可能になりました:
✔ 学習したパターンとは別に、純粋な記憶を測定する。
記憶がモデルサイズに比例して予測可能にスケールすることを確認する。
データセットが大きくなるにつれて一般化が始まることを示す。

実際の影響

  • 小さなデータセットはより多くの記憶につながります。
  • 大きなデータセットはモデルを一般化に押し進めます(一時的な「二重降下」のパフォーマンス低下を伴う)。
  • 高い精度(例:float32 vs. bfloat16)は記憶容量をわずかに増加させます(3.51から3.83ビット/パラメータ)。

ユニークなデータは記憶されやすい

研究は平均に焦点を当てていますが、非常にユニークまたは特徴的なコンテンツ(例:珍しいコードスニペットや独特な文章)は、依然として記憶されやすい可能性があります。

しかし、メンバーシップ推論攻撃(特定のデータが訓練セットに含まれていたかどうかを検出しようとする試み)は、データセットが大きくなるにつれて信頼性が低下します—これは、大規模な訓練がプライバシーリスクを軽減するという考えを支持します。

全体の視点

  • 50万パラメータモデルは約225KBのデータを記憶できます。
  • 15億パラメータモデルは約675MBを保存できます。
  • これは本や画像全体を再現するのに十分ではありませんが、分散したテキストパターンを説明します。

法的影響は?

この研究は、進行中のAI著作権訴訟で重要な役割を果たす可能性があります。裁判所がLLMが主に「コピーするのではなく一般化する」と見なした場合、AI企業はより強力なフェアユースの主張を持つかもしれません。

結論

データ量が多いほど、より安全で一般化されたAIになります。 大規模なデータセットを恐れるのではなく、実際にはそれが「望ましい」かもしれません—なぜなら、それらはモデルを「記憶」ではなく「理解」に押し進めるからです。

この研究は、AIの理解を深めるだけでなく、これらの強力なシステムを今後どのように規制し、開発し、信頼するかを再構築する可能性があります。

関連記事
マルチバースAIが画期的な小型高性能モデルを発表 マルチバースAIが画期的な小型高性能モデルを発表 ヨーロッパの先駆的なAIスタートアップが、鳥や昆虫の脳にちなんで名付けられた画期的なマイクロサイズのAIモデルを発表し、強力な人工知能に大規模なスケールは必要ないことを実証した。Multiverse Computing社のイノベーションの中心は、エッジ・コンピューティング・アプリケーション向けに特別に設計された、超小型でありながら高性能なモデルである。ChickBrain」(32億パラメータ)と「
TensorZero、エンタープライズLLM開発を簡素化するために730万ドルのシード資金を獲得 TensorZero、エンタープライズLLM開発を簡素化するために730万ドルのシード資金を獲得 AIアプリケーションのオープンソース・インフラストラクチャ・プロバイダーとして台頭するTensorZeroは、FirstMark Capitalを筆頭に、Bessemer Venture Partners、Bedrock、DRW、Coalition、多数の業界エンジェルが参加し、730万ドルのシード資金を確保した。TensorZeroのGitHubリポジトリは、ここ数カ月でスター数が3,000
メタ社、AIモデル「ラマ」のホストと収益を共有、出願書類で明らかに メタ社、AIモデル「ラマ」のホストと収益を共有、出願書類で明らかに メタ社のマーク・ザッカーバーグ最高経営責任者(CEO)は2023年7月、「アクセスの販売」はラマAIモデルのビジネスモデルではないと強調したが、新たに開示された裁判資料から、メタ社がこれらのオープンソースモデルをホスティングするクラウドプロバイダーと収益分配パートナーシップを結んでいることが明らかになった。ホスティングパートナーシップによる収益化未修正のKadrey v. Meta訴訟の文書
コメント (2)
0/200
LawrenceWilliams
LawrenceWilliams 2025年8月24日 12:01:17 JST

This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?

EdwardYoung
EdwardYoung 2025年8月10日 8:01:00 JST

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

トップに戻ります
OR