オプション
ニュース
新しい研究がLLMが実際にどれだけデータを記憶するかを明らかに

新しい研究がLLMが実際にどれだけデータを記憶するかを明らかに

2025年7月6日
27

新しい研究がLLMが実際にどれだけデータを記憶するかを明らかに

AIモデルは実際にどれだけ記憶するのか? 新しい研究が驚くべき洞察を明らかに

ChatGPT、Claude、Geminiなどの大規模言語モデル(LLM)は、本、ウェブサイト、コード、そして画像や音声などのマルチメディアからなる膨大なデータセット—何兆もの単語—で訓練されています。しかし、そのデータはどうなるのでしょうか? これらのモデルは本当に言語を「理解」しているのか、それとも記憶した断片をただ繰り返しているだけなのでしょうか?

Meta、Google DeepMind、コーネル、NVIDIAによる画期的な新しい研究が、ついに具体的な答えを提供します—その結果は驚くべきものかもしれません。

大きな疑問:記憶 vs. 一般化

LLMはその核心で、言語の統計的パターンを検出することによって機能します。ChatGPTにリンゴについて尋ねると、それは人間の意味でリンゴを「知っている」わけではありません—代わりに、「リンゴ」という単語が「果物」「赤」「果樹園」、あるいは「iPhone」といった単語と頻繁に一緒に現れることを認識します。この統計的理解は、数十億のパラメータ(AIのニューラルネットワーク内の調整可能な設定)にエンコードされています。

しかし、ここに100万ドルの疑問があります:LLMの知識のどれだけが一般化された学習から来て、どれだけが単なる逐語的な記憶なのか?

これは単なる学術的な問題ではありません—実際の法的影響があります。もしAIモデルが著作権のあるテキストの大きな塊を「コピー」していると判明した場合、アーティスト、著者、出版社からの訴訟が勢いを増す可能性があります。しかし、正確なコンテンツではなく「パターン」を本当に学んでいる場合、AI企業はより強力なフェアユースの防御を持つかもしれません。

答え:パラメータあたり3.6ビット

研究では、LLMはパラメータあたり約3.6ビットの固定記憶容量を持つことがわかりました。これは実際にはどういう意味でしょうか?

  • 1ビットは最小のデジタル単位(0または1)です。
  • 3.6ビットは、年の月を選ぶか、12面のサイコロを振るような約12の異なる値を保存できます。
  • 完全な英語の文字(約4.7ビット必要)を保存するには十分ではありませんが、10の一般的な文字の縮小セットから文字をエンコードすることは可能です。
  • バイトでは、3.6ビットはわずか0.45バイト—標準的なASCII文字の半分以下です。

重要なことに、この数字はモデルサイズ、アーキテクチャ、さらには精度レベルに関係なく一定でした(ただし、完全精度モデルはわずかに高く、パラメータあたり3.83ビットに達しました)。

大きな驚き:データ量が多いほど記憶が減少

ここで本当に興味深いことが起こります:より多くのデータで訓練すると、記憶は増加せず、実際には「減少」します。

主任研究者のジャック・モリスは次のように説明しました:

「より多くのデータで訓練すると、モデルはサンプルごとに記憶する量が減ります。」

こう考えてみてください:AIに固定された「メモリ予算」がある場合、それを「より大きな」データセットに分散させると、個々のピースごとに割り当てられる「ストレージ」が「減少」します。したがって、大きなデータセットは、単なるコピーではなく一般化を促進します—これにより、AIが著作権や機密コンテンツをそのまま吐き出すことへの懸念が軽減される可能性があります。

研究者はどうやってこれを測定したのか?

記憶と一般化を分離するために、チームは「完全にランダムなビット文字列」—パターンや構造が全くないデータ—でモデルを訓練しました。

なぜか? モデルがランダムな文字列を再構築する場合、それは「記憶」したに違いありません—推論するための基礎となるロジックがないからです。

このアプローチにより、以下が可能になりました:
✔ 学習したパターンとは別に、純粋な記憶を測定する。
記憶がモデルサイズに比例して予測可能にスケールすることを確認する。
データセットが大きくなるにつれて一般化が始まることを示す。

実際の影響

  • 小さなデータセットはより多くの記憶につながります。
  • 大きなデータセットはモデルを一般化に押し進めます(一時的な「二重降下」のパフォーマンス低下を伴う)。
  • 高い精度(例:float32 vs. bfloat16)は記憶容量をわずかに増加させます(3.51から3.83ビット/パラメータ)。

ユニークなデータは記憶されやすい

研究は平均に焦点を当てていますが、非常にユニークまたは特徴的なコンテンツ(例:珍しいコードスニペットや独特な文章)は、依然として記憶されやすい可能性があります。

しかし、メンバーシップ推論攻撃(特定のデータが訓練セットに含まれていたかどうかを検出しようとする試み)は、データセットが大きくなるにつれて信頼性が低下します—これは、大規模な訓練がプライバシーリスクを軽減するという考えを支持します。

全体の視点

  • 50万パラメータモデルは約225KBのデータを記憶できます。
  • 15億パラメータモデルは約675MBを保存できます。
  • これは本や画像全体を再現するのに十分ではありませんが、分散したテキストパターンを説明します。

法的影響は?

この研究は、進行中のAI著作権訴訟で重要な役割を果たす可能性があります。裁判所がLLMが主に「コピーするのではなく一般化する」と見なした場合、AI企業はより強力なフェアユースの主張を持つかもしれません。

結論

データ量が多いほど、より安全で一般化されたAIになります。 大規模なデータセットを恐れるのではなく、実際にはそれが「望ましい」かもしれません—なぜなら、それらはモデルを「記憶」ではなく「理解」に押し進めるからです。

この研究は、AIの理解を深めるだけでなく、これらの強力なシステムを今後どのように規制し、開発し、信頼するかを再構築する可能性があります。

関連記事
QodoがGoogle Cloudと提携し、開発者向け無料AIコードレビューを提供 QodoがGoogle Cloudと提携し、開発者向け無料AIコードレビューを提供 Qodo、イスラエル拠点のAIコーディングスタートアップは、コード品質に焦点を当て、Google Cloudと提携し、AI生成ソフトウェアの完全性を強化。企業がコーディングにAIをますます活用する中、堅牢な監視と品質保証ツールの需要が増加。QodoのCEOイタマール・フリードマンは、AI生成コードが現代の開発の中心であると指摘。「AIがすべてのコードを書く未来を想像してください。人間がすべてをレビ
SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 Salesforceは新しい職場AI戦略を発表し、月曜日にSlackの会話に統合された専門の「デジタルチームメイト」を導入した。新ツール「SlackのAgentforce」は、企業が職場チャットを検索し、会社データにアクセスし、従業員が日常的に働くメッセージングプラットフォーム内でアクションを実行するタスク特化型AIエージェントを作成・展開できる。「専門の従業員が協力して問題を解決するように、クラ
Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化 Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化 Oracleは、Financial Timesが報じたところによると、OpenAIが開発するテキサスの主要な新データセンターを動かすために、約40億ドルのNvidiaチップに投資する予定です。この取引は、これまでで最大規模のチップ取得の一つであり、AIコンピューティングリソースに対する急増する需要を強調しています。テキサス州アビリーンに位置するこの施設は、米国初の「Stargate」データセンター
コメント (1)
0/200
EdwardYoung
EdwardYoung 2025年8月10日 8:01:00 JST

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

トップに戻ります
OR