新研究揭示大規模語言模型實際記憶的數據量

AI模型實際記憶多少?新研究揭示驚人見解
我們都知道,像ChatGPT、Claude和Gemini這樣的大規模語言模型(LLMs)是在龐大數據集上訓練的——來自書籍、網站、程式碼,甚至圖像和音頻等多媒體的數兆字詞。但這些數據到底發生了什麼?這些模型真的理解語言,還是僅僅在重複記憶的片段?
來自Meta、Google DeepMind、Cornell和NVIDIA的一項突破性新研究終於給出了具體答案——結果可能會讓你感到意外。
核心問題:記憶 vs. 泛化
大規模語言模型的核心是通過檢測語言中的統計模式來運作。當你問ChatGPT關於蘋果的問題時,它並非以人類的方式“知道”蘋果是什麼——它只是辨識出“apple”這個詞經常與“fruit”、“red”、“orchard”甚至“iPhone”等詞一起出現。這種統計理解被編碼在數十億個參數(基本上是AI神經網絡中的可調整設置)中。
但這裡有一個價值百萬的問題:大規模語言模型的知識有多少來自泛化學習,又有多少是純粹的逐字記憶?
這不僅是學術問題——它還有現實世界的法律影響。如果AI模型被發現複製大量受版權保護的文本,藝術家、作者和出版商的訴訟可能會獲得支持。但如果它們真正學習的是模式而非確切內容,AI公司可能擁有更強的合理使用辯護。
答案:每個參數3.6位元
研究發現,大規模語言模型的記憶容量約為每個參數3.6位元。這在實際中意味著什麼?
- 單一位元是最小的數位單位(0或1)。
- 3.6位元可以儲存大約12個不同值——就像選擇一年中的某個月或擲12面骰子。
- 這不足以儲存一個完整的英文字母(需要約4.7位元),但可以編碼來自10個常見字母的縮減集合中的字符。
- 以位元組計算,3.6位元僅為0.45位元組——不到標準ASCII字符的一半。
關鍵是,這個數字在不同模型規模、架構甚至精度水平下保持穩定(儘管全精度模型略高,達到每個參數3.83位元)。
驚人發現:更多數據 = 更少記憶
這裡的事情變得非常有趣:訓練更多數據不會增加記憶——實際上會減少記憶。
正如首席研究員Jack Morris解釋:
“訓練更多數據會迫使模型對每個樣本記憶更少。”
這樣想:如果AI有一個固定的“記憶預算”,將其分散在更大的數據集上意味著每個單獨的部分獲得更少的專用儲存。因此,更大的數據集鼓勵泛化而非機械複製——這可能緩解對AI重複輸出受版權保護或敏感內容的擔憂。
研究者如何測量這一點?
為了將記憶與泛化分離,研究團隊在完全隨機的位元串上訓練模型——這些數據毫無模式或結構。
為什麼?因為如果模型重建了一個隨機字符串,它必須是記憶的——沒有底層邏輯可推斷。
這種方法使他們能夠:
✔ 測ynos
✔ 測量純粹的記憶,與學習模式分開。
✔ 確認記憶隨模型規模可預測地擴展。
✔ 顯示隨著數據集變大,泛化開始生效。
現實世界的影響
- 較小的數據集導致更多記憶。
- 較大的數據集推動模型走向泛化(伴隨著臨時的“雙下降”性能下降)。
較高精度(例如,float32與bfloat16相比)略微增加記憶容量(從3.51位元/參數到3.83位元/參數)。
獨特數據更容易被記憶
雖然研究聚焦於平均值,高度獨特或風格化的內容(如罕見的程式碼片段或獨特的寫作)可能更容易被記憶。
然而,成員推斷攻擊(試圖檢測特定數據是否在訓練集中)隨著數據集的增長變得不可靠——支持大規模訓練降低隱私風險的觀點。
總結視角
- 50萬參數模型可以記憶約225 KB的數據。
- 15億參數模型可以儲存約675 MB。
- 這不足以重現整本書或圖像,但確實能解釋分散的文本模式。
法律影響?
這項研究可能在正在進行的AI版權訴訟中發揮關鍵作用。如果法院認為大規模語言模型主要泛化而非複製,AI公司可能擁有更強的合理使用論點。
結論
更多數據 = 更安全、更泛化的AI。與其害怕龐大的數據集,我們實際上可能希望擁有它們——因為它們推動模型走向理解而非記憶。
這項研究不僅加深了我們對AI的理解——它可能會重塑我們未來如何監管、開發和信任這些強大的系統。
相關文章
Multiverse AI 推出突破性的微型高性能模型
歐洲一家先進的人工智慧初創公司發表了突破性的微型人工智慧模型,並以鳥類和昆蟲的大腦命名,證明強大的人工智慧並不需要龐大的規模。Multiverse Computing 的創新重點在於專為邊緣運算應用而設計的超小型但功能強大的模型。這些微型神經網路被稱為「ChickBrain」(32 億個參數)和「SuperFly」(9 千 4 百萬個參數),代表著高效率人工智慧部署的重大躍進。"創辦人 Román
TensorZero 獲得 730 萬美元種子基金以簡化企業 LLM 開發
TensorZero 是一家新興的人工智能應用程式開放原始碼基礎設施供應商,已獲得 730 萬美元的種子資金,由 FirstMark Capital 領投,Bessemer Venture Partners、Bedrock、DRW、Coalition 及眾多業界天使投資人參與。TensorZero 的 GitHub 資源庫在近幾個月內獲得全球「第一熱門」的地位,同時星級數從 3,000 個增加
文件顯示,Meta 與 Llama AI 模型的主機分享收入
雖然 Meta 執行長 Mark Zuckerberg 在 2023 年 7 月強調「銷售存取權」並非他們 Llama AI 模型的商業模式,但最新揭露的法庭文件顯示,Meta 與託管這些開放原始碼模型的雲端供應商進行收入分享合作。透過託管夥伴關係獲利未經刪除的 Kadrey v. Meta 訴訟文件顯示,Meta 從提供 Llama 模型給使用者的公司獲得營收分成,但具體合作夥伴並未具名。
評論 (2)
0/200
LawrenceWilliams
2025-08-24 11:01:17
This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?
0
EdwardYoung
2025-08-10 07:01:00
This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!
0
AI模型實際記憶多少?新研究揭示驚人見解
我們都知道,像ChatGPT、Claude和Gemini這樣的大規模語言模型(LLMs)是在龐大數據集上訓練的——來自書籍、網站、程式碼,甚至圖像和音頻等多媒體的數兆字詞。但這些數據到底發生了什麼?這些模型真的理解語言,還是僅僅在重複記憶的片段?
來自Meta、Google DeepMind、Cornell和NVIDIA的一項突破性新研究終於給出了具體答案——結果可能會讓你感到意外。
核心問題:記憶 vs. 泛化
大規模語言模型的核心是通過檢測語言中的統計模式來運作。當你問ChatGPT關於蘋果的問題時,它並非以人類的方式“知道”蘋果是什麼——它只是辨識出“apple”這個詞經常與“fruit”、“red”、“orchard”甚至“iPhone”等詞一起出現。這種統計理解被編碼在數十億個參數(基本上是AI神經網絡中的可調整設置)中。
但這裡有一個價值百萬的問題:大規模語言模型的知識有多少來自泛化學習,又有多少是純粹的逐字記憶?
這不僅是學術問題——它還有現實世界的法律影響。如果AI模型被發現複製大量受版權保護的文本,藝術家、作者和出版商的訴訟可能會獲得支持。但如果它們真正學習的是模式而非確切內容,AI公司可能擁有更強的合理使用辯護。
答案:每個參數3.6位元
研究發現,大規模語言模型的記憶容量約為每個參數3.6位元。這在實際中意味著什麼?
- 單一位元是最小的數位單位(0或1)。
- 3.6位元可以儲存大約12個不同值——就像選擇一年中的某個月或擲12面骰子。
- 這不足以儲存一個完整的英文字母(需要約4.7位元),但可以編碼來自10個常見字母的縮減集合中的字符。
- 以位元組計算,3.6位元僅為0.45位元組——不到標準ASCII字符的一半。
關鍵是,這個數字在不同模型規模、架構甚至精度水平下保持穩定(儘管全精度模型略高,達到每個參數3.83位元)。
驚人發現:更多數據 = 更少記憶
這裡的事情變得非常有趣:訓練更多數據不會增加記憶——實際上會減少記憶。
正如首席研究員Jack Morris解釋:
“訓練更多數據會迫使模型對每個樣本記憶更少。”
這樣想:如果AI有一個固定的“記憶預算”,將其分散在更大的數據集上意味著每個單獨的部分獲得更少的專用儲存。因此,更大的數據集鼓勵泛化而非機械複製——這可能緩解對AI重複輸出受版權保護或敏感內容的擔憂。
研究者如何測量這一點?
為了將記憶與泛化分離,研究團隊在完全隨機的位元串上訓練模型——這些數據毫無模式或結構。
為什麼?因為如果模型重建了一個隨機字符串,它必須是記憶的——沒有底層邏輯可推斷。
這種方法使他們能夠:
✔ 測ynos
✔ 測量純粹的記憶,與學習模式分開。
✔ 確認記憶隨模型規模可預測地擴展。
✔ 顯示隨著數據集變大,泛化開始生效。
現實世界的影響
- 較小的數據集導致更多記憶。
- 較大的數據集推動模型走向泛化(伴隨著臨時的“雙下降”性能下降)。 較高精度(例如,float32與bfloat16相比)略微增加記憶容量(從3.51位元/參數到3.83位元/參數)。
獨特數據更容易被記憶
雖然研究聚焦於平均值,高度獨特或風格化的內容(如罕見的程式碼片段或獨特的寫作)可能更容易被記憶。
然而,成員推斷攻擊(試圖檢測特定數據是否在訓練集中)隨著數據集的增長變得不可靠——支持大規模訓練降低隱私風險的觀點。
總結視角
- 50萬參數模型可以記憶約225 KB的數據。
- 15億參數模型可以儲存約675 MB。
- 這不足以重現整本書或圖像,但確實能解釋分散的文本模式。
法律影響?
這項研究可能在正在進行的AI版權訴訟中發揮關鍵作用。如果法院認為大規模語言模型主要泛化而非複製,AI公司可能擁有更強的合理使用論點。
結論
更多數據 = 更安全、更泛化的AI。與其害怕龐大的數據集,我們實際上可能希望擁有它們——因為它們推動模型走向理解而非記憶。
這項研究不僅加深了我們對AI的理解——它可能會重塑我們未來如何監管、開發和信任這些強大的系統。



This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?




This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!












