新研究揭示大規模語言模型實際記憶的數據量

AI模型實際記憶多少?新研究揭示驚人見解
我們都知道,像ChatGPT、Claude和Gemini這樣的大規模語言模型(LLMs)是在龐大數據集上訓練的——來自書籍、網站、程式碼,甚至圖像和音頻等多媒體的數兆字詞。但這些數據到底發生了什麼?這些模型真的理解語言,還是僅僅在重複記憶的片段?
來自Meta、Google DeepMind、Cornell和NVIDIA的一項突破性新研究終於給出了具體答案——結果可能會讓你感到意外。
核心問題:記憶 vs. 泛化
大規模語言模型的核心是通過檢測語言中的統計模式來運作。當你問ChatGPT關於蘋果的問題時,它並非以人類的方式“知道”蘋果是什麼——它只是辨識出“apple”這個詞經常與“fruit”、“red”、“orchard”甚至“iPhone”等詞一起出現。這種統計理解被編碼在數十億個參數(基本上是AI神經網絡中的可調整設置)中。
但這裡有一個價值百萬的問題:大規模語言模型的知識有多少來自泛化學習,又有多少是純粹的逐字記憶?
這不僅是學術問題——它還有現實世界的法律影響。如果AI模型被發現複製大量受版權保護的文本,藝術家、作者和出版商的訴訟可能會獲得支持。但如果它們真正學習的是模式而非確切內容,AI公司可能擁有更強的合理使用辯護。
答案:每個參數3.6位元
研究發現,大規模語言模型的記憶容量約為每個參數3.6位元。這在實際中意味著什麼?
- 單一位元是最小的數位單位(0或1)。
- 3.6位元可以儲存大約12個不同值——就像選擇一年中的某個月或擲12面骰子。
- 這不足以儲存一個完整的英文字母(需要約4.7位元),但可以編碼來自10個常見字母的縮減集合中的字符。
- 以位元組計算,3.6位元僅為0.45位元組——不到標準ASCII字符的一半。
關鍵是,這個數字在不同模型規模、架構甚至精度水平下保持穩定(儘管全精度模型略高,達到每個參數3.83位元)。
驚人發現:更多數據 = 更少記憶
這裡的事情變得非常有趣:訓練更多數據不會增加記憶——實際上會減少記憶。
正如首席研究員Jack Morris解釋:
“訓練更多數據會迫使模型對每個樣本記憶更少。”
這樣想:如果AI有一個固定的“記憶預算”,將其分散在更大的數據集上意味著每個單獨的部分獲得更少的專用儲存。因此,更大的數據集鼓勵泛化而非機械複製——這可能緩解對AI重複輸出受版權保護或敏感內容的擔憂。
研究者如何測量這一點?
為了將記憶與泛化分離,研究團隊在完全隨機的位元串上訓練模型——這些數據毫無模式或結構。
為什麼?因為如果模型重建了一個隨機字符串,它必須是記憶的——沒有底層邏輯可推斷。
這種方法使他們能夠:
✔ 測ynos
✔ 測量純粹的記憶,與學習模式分開。
✔ 確認記憶隨模型規模可預測地擴展。
✔ 顯示隨著數據集變大,泛化開始生效。
現實世界的影響
- 較小的數據集導致更多記憶。
- 較大的數據集推動模型走向泛化(伴隨著臨時的“雙下降”性能下降)。
較高精度(例如,float32與bfloat16相比)略微增加記憶容量(從3.51位元/參數到3.83位元/參數)。
獨特數據更容易被記憶
雖然研究聚焦於平均值,高度獨特或風格化的內容(如罕見的程式碼片段或獨特的寫作)可能更容易被記憶。
然而,成員推斷攻擊(試圖檢測特定數據是否在訓練集中)隨著數據集的增長變得不可靠——支持大規模訓練降低隱私風險的觀點。
總結視角
- 50萬參數模型可以記憶約225 KB的數據。
- 15億參數模型可以儲存約675 MB。
- 這不足以重現整本書或圖像,但確實能解釋分散的文本模式。
法律影響?
這項研究可能在正在進行的AI版權訴訟中發揮關鍵作用。如果法院認為大規模語言模型主要泛化而非複製,AI公司可能擁有更強的合理使用論點。
結論
更多數據 = 更安全、更泛化的AI。與其害怕龐大的數據集,我們實際上可能希望擁有它們——因為它們推動模型走向理解而非記憶。
這項研究不僅加深了我們對AI的理解——它可能會重塑我們未來如何監管、開發和信任這些強大的系統。
相關文章
Qodo與Google Cloud合作為開發者提供免費AI程式碼審查工具
Qodo,一家專注於程式碼品質的以色列AI編碼新創公司,與Google Cloud合作推出夥伴關係,以提升AI生成軟體的完整性。隨著企業越來越依賴AI進行編碼,對強大監督和品質保證工具的需求日益增長。Qodo執行長Itamar Friedman指出,AI生成程式碼現已成為現代開發的核心。「想像一個未來,AI撰寫所有程式碼;人類無法全部審查,」Friedman說。「我們需要系統確保程式碼符合預期價值
Salesforce 揭曉 Slack 中 AI 數位隊友以對抗 Microsoft Copilot
Salesforce 推出全新工作場所 AI 策略,於週一宣布在 Slack 對話中引入專屬的「數位隊友」。全新工具 Agentforce in Slack 讓企業能夠創建並部署針對特定任務的 AI 代理,這些代理可搜尋工作場所聊天記錄、存取公司資料,並在員工日常工作的訊息平台內執行操作。「正如專業員工協作解決問題,我們的客戶需要 AI 代理共同合作,為客戶和員工解決問題,」Salesforce
甲骨文40億美元Nvidia晶片投資推動德州AI數據中心
據《金融時報》報導,甲骨文計劃投資約40億美元於Nvidia晶片,為OpenAI在德州開發的大型新數據中心提供動力。這筆交易是迄今為止最大的晶片收購之一,凸顯了對AI運算資源的激增需求。該設施位於德州阿比林,是美國首個「星門」數據中心。由OpenAI和軟銀支持,屬於建設大規模AI基礎設施的更廣泛計劃的一部分。該德州中心預計明年完工,將提供1.2吉瓦的運算能力,位列全球最大之列。甲骨文計劃採購約40
評論 (1)
0/200
EdwardYoung
2025-08-10 07:01:00
This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!
0
AI模型實際記憶多少?新研究揭示驚人見解
我們都知道,像ChatGPT、Claude和Gemini這樣的大規模語言模型(LLMs)是在龐大數據集上訓練的——來自書籍、網站、程式碼,甚至圖像和音頻等多媒體的數兆字詞。但這些數據到底發生了什麼?這些模型真的理解語言,還是僅僅在重複記憶的片段?
來自Meta、Google DeepMind、Cornell和NVIDIA的一項突破性新研究終於給出了具體答案——結果可能會讓你感到意外。
核心問題:記憶 vs. 泛化
大規模語言模型的核心是通過檢測語言中的統計模式來運作。當你問ChatGPT關於蘋果的問題時,它並非以人類的方式“知道”蘋果是什麼——它只是辨識出“apple”這個詞經常與“fruit”、“red”、“orchard”甚至“iPhone”等詞一起出現。這種統計理解被編碼在數十億個參數(基本上是AI神經網絡中的可調整設置)中。
但這裡有一個價值百萬的問題:大規模語言模型的知識有多少來自泛化學習,又有多少是純粹的逐字記憶?
這不僅是學術問題——它還有現實世界的法律影響。如果AI模型被發現複製大量受版權保護的文本,藝術家、作者和出版商的訴訟可能會獲得支持。但如果它們真正學習的是模式而非確切內容,AI公司可能擁有更強的合理使用辯護。
答案:每個參數3.6位元
研究發現,大規模語言模型的記憶容量約為每個參數3.6位元。這在實際中意味著什麼?
- 單一位元是最小的數位單位(0或1)。
- 3.6位元可以儲存大約12個不同值——就像選擇一年中的某個月或擲12面骰子。
- 這不足以儲存一個完整的英文字母(需要約4.7位元),但可以編碼來自10個常見字母的縮減集合中的字符。
- 以位元組計算,3.6位元僅為0.45位元組——不到標準ASCII字符的一半。
關鍵是,這個數字在不同模型規模、架構甚至精度水平下保持穩定(儘管全精度模型略高,達到每個參數3.83位元)。
驚人發現:更多數據 = 更少記憶
這裡的事情變得非常有趣:訓練更多數據不會增加記憶——實際上會減少記憶。
正如首席研究員Jack Morris解釋:
“訓練更多數據會迫使模型對每個樣本記憶更少。”
這樣想:如果AI有一個固定的“記憶預算”,將其分散在更大的數據集上意味著每個單獨的部分獲得更少的專用儲存。因此,更大的數據集鼓勵泛化而非機械複製——這可能緩解對AI重複輸出受版權保護或敏感內容的擔憂。
研究者如何測量這一點?
為了將記憶與泛化分離,研究團隊在完全隨機的位元串上訓練模型——這些數據毫無模式或結構。
為什麼?因為如果模型重建了一個隨機字符串,它必須是記憶的——沒有底層邏輯可推斷。
這種方法使他們能夠:
✔ 測ynos
✔ 測量純粹的記憶,與學習模式分開。
✔ 確認記憶隨模型規模可預測地擴展。
✔ 顯示隨著數據集變大,泛化開始生效。
現實世界的影響
- 較小的數據集導致更多記憶。
- 較大的數據集推動模型走向泛化(伴隨著臨時的“雙下降”性能下降)。 較高精度(例如,float32與bfloat16相比)略微增加記憶容量(從3.51位元/參數到3.83位元/參數)。
獨特數據更容易被記憶
雖然研究聚焦於平均值,高度獨特或風格化的內容(如罕見的程式碼片段或獨特的寫作)可能更容易被記憶。
然而,成員推斷攻擊(試圖檢測特定數據是否在訓練集中)隨著數據集的增長變得不可靠——支持大規模訓練降低隱私風險的觀點。
總結視角
- 50萬參數模型可以記憶約225 KB的數據。
- 15億參數模型可以儲存約675 MB。
- 這不足以重現整本書或圖像,但確實能解釋分散的文本模式。
法律影響?
這項研究可能在正在進行的AI版權訴訟中發揮關鍵作用。如果法院認為大規模語言模型主要泛化而非複製,AI公司可能擁有更強的合理使用論點。
結論
更多數據 = 更安全、更泛化的AI。與其害怕龐大的數據集,我們實際上可能希望擁有它們——因為它們推動模型走向理解而非記憶。
這項研究不僅加深了我們對AI的理解——它可能會重塑我們未來如何監管、開發和信任這些強大的系統。



This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!












