新研究揭示大規模語言模型實際記憶的數據量

AI模型實際記憶多少?新研究揭示驚人見解
我們都知道,像ChatGPT、Claude和Gemini這樣的大規模語言模型(LLMs)是在龐大數據集上訓練的——來自書籍、網站、程式碼,甚至圖像和音頻等多媒體的數兆字詞。但這些數據到底發生了什麼?這些模型真的理解語言,還是僅僅在重複記憶的片段?
來自Meta、Google DeepMind、Cornell和NVIDIA的一項突破性新研究終於給出了具體答案——結果可能會讓你感到意外。
核心問題:記憶 vs. 泛化
大規模語言模型的核心是通過檢測語言中的統計模式來運作。當你問ChatGPT關於蘋果的問題時,它並非以人類的方式“知道”蘋果是什麼——它只是辨識出“apple”這個詞經常與“fruit”、“red”、“orchard”甚至“iPhone”等詞一起出現。這種統計理解被編碼在數十億個參數(基本上是AI神經網絡中的可調整設置)中。
但這裡有一個價值百萬的問題:大規模語言模型的知識有多少來自泛化學習,又有多少是純粹的逐字記憶?
這不僅是學術問題——它還有現實世界的法律影響。如果AI模型被發現複製大量受版權保護的文本,藝術家、作者和出版商的訴訟可能會獲得支持。但如果它們真正學習的是模式而非確切內容,AI公司可能擁有更強的合理使用辯護。
答案:每個參數3.6位元
研究發現,大規模語言模型的記憶容量約為每個參數3.6位元。這在實際中意味著什麼?
- 單一位元是最小的數位單位(0或1)。
- 3.6位元可以儲存大約12個不同值——就像選擇一年中的某個月或擲12面骰子。
- 這不足以儲存一個完整的英文字母(需要約4.7位元),但可以編碼來自10個常見字母的縮減集合中的字符。
- 以位元組計算,3.6位元僅為0.45位元組——不到標準ASCII字符的一半。
關鍵是,這個數字在不同模型規模、架構甚至精度水平下保持穩定(儘管全精度模型略高,達到每個參數3.83位元)。
驚人發現:更多數據 = 更少記憶
這裡的事情變得非常有趣:訓練更多數據不會增加記憶——實際上會減少記憶。
正如首席研究員Jack Morris解釋:
“訓練更多數據會迫使模型對每個樣本記憶更少。”
這樣想:如果AI有一個固定的“記憶預算”,將其分散在更大的數據集上意味著每個單獨的部分獲得更少的專用儲存。因此,更大的數據集鼓勵泛化而非機械複製——這可能緩解對AI重複輸出受版權保護或敏感內容的擔憂。
研究者如何測量這一點?
為了將記憶與泛化分離,研究團隊在完全隨機的位元串上訓練模型——這些數據毫無模式或結構。
為什麼?因為如果模型重建了一個隨機字符串,它必須是記憶的——沒有底層邏輯可推斷。
這種方法使他們能夠:
✔ 測ynos
✔ 測量純粹的記憶,與學習模式分開。
✔ 確認記憶隨模型規模可預測地擴展。
✔ 顯示隨著數據集變大,泛化開始生效。
現實世界的影響
- 較小的數據集導致更多記憶。
- 較大的數據集推動模型走向泛化(伴隨著臨時的“雙下降”性能下降)。
較高精度(例如,float32與bfloat16相比)略微增加記憶容量(從3.51位元/參數到3.83位元/參數)。
獨特數據更容易被記憶
雖然研究聚焦於平均值,高度獨特或風格化的內容(如罕見的程式碼片段或獨特的寫作)可能更容易被記憶。
然而,成員推斷攻擊(試圖檢測特定數據是否在訓練集中)隨著數據集的增長變得不可靠——支持大規模訓練降低隱私風險的觀點。
總結視角
- 50萬參數模型可以記憶約225 KB的數據。
- 15億參數模型可以儲存約675 MB。
- 這不足以重現整本書或圖像,但確實能解釋分散的文本模式。
法律影響?
這項研究可能在正在進行的AI版權訴訟中發揮關鍵作用。如果法院認為大規模語言模型主要泛化而非複製,AI公司可能擁有更強的合理使用論點。
結論
更多數據 = 更安全、更泛化的AI。與其害怕龐大的數據集,我們實際上可能希望擁有它們——因為它們推動模型走向理解而非記憶。
這項研究不僅加深了我們對AI的理解——它可能會重塑我們未來如何監管、開發和信任這些強大的系統。
相關文章
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器
亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
相關專題推薦
評論 (2)
0/500
This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?

AI模型實際記憶多少?新研究揭示驚人見解
我們都知道,像ChatGPT、Claude和Gemini這樣的大規模語言模型(LLMs)是在龐大數據集上訓練的——來自書籍、網站、程式碼,甚至圖像和音頻等多媒體的數兆字詞。但這些數據到底發生了什麼?這些模型真的理解語言,還是僅僅在重複記憶的片段?
來自Meta、Google DeepMind、Cornell和NVIDIA的一項突破性新研究終於給出了具體答案——結果可能會讓你感到意外。
核心問題:記憶 vs. 泛化
大規模語言模型的核心是通過檢測語言中的統計模式來運作。當你問ChatGPT關於蘋果的問題時,它並非以人類的方式“知道”蘋果是什麼——它只是辨識出“apple”這個詞經常與“fruit”、“red”、“orchard”甚至“iPhone”等詞一起出現。這種統計理解被編碼在數十億個參數(基本上是AI神經網絡中的可調整設置)中。
但這裡有一個價值百萬的問題:大規模語言模型的知識有多少來自泛化學習,又有多少是純粹的逐字記憶?
這不僅是學術問題——它還有現實世界的法律影響。如果AI模型被發現複製大量受版權保護的文本,藝術家、作者和出版商的訴訟可能會獲得支持。但如果它們真正學習的是模式而非確切內容,AI公司可能擁有更強的合理使用辯護。
答案:每個參數3.6位元
研究發現,大規模語言模型的記憶容量約為每個參數3.6位元。這在實際中意味著什麼?
- 單一位元是最小的數位單位(0或1)。
- 3.6位元可以儲存大約12個不同值——就像選擇一年中的某個月或擲12面骰子。
- 這不足以儲存一個完整的英文字母(需要約4.7位元),但可以編碼來自10個常見字母的縮減集合中的字符。
- 以位元組計算,3.6位元僅為0.45位元組——不到標準ASCII字符的一半。
關鍵是,這個數字在不同模型規模、架構甚至精度水平下保持穩定(儘管全精度模型略高,達到每個參數3.83位元)。
驚人發現:更多數據 = 更少記憶
這裡的事情變得非常有趣:訓練更多數據不會增加記憶——實際上會減少記憶。
正如首席研究員Jack Morris解釋:
“訓練更多數據會迫使模型對每個樣本記憶更少。”
這樣想:如果AI有一個固定的“記憶預算”,將其分散在更大的數據集上意味著每個單獨的部分獲得更少的專用儲存。因此,更大的數據集鼓勵泛化而非機械複製——這可能緩解對AI重複輸出受版權保護或敏感內容的擔憂。
研究者如何測量這一點?
為了將記憶與泛化分離,研究團隊在完全隨機的位元串上訓練模型——這些數據毫無模式或結構。
為什麼?因為如果模型重建了一個隨機字符串,它必須是記憶的——沒有底層邏輯可推斷。
這種方法使他們能夠:
✔ 測ynos
✔ 測量純粹的記憶,與學習模式分開。
✔ 確認記憶隨模型規模可預測地擴展。
✔ 顯示隨著數據集變大,泛化開始生效。
現實世界的影響
- 較小的數據集導致更多記憶。
- 較大的數據集推動模型走向泛化(伴隨著臨時的“雙下降”性能下降)。 較高精度(例如,float32與bfloat16相比)略微增加記憶容量(從3.51位元/參數到3.83位元/參數)。
獨特數據更容易被記憶
雖然研究聚焦於平均值,高度獨特或風格化的內容(如罕見的程式碼片段或獨特的寫作)可能更容易被記憶。
然而,成員推斷攻擊(試圖檢測特定數據是否在訓練集中)隨著數據集的增長變得不可靠——支持大規模訓練降低隱私風險的觀點。
總結視角
- 50萬參數模型可以記憶約225 KB的數據。
- 15億參數模型可以儲存約675 MB。
- 這不足以重現整本書或圖像,但確實能解釋分散的文本模式。
法律影響?
這項研究可能在正在進行的AI版權訴訟中發揮關鍵作用。如果法院認為大規模語言模型主要泛化而非複製,AI公司可能擁有更強的合理使用論點。
結論
更多數據 = 更安全、更泛化的AI。與其害怕龐大的數據集,我們實際上可能希望擁有它們——因為它們推動模型走向理解而非記憶。
這項研究不僅加深了我們對AI的理解——它可能會重塑我們未來如何監管、開發和信任這些強大的系統。
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器
亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?





首頁






