選項
首頁
消息
新研究揭示大規模語言模型實際記憶的數據量

新研究揭示大規模語言模型實際記憶的數據量

2025-07-06
0

新研究揭示大規模語言模型實際記憶的數據量

AI模型實際記憶多少?新研究揭示驚人見解

我們都知道,像ChatGPT、Claude和Gemini這樣的大規模語言模型(LLMs)是在龐大數據集上訓練的——來自書籍、網站、程式碼,甚至圖像和音頻等多媒體的數兆字詞。但這些數據到底發生了什麼?這些模型真的理解語言,還是僅僅在重複記憶的片段?

來自Meta、Google DeepMind、Cornell和NVIDIA的一項突破性新研究終於給出了具體答案——結果可能會讓你感到意外。

核心問題:記憶 vs. 泛化

大規模語言模型的核心是通過檢測語言中的統計模式來運作。當你問ChatGPT關於蘋果的問題時,它並非以人類的方式“知道”蘋果是什麼——它只是辨識出“apple”這個詞經常與“fruit”、“red”、“orchard”甚至“iPhone”等詞一起出現。這種統計理解被編碼在數十億個參數(基本上是AI神經網絡中的可調整設置)中。

但這裡有一個價值百萬的問題:大規模語言模型的知識有多少來自泛化學習,又有多少是純粹的逐字記憶?

這不僅是學術問題——它還有現實世界的法律影響。如果AI模型被發現複製大量受版權保護的文本,藝術家、作者和出版商的訴訟可能會獲得支持。但如果它們真正學習的是模式而非確切內容,AI公司可能擁有更強的合理使用辯護。

答案:每個參數3.6位元

研究發現,大規模語言模型的記憶容量約為每個參數3.6位元。這在實際中意味著什麼?

  • 單一位元是最小的數位單位(0或1)。
  • 3.6位元可以儲存大約12個不同值——就像選擇一年中的某個月或擲12面骰子。
  • 這不足以儲存一個完整的英文字母(需要約4.7位元),但可以編碼來自10個常見字母的縮減集合中的字符。
  • 以位元組計算,3.6位元僅為0.45位元組——不到標準ASCII字符的一半。

關鍵是,這個數字在不同模型規模、架構甚至精度水平下保持穩定(儘管全精度模型略高,達到每個參數3.83位元)。

驚人發現:更多數據 = 更少記憶

這裡的事情變得非常有趣:訓練更多數據不會增加記憶——實際上會減少記憶。

正如首席研究員Jack Morris解釋:

“訓練更多數據會迫使模型對每個樣本記憶更少。”

這樣想:如果AI有一個固定的“記憶預算”,將其分散在更大的數據集上意味著每個單獨的部分獲得更少的專用儲存。因此,更大的數據集鼓勵泛化而非機械複製——這可能緩解對AI重複輸出受版權保護或敏感內容的擔憂。

研究者如何測量這一點?

為了將記憶與泛化分離,研究團隊在完全隨機的位元串上訓練模型——這些數據毫無模式或結構。

為什麼?因為如果模型重建了一個隨機字符串,它必須是記憶的——沒有底層邏輯可推斷。

這種方法使他們能夠:
✔ 測ynos ✔ 測量純粹的記憶,與學習模式分開。
✔ 確認記憶隨模型規模可預測地擴展
✔ 顯示隨著數據集變大,泛化開始生效

現實世界的影響

  • 較小的數據集導致更多記憶。
  • 較大的數據集推動模型走向泛化(伴隨著臨時的“雙下降”性能下降)。
  • 較高精度(例如,float32與bfloat16相比)略微增加記憶容量(從3.51位元/參數到3.83位元/參數)。

獨特數據更容易被記憶

雖然研究聚焦於平均值,高度獨特或風格化的內容(如罕見的程式碼片段或獨特的寫作)可能更容易被記憶。

然而,成員推斷攻擊(試圖檢測特定數據是否在訓練集中)隨著數據集的增長變得不可靠——支持大規模訓練降低隱私風險的觀點。

總結視角

  • 50萬參數模型可以記憶約225 KB的數據。
  • 15億參數模型可以儲存約675 MB。
  • 這不足以重現整本書或圖像,但確實能解釋分散的文本模式。

法律影響?

這項研究可能在正在進行的AI版權訴訟中發揮關鍵作用。如果法院認為大規模語言模型主要泛化而非複製,AI公司可能擁有更強的合理使用論點。

結論

更多數據 = 更安全、更泛化的AI。與其害怕龐大的數據集,我們實際上可能希望擁有它們——因為它們推動模型走向理解而非記憶

這項研究不僅加深了我們對AI的理解——它可能會重塑我們未來如何監管、開發和信任這些強大的系統。

相關文章
How The Ottawa Hospital uses AI ambient voice capture to reduce physician burnout by 70%, achieve 97% patient satisfaction How The Ottawa Hospital uses AI ambient voice capture to reduce physician burnout by 70%, achieve 97% patient satisfaction How AI is Transforming Healthcare: Reducing Burnout and Improving Patient CareThe Challenge: Clinician Overload and Patient AccessHealthcare systems worldwide face a dual challenge: clinician burnout and patient access delays. Physicians are drowning in administrative tasks, while patients struggle
6 Must-Know ChatGPT Project Features for Enhanced AI Performance 6 Must-Know ChatGPT Project Features for Enhanced AI Performance ChatGPT Projects Just Got a Major Upgrade – Here’s What’s NewOpenAI has rolled out its biggest update yet for ChatGPT Projects, transforming it from a simple organizational tool into a powerhouse for productivity. Whether you're managing research, coding projects, or creative workflows, these six ne
OpenAI ships GPT-4.1 without a safety report OpenAI ships GPT-4.1 without a safety report OpenAI’s GPT-4.1 Launches Without a Safety Report—Here’s Why That MattersOn Monday, OpenAI unveiled GPT-4.1, its latest AI model, boasting improved performance—especially in programming benchmarks. But unlike previous releases, this one came with a notable omission: no safety report. Typically, Ope
評論 (0)
0/200
回到頂部
OR