選項
首頁
新聞
新研究揭示大規模語言模型實際記憶的數據量

新研究揭示大規模語言模型實際記憶的數據量

2025-07-06
121

新研究揭示大規模語言模型實際記憶的數據量

AI模型實際記憶多少?新研究揭示驚人見解

我們都知道,像ChatGPT、Claude和Gemini這樣的大規模語言模型(LLMs)是在龐大數據集上訓練的——來自書籍、網站、程式碼,甚至圖像和音頻等多媒體的數兆字詞。但這些數據到底發生了什麼?這些模型真的理解語言,還是僅僅在重複記憶的片段?

來自Meta、Google DeepMind、Cornell和NVIDIA的一項突破性新研究終於給出了具體答案——結果可能會讓你感到意外。

核心問題:記憶 vs. 泛化

大規模語言模型的核心是通過檢測語言中的統計模式來運作。當你問ChatGPT關於蘋果的問題時,它並非以人類的方式“知道”蘋果是什麼——它只是辨識出“apple”這個詞經常與“fruit”、“red”、“orchard”甚至“iPhone”等詞一起出現。這種統計理解被編碼在數十億個參數(基本上是AI神經網絡中的可調整設置)中。

但這裡有一個價值百萬的問題:大規模語言模型的知識有多少來自泛化學習,又有多少是純粹的逐字記憶?

這不僅是學術問題——它還有現實世界的法律影響。如果AI模型被發現複製大量受版權保護的文本,藝術家、作者和出版商的訴訟可能會獲得支持。但如果它們真正學習的是模式而非確切內容,AI公司可能擁有更強的合理使用辯護。

答案:每個參數3.6位元

研究發現,大規模語言模型的記憶容量約為每個參數3.6位元。這在實際中意味著什麼?

  • 單一位元是最小的數位單位(0或1)。
  • 3.6位元可以儲存大約12個不同值——就像選擇一年中的某個月或擲12面骰子。
  • 這不足以儲存一個完整的英文字母(需要約4.7位元),但可以編碼來自10個常見字母的縮減集合中的字符。
  • 以位元組計算,3.6位元僅為0.45位元組——不到標準ASCII字符的一半。

關鍵是,這個數字在不同模型規模、架構甚至精度水平下保持穩定(儘管全精度模型略高,達到每個參數3.83位元)。

驚人發現:更多數據 = 更少記憶

這裡的事情變得非常有趣:訓練更多數據不會增加記憶——實際上會減少記憶。

正如首席研究員Jack Morris解釋:

“訓練更多數據會迫使模型對每個樣本記憶更少。”

這樣想:如果AI有一個固定的“記憶預算”,將其分散在更大的數據集上意味著每個單獨的部分獲得更少的專用儲存。因此,更大的數據集鼓勵泛化而非機械複製——這可能緩解對AI重複輸出受版權保護或敏感內容的擔憂。

研究者如何測量這一點?

為了將記憶與泛化分離,研究團隊在完全隨機的位元串上訓練模型——這些數據毫無模式或結構。

為什麼?因為如果模型重建了一個隨機字符串,它必須是記憶的——沒有底層邏輯可推斷。

這種方法使他們能夠:
✔ 測ynos ✔ 測量純粹的記憶,與學習模式分開。
✔ 確認記憶隨模型規模可預測地擴展
✔ 顯示隨著數據集變大,泛化開始生效

現實世界的影響

  • 較小的數據集導致更多記憶。
  • 較大的數據集推動模型走向泛化(伴隨著臨時的“雙下降”性能下降)。
  • 較高精度(例如,float32與bfloat16相比)略微增加記憶容量(從3.51位元/參數到3.83位元/參數)。

獨特數據更容易被記憶

雖然研究聚焦於平均值,高度獨特或風格化的內容(如罕見的程式碼片段或獨特的寫作)可能更容易被記憶。

然而,成員推斷攻擊(試圖檢測特定數據是否在訓練集中)隨著數據集的增長變得不可靠——支持大規模訓練降低隱私風險的觀點。

總結視角

  • 50萬參數模型可以記憶約225 KB的數據。
  • 15億參數模型可以儲存約675 MB。
  • 這不足以重現整本書或圖像,但確實能解釋分散的文本模式。

法律影響?

這項研究可能在正在進行的AI版權訴訟中發揮關鍵作用。如果法院認為大規模語言模型主要泛化而非複製,AI公司可能擁有更強的合理使用論點。

結論

更多數據 = 更安全、更泛化的AI。與其害怕龐大的數據集,我們實際上可能希望擁有它們——因為它們推動模型走向理解而非記憶

這項研究不僅加深了我們對AI的理解——它可能會重塑我們未來如何監管、開發和信任這些強大的系統。

相關文章
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息 Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息 Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器 Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器 亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
相關專題推薦
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
聊天機器人 最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信
最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單,能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具,並透過免費與付費版本的比較,以及每週更新的排行榜,立即解鎖您的社交優勢。

10 個工具
xix.ai
代碼 最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例
最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例

探索2026年最新評選出的頂級AI工具,這些工具專為自動化單元測試而設計。我們精心挑選了那些功能強大、能夠改變開發流程的工具,它們能夠幫助您快速生成Jest、PyTest和JUnit測試用例。在XIX.AI平臺上,您可以免費檢視各種選項,並透過實際測試結果以及每週更新的排名來了解它們的優劣。立即利用這些AI工具,提升您的開發效率吧!

10 個工具
xix.ai
評論 (2)
0/500
LawrenceWilliams
LawrenceWilliams 2025-08-24 11:01:17

This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?

EdwardYoung
EdwardYoung 2025-08-10 07:01:00

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

OR