选项
首页
新闻
新研究揭示大语言模型实际记忆的数据量

新研究揭示大语言模型实际记忆的数据量

2025-07-06
40

新研究揭示大语言模型实际记忆的数据量

AI模型实际记忆了多少?新研究揭示惊人见解

我们都知道,像ChatGPT、Claude和Gemini这样的大型语言模型(LLMs)是在海量数据集上训练的——包括来自书籍、网站、代码,甚至图像和音频等多媒体的数万亿字词。但这些数据到底发生了什么?这些模型是真正理解语言,还是仅仅在复述记忆的片段?

来自Meta、Google DeepMind、Cornell和NVIDIA的一项突破性新研究终于给出了具体答案——结果可能让你惊讶。

核心问题:记忆 vs. 泛化

大型语言模型的核心是通过检测语言中的统计模式来工作。当你询问ChatGPT关于苹果的问题时,它并不是以人类的方式“知道”苹果是什么——而是识别出“apple”这个词经常与“fruit”、“red”、“orchard”甚至“iPhone”等词一起出现。这种统计理解被编码在数十亿个参数中(本质上是AI神经网络的可调设置)。

但关键问题是:大型语言模型的知识有多少来自泛化学习,有多少是逐字记忆?

这不仅仅是学术问题——它还有现实世界的法律影响。如果AI模型被发现复制了大量受版权保护的文本,艺术家、作者和出版商的诉讼可能会有更大胜算。但如果它们真正学习的是模式而非具体内容,AI公司可能会有更强的合理使用辩护。

答案:每个参数3.6位

研究发现,大型语言模型的固定记忆容量约为每个参数3.6位。这在实际中意味着什么?

  • 单个位是最小的数字单元(0或1)。
  • 3.6位可以存储大约12个不同值——就像选择一年中的月份或掷12面骰子。
  • 不足以存储完整的英文字符(需要约4.7位),但可以编码来自10个常见字符的子集中的字符。
  • 以字节计,3.6位仅为0.45字节——不到半个标准ASCII字符。

关键是,这一数字在不同模型规模、架构甚至精度水平下保持稳定(尽管全精度模型略高,达到3.83位/参数)。

意外发现:更多数据=更少记忆

事情变得非常有趣:在更多数据上训练不会增加记忆——实际上会减少记忆。

正如首席研究员Jack Morris解释道:

“在更多数据上训练迫使模型对每个样本的记忆减少。”

可以这样理解:如果AI有一个固定的“记忆预算”,将其分散到更大的数据集意味着每个单独的部分获得更少的专用存储。因此,更大的数据集鼓励泛化而非机械复制——这可能缓解对AI复述受版权保护或敏感内容的担忧。

研究人员如何测量这一点?

为了将记忆与泛化分开,研究团队在完全随机的位串上训练模型——这些数据没有任何模式或结构。

为什么?因为如果模型重构了一个随机字符串,它必须是记忆了它——没有底层逻辑可供推断。

这种方法使他们能够:
✔ 测量纯粹的记忆,与学习的模式分开。
✔ 确认记忆随模型规模可预测地扩展
✔ 证明随着数据集变大,泛化开始发挥作用

现实世界的意义

  • 较小的数据集导致更多记忆。
  • 较大的数据集推动模型向泛化发展(伴随性能的暂时“双重下降”)。
  • 更高精度(如float32对比bfloat16)略微增加记忆容量(从3.51位/参数到3.83位/参数)。

独特的数据更容易被记忆

虽然研究关注平均值,高度独特或风格化的内容(如罕见的代码片段或独特的写作)可能仍更容易被记忆。

然而,随着数据集的增长,成员推断攻击(试图检测特定数据是否在训练集中)变得不可靠——支持了大规模训练降低隐私风险的观点。

放在更大的背景下

  • 50万个参数的模型可以记忆约225 KB的数据。
  • 15亿个参数的模型可以存储约675 MB。
  • 这不足以重现整本书或图像,但确实解释了分布式的文本模式。

法律影响?

这项研究可能在正在进行的AI版权诉讼中发挥关键作用。如果法院认为大型语言模型主要泛化而非复制,AI公司可能会有更强的合理使用论据。

底线

更多数据=更安全、更泛化的AI。与其担心海量数据集,我们可能实际上希望它们——因为它们推动模型向理解而非 エム>记忆发展。

这项研究不仅加深了我们对AI的理解——它可能重塑我们未来如何监管、开发和信任这些强大系统。

相关文章
Multiverse AI 推出突破性微型高性能模型 Multiverse AI 推出突破性微型高性能模型 欧洲一家开创性的人工智能初创公司推出了突破性的微型人工智能模型,这些模型以鸟类和昆虫的大脑命名,表明强大的人工智能并不需要大规模。Multiverse Computing 公司的创新核心是专为边缘计算应用设计的超紧凑但功能强大的模型。这些微型神经网络被命名为 "ChickBrain"(32 亿个参数)和 "SuperFly"(9400 万个参数),代表了高效人工智能部署的重大飞跃。"创始人罗曼-奥
TensorZero 获得 730 万美元种子基金,用于简化企业 LLM 开发 TensorZero 获得 730 万美元种子基金,用于简化企业 LLM 开发 新兴的人工智能应用开源基础设施提供商 TensorZero 已获得 730 万美元种子轮融资,由 FirstMark Capital 领投,Bessemer Venture Partners、Bedrock、DRW、Coalition 和众多行业天使投资人跟投。TensorZero 的 GitHub 存储库获得了全球 "第一趋势 "地位,近几个月来,其星级数从 3,000 个增至 9,700
文件显示,Meta 与 Llama 人工智能模型主机共享收入 文件显示,Meta 与 Llama 人工智能模型主机共享收入 尽管 Meta 首席执行官马克-扎克伯格(Mark Zuckerberg)在 2023 年 7 月强调,"出售访问权 "并不是 Llama AI 模型的商业模式,但最新披露的法庭文件显示,Meta 与托管这些开源模型的云提供商建立了收入共享合作关系。通过托管合作实现盈利未经编辑的 Kadrey 诉 Meta 案诉讼文件显示,Meta 从向用户提供 Llama 模型的公司那里获得收入分成,但没
评论 (2)
0/200
LawrenceWilliams
LawrenceWilliams 2025-08-24 11:01:17

This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?

EdwardYoung
EdwardYoung 2025-08-10 07:01:00

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

返回顶部
OR