新研究揭示大语言模型实际记忆的数据量

AI模型实际记忆了多少?新研究揭示惊人见解
我们都知道,像ChatGPT、Claude和Gemini这样的大型语言模型(LLMs)是在海量数据集上训练的——包括来自书籍、网站、代码,甚至图像和音频等多媒体的数万亿字词。但这些数据到底发生了什么?这些模型是真正理解语言,还是仅仅在复述记忆的片段?
来自Meta、Google DeepMind、Cornell和NVIDIA的一项突破性新研究终于给出了具体答案——结果可能让你惊讶。
核心问题:记忆 vs. 泛化
大型语言模型的核心是通过检测语言中的统计模式来工作。当你询问ChatGPT关于苹果的问题时,它并不是以人类的方式“知道”苹果是什么——而是识别出“apple”这个词经常与“fruit”、“red”、“orchard”甚至“iPhone”等词一起出现。这种统计理解被编码在数十亿个参数中(本质上是AI神经网络的可调设置)。
但关键问题是:大型语言模型的知识有多少来自泛化学习,有多少是逐字记忆?
这不仅仅是学术问题——它还有现实世界的法律影响。如果AI模型被发现复制了大量受版权保护的文本,艺术家、作者和出版商的诉讼可能会有更大胜算。但如果它们真正学习的是模式而非具体内容,AI公司可能会有更强的合理使用辩护。
答案:每个参数3.6位
研究发现,大型语言模型的固定记忆容量约为每个参数3.6位。这在实际中意味着什么?
- 单个位是最小的数字单元(0或1)。
- 3.6位可以存储大约12个不同值——就像选择一年中的月份或掷12面骰子。
- 不足以存储完整的英文字符(需要约4.7位),但可以编码来自10个常见字符的子集中的字符。
- 以字节计,3.6位仅为0.45字节——不到半个标准ASCII字符。
关键是,这一数字在不同模型规模、架构甚至精度水平下保持稳定(尽管全精度模型略高,达到3.83位/参数)。
意外发现:更多数据=更少记忆
事情变得非常有趣:在更多数据上训练不会增加记忆——实际上会减少记忆。
正如首席研究员Jack Morris解释道:
“在更多数据上训练迫使模型对每个样本的记忆减少。”
可以这样理解:如果AI有一个固定的“记忆预算”,将其分散到更大的数据集意味着每个单独的部分获得更少的专用存储。因此,更大的数据集鼓励泛化而非机械复制——这可能缓解对AI复述受版权保护或敏感内容的担忧。
研究人员如何测量这一点?
为了将记忆与泛化分开,研究团队在完全随机的位串上训练模型——这些数据没有任何模式或结构。
为什么?因为如果模型重构了一个随机字符串,它必须是记忆了它——没有底层逻辑可供推断。
这种方法使他们能够:
✔ 测量纯粹的记忆,与学习的模式分开。
✔ 确认记忆随模型规模可预测地扩展。
✔ 证明随着数据集变大,泛化开始发挥作用。
现实世界的意义
- 较小的数据集导致更多记忆。
- 较大的数据集推动模型向泛化发展(伴随性能的暂时“双重下降”)。
- 更高精度(如float32对比bfloat16)略微增加记忆容量(从3.51位/参数到3.83位/参数)。
独特的数据更容易被记忆
虽然研究关注平均值,高度独特或风格化的内容(如罕见的代码片段或独特的写作)可能仍更容易被记忆。
然而,随着数据集的增长,成员推断攻击(试图检测特定数据是否在训练集中)变得不可靠——支持了大规模训练降低隐私风险的观点。
放在更大的背景下
- 50万个参数的模型可以记忆约225 KB的数据。
- 15亿个参数的模型可以存储约675 MB。
- 这不足以重现整本书或图像,但确实解释了分布式的文本模式。
法律影响?
这项研究可能在正在进行的AI版权诉讼中发挥关键作用。如果法院认为大型语言模型主要泛化而非复制,AI公司可能会有更强的合理使用论据。
底线
更多数据=更安全、更泛化的AI。与其担心海量数据集,我们可能实际上希望它们——因为它们推动模型向理解而非 エム>记忆发展。
这项研究不仅加深了我们对AI的理解——它可能重塑我们未来如何监管、开发和信任这些强大系统。
相关文章
Qodo与Google Cloud合作,为开发者提供免费AI代码审查工具
Qodo,一家专注于代码质量的以色列AI编码初创公司,已与Google Cloud建立合作关系,以增强AI生成软件的完整性。随着企业越来越依赖AI进行编码,对强大的监督和质量保证工具的需求不断增长。Qodo的首席执行官伊塔马尔·弗里德曼指出,AI生成的代码现已成为现代开发的核心。“想象一个未来,AI编写所有代码;人类无法全部审查,”弗里德曼说。“我们需要系统来确保代码符合预期价值观。”Qodo的创
Salesforce发布Slack AI数字队友对抗Microsoft Copilot
Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心
据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
评论 (1)
0/200
EdwardYoung
2025-08-10 07:01:00
This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!
0
AI模型实际记忆了多少?新研究揭示惊人见解
我们都知道,像ChatGPT、Claude和Gemini这样的大型语言模型(LLMs)是在海量数据集上训练的——包括来自书籍、网站、代码,甚至图像和音频等多媒体的数万亿字词。但这些数据到底发生了什么?这些模型是真正理解语言,还是仅仅在复述记忆的片段?
来自Meta、Google DeepMind、Cornell和NVIDIA的一项突破性新研究终于给出了具体答案——结果可能让你惊讶。
核心问题:记忆 vs. 泛化
大型语言模型的核心是通过检测语言中的统计模式来工作。当你询问ChatGPT关于苹果的问题时,它并不是以人类的方式“知道”苹果是什么——而是识别出“apple”这个词经常与“fruit”、“red”、“orchard”甚至“iPhone”等词一起出现。这种统计理解被编码在数十亿个参数中(本质上是AI神经网络的可调设置)。
但关键问题是:大型语言模型的知识有多少来自泛化学习,有多少是逐字记忆?
这不仅仅是学术问题——它还有现实世界的法律影响。如果AI模型被发现复制了大量受版权保护的文本,艺术家、作者和出版商的诉讼可能会有更大胜算。但如果它们真正学习的是模式而非具体内容,AI公司可能会有更强的合理使用辩护。
答案:每个参数3.6位
研究发现,大型语言模型的固定记忆容量约为每个参数3.6位。这在实际中意味着什么?
- 单个位是最小的数字单元(0或1)。
- 3.6位可以存储大约12个不同值——就像选择一年中的月份或掷12面骰子。
- 不足以存储完整的英文字符(需要约4.7位),但可以编码来自10个常见字符的子集中的字符。
- 以字节计,3.6位仅为0.45字节——不到半个标准ASCII字符。
关键是,这一数字在不同模型规模、架构甚至精度水平下保持稳定(尽管全精度模型略高,达到3.83位/参数)。
意外发现:更多数据=更少记忆
事情变得非常有趣:在更多数据上训练不会增加记忆——实际上会减少记忆。
正如首席研究员Jack Morris解释道:
“在更多数据上训练迫使模型对每个样本的记忆减少。”
可以这样理解:如果AI有一个固定的“记忆预算”,将其分散到更大的数据集意味着每个单独的部分获得更少的专用存储。因此,更大的数据集鼓励泛化而非机械复制——这可能缓解对AI复述受版权保护或敏感内容的担忧。
研究人员如何测量这一点?
为了将记忆与泛化分开,研究团队在完全随机的位串上训练模型——这些数据没有任何模式或结构。
为什么?因为如果模型重构了一个随机字符串,它必须是记忆了它——没有底层逻辑可供推断。
这种方法使他们能够:
✔ 测量纯粹的记忆,与学习的模式分开。
✔ 确认记忆随模型规模可预测地扩展。
✔ 证明随着数据集变大,泛化开始发挥作用。
现实世界的意义
- 较小的数据集导致更多记忆。
- 较大的数据集推动模型向泛化发展(伴随性能的暂时“双重下降”)。
- 更高精度(如float32对比bfloat16)略微增加记忆容量(从3.51位/参数到3.83位/参数)。
独特的数据更容易被记忆
虽然研究关注平均值,高度独特或风格化的内容(如罕见的代码片段或独特的写作)可能仍更容易被记忆。
然而,随着数据集的增长,成员推断攻击(试图检测特定数据是否在训练集中)变得不可靠——支持了大规模训练降低隐私风险的观点。
放在更大的背景下
- 50万个参数的模型可以记忆约225 KB的数据。
- 15亿个参数的模型可以存储约675 MB。
- 这不足以重现整本书或图像,但确实解释了分布式的文本模式。
法律影响?
这项研究可能在正在进行的AI版权诉讼中发挥关键作用。如果法院认为大型语言模型主要泛化而非复制,AI公司可能会有更强的合理使用论据。
底线
更多数据=更安全、更泛化的AI。与其担心海量数据集,我们可能实际上希望它们——因为它们推动模型向理解而非 エム>记忆发展。
这项研究不仅加深了我们对AI的理解——它可能重塑我们未来如何监管、开发和信任这些强大系统。



This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!












