新研究揭示大语言模型实际记忆的数据量

AI模型实际记忆了多少?新研究揭示惊人见解
我们都知道,像ChatGPT、Claude和Gemini这样的大型语言模型(LLMs)是在海量数据集上训练的——包括来自书籍、网站、代码,甚至图像和音频等多媒体的数万亿字词。但这些数据到底发生了什么?这些模型是真正理解语言,还是仅仅在复述记忆的片段?
来自Meta、Google DeepMind、Cornell和NVIDIA的一项突破性新研究终于给出了具体答案——结果可能让你惊讶。
核心问题:记忆 vs. 泛化
大型语言模型的核心是通过检测语言中的统计模式来工作。当你询问ChatGPT关于苹果的问题时,它并不是以人类的方式“知道”苹果是什么——而是识别出“apple”这个词经常与“fruit”、“red”、“orchard”甚至“iPhone”等词一起出现。这种统计理解被编码在数十亿个参数中(本质上是AI神经网络的可调设置)。
但关键问题是:大型语言模型的知识有多少来自泛化学习,有多少是逐字记忆?
这不仅仅是学术问题——它还有现实世界的法律影响。如果AI模型被发现复制了大量受版权保护的文本,艺术家、作者和出版商的诉讼可能会有更大胜算。但如果它们真正学习的是模式而非具体内容,AI公司可能会有更强的合理使用辩护。
答案:每个参数3.6位
研究发现,大型语言模型的固定记忆容量约为每个参数3.6位。这在实际中意味着什么?
- 单个位是最小的数字单元(0或1)。
- 3.6位可以存储大约12个不同值——就像选择一年中的月份或掷12面骰子。
- 不足以存储完整的英文字符(需要约4.7位),但可以编码来自10个常见字符的子集中的字符。
- 以字节计,3.6位仅为0.45字节——不到半个标准ASCII字符。
关键是,这一数字在不同模型规模、架构甚至精度水平下保持稳定(尽管全精度模型略高,达到3.83位/参数)。
意外发现:更多数据=更少记忆
事情变得非常有趣:在更多数据上训练不会增加记忆——实际上会减少记忆。
正如首席研究员Jack Morris解释道:
“在更多数据上训练迫使模型对每个样本的记忆减少。”
可以这样理解:如果AI有一个固定的“记忆预算”,将其分散到更大的数据集意味着每个单独的部分获得更少的专用存储。因此,更大的数据集鼓励泛化而非机械复制——这可能缓解对AI复述受版权保护或敏感内容的担忧。
研究人员如何测量这一点?
为了将记忆与泛化分开,研究团队在完全随机的位串上训练模型——这些数据没有任何模式或结构。
为什么?因为如果模型重构了一个随机字符串,它必须是记忆了它——没有底层逻辑可供推断。
这种方法使他们能够:
✔ 测量纯粹的记忆,与学习的模式分开。
✔ 确认记忆随模型规模可预测地扩展。
✔ 证明随着数据集变大,泛化开始发挥作用。
现实世界的意义
- 较小的数据集导致更多记忆。
- 较大的数据集推动模型向泛化发展(伴随性能的暂时“双重下降”)。
- 更高精度(如float32对比bfloat16)略微增加记忆容量(从3.51位/参数到3.83位/参数)。
独特的数据更容易被记忆
虽然研究关注平均值,高度独特或风格化的内容(如罕见的代码片段或独特的写作)可能仍更容易被记忆。
然而,随着数据集的增长,成员推断攻击(试图检测特定数据是否在训练集中)变得不可靠——支持了大规模训练降低隐私风险的观点。
放在更大的背景下
- 50万个参数的模型可以记忆约225 KB的数据。
- 15亿个参数的模型可以存储约675 MB。
- 这不足以重现整本书或图像,但确实解释了分布式的文本模式。
法律影响?
这项研究可能在正在进行的AI版权诉讼中发挥关键作用。如果法院认为大型语言模型主要泛化而非复制,AI公司可能会有更强的合理使用论据。
底线
更多数据=更安全、更泛化的AI。与其担心海量数据集,我们可能实际上希望它们——因为它们推动模型向理解而非 エム>记忆发展。
这项研究不仅加深了我们对AI的理解——它可能重塑我们未来如何监管、开发和信任这些强大系统。
相关文章
渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度
AI如何变革医疗保健:减少职业倦怠并提升患者护理挑战:临床医生超负荷与患者就医延迟全球医疗系统面临双重挑战:临床医生职业倦怠和患者就医延迟。医生们被行政任务淹没,而患者难以获得及时的医疗服务。在渥太华医院(TOH),领导者认识到这一问题,并转向AI寻求解决方案。通过整合Microsoft的DAX Copilot——一款AI驱动的临床文档助手,他们已经看到显著的改善:✔ 每次患者就诊节省7分钟✔ 临
6个必须了解的ChatGPT项目功能以提升AI性能
ChatGPT项目迎来重大升级——以下是新功能OpenAI为ChatGPT项目推出了迄今为止最大的更新,将其从简单的组织工具转变为生产力 powerhouse。无论您是在管理研究、编码项目还是创意工作流,这六个新功能从根本上改变了您与AI的交互方式——使其更智能、更直观、在现实场景中更加实用。 让我们一一解析。 ChatGPT项目的6个变革性功能1. 语音模式来了(彻底改变游戏规则)语音模式不仅仅
OpenAI发布GPT-4.1未附安全报告
OpenAI的GPT-4.1在没有安全报告的情况下发布——这意味着什么周一,OpenAI推出了其最新的AI模型GPT-4.1,该模型在性能上有所提升,尤其是在编程基准测试中。但与之前的发布不同,这次有一个明显的遗漏:没有安全报告。 通常,OpenAI会发布一份“系统卡”,详细说明内部和第三方安全评估,揭示潜在风险,如欺骗行为或非预期的说服能力。这些报告被视为AI开发中促进透明度的善意努力。 然
评论 (0)
0/200
AI模型实际记忆了多少?新研究揭示惊人见解
我们都知道,像ChatGPT、Claude和Gemini这样的大型语言模型(LLMs)是在海量数据集上训练的——包括来自书籍、网站、代码,甚至图像和音频等多媒体的数万亿字词。但这些数据到底发生了什么?这些模型是真正理解语言,还是仅仅在复述记忆的片段?
来自Meta、Google DeepMind、Cornell和NVIDIA的一项突破性新研究终于给出了具体答案——结果可能让你惊讶。
核心问题:记忆 vs. 泛化
大型语言模型的核心是通过检测语言中的统计模式来工作。当你询问ChatGPT关于苹果的问题时,它并不是以人类的方式“知道”苹果是什么——而是识别出“apple”这个词经常与“fruit”、“red”、“orchard”甚至“iPhone”等词一起出现。这种统计理解被编码在数十亿个参数中(本质上是AI神经网络的可调设置)。
但关键问题是:大型语言模型的知识有多少来自泛化学习,有多少是逐字记忆?
这不仅仅是学术问题——它还有现实世界的法律影响。如果AI模型被发现复制了大量受版权保护的文本,艺术家、作者和出版商的诉讼可能会有更大胜算。但如果它们真正学习的是模式而非具体内容,AI公司可能会有更强的合理使用辩护。
答案:每个参数3.6位
研究发现,大型语言模型的固定记忆容量约为每个参数3.6位。这在实际中意味着什么?
- 单个位是最小的数字单元(0或1)。
- 3.6位可以存储大约12个不同值——就像选择一年中的月份或掷12面骰子。
- 不足以存储完整的英文字符(需要约4.7位),但可以编码来自10个常见字符的子集中的字符。
- 以字节计,3.6位仅为0.45字节——不到半个标准ASCII字符。
关键是,这一数字在不同模型规模、架构甚至精度水平下保持稳定(尽管全精度模型略高,达到3.83位/参数)。
意外发现:更多数据=更少记忆
事情变得非常有趣:在更多数据上训练不会增加记忆——实际上会减少记忆。
正如首席研究员Jack Morris解释道:
“在更多数据上训练迫使模型对每个样本的记忆减少。”
可以这样理解:如果AI有一个固定的“记忆预算”,将其分散到更大的数据集意味着每个单独的部分获得更少的专用存储。因此,更大的数据集鼓励泛化而非机械复制——这可能缓解对AI复述受版权保护或敏感内容的担忧。
研究人员如何测量这一点?
为了将记忆与泛化分开,研究团队在完全随机的位串上训练模型——这些数据没有任何模式或结构。
为什么?因为如果模型重构了一个随机字符串,它必须是记忆了它——没有底层逻辑可供推断。
这种方法使他们能够:
✔ 测量纯粹的记忆,与学习的模式分开。
✔ 确认记忆随模型规模可预测地扩展。
✔ 证明随着数据集变大,泛化开始发挥作用。
现实世界的意义
- 较小的数据集导致更多记忆。
- 较大的数据集推动模型向泛化发展(伴随性能的暂时“双重下降”)。
- 更高精度(如float32对比bfloat16)略微增加记忆容量(从3.51位/参数到3.83位/参数)。
独特的数据更容易被记忆
虽然研究关注平均值,高度独特或风格化的内容(如罕见的代码片段或独特的写作)可能仍更容易被记忆。
然而,随着数据集的增长,成员推断攻击(试图检测特定数据是否在训练集中)变得不可靠——支持了大规模训练降低隐私风险的观点。
放在更大的背景下
- 50万个参数的模型可以记忆约225 KB的数据。
- 15亿个参数的模型可以存储约675 MB。
- 这不足以重现整本书或图像,但确实解释了分布式的文本模式。
法律影响?
这项研究可能在正在进行的AI版权诉讼中发挥关键作用。如果法院认为大型语言模型主要泛化而非复制,AI公司可能会有更强的合理使用论据。
底线
更多数据=更安全、更泛化的AI。与其担心海量数据集,我们可能实际上希望它们——因为它们推动模型向理解而非 エム>记忆发展。
这项研究不仅加深了我们对AI的理解——它可能重塑我们未来如何监管、开发和信任这些强大系统。











