选项
首页
新闻
新研究揭示大语言模型实际记忆的数据量

新研究揭示大语言模型实际记忆的数据量

2025-07-06
121

新研究揭示大语言模型实际记忆的数据量

AI模型实际记忆了多少?新研究揭示惊人见解

我们都知道,像ChatGPT、Claude和Gemini这样的大型语言模型(LLMs)是在海量数据集上训练的——包括来自书籍、网站、代码,甚至图像和音频等多媒体的数万亿字词。但这些数据到底发生了什么?这些模型是真正理解语言,还是仅仅在复述记忆的片段?

来自Meta、Google DeepMind、Cornell和NVIDIA的一项突破性新研究终于给出了具体答案——结果可能让你惊讶。

核心问题:记忆 vs. 泛化

大型语言模型的核心是通过检测语言中的统计模式来工作。当你询问ChatGPT关于苹果的问题时,它并不是以人类的方式“知道”苹果是什么——而是识别出“apple”这个词经常与“fruit”、“red”、“orchard”甚至“iPhone”等词一起出现。这种统计理解被编码在数十亿个参数中(本质上是AI神经网络的可调设置)。

但关键问题是:大型语言模型的知识有多少来自泛化学习,有多少是逐字记忆?

这不仅仅是学术问题——它还有现实世界的法律影响。如果AI模型被发现复制了大量受版权保护的文本,艺术家、作者和出版商的诉讼可能会有更大胜算。但如果它们真正学习的是模式而非具体内容,AI公司可能会有更强的合理使用辩护。

答案:每个参数3.6位

研究发现,大型语言模型的固定记忆容量约为每个参数3.6位。这在实际中意味着什么?

  • 单个位是最小的数字单元(0或1)。
  • 3.6位可以存储大约12个不同值——就像选择一年中的月份或掷12面骰子。
  • 不足以存储完整的英文字符(需要约4.7位),但可以编码来自10个常见字符的子集中的字符。
  • 以字节计,3.6位仅为0.45字节——不到半个标准ASCII字符。

关键是,这一数字在不同模型规模、架构甚至精度水平下保持稳定(尽管全精度模型略高,达到3.83位/参数)。

意外发现:更多数据=更少记忆

事情变得非常有趣:在更多数据上训练不会增加记忆——实际上会减少记忆。

正如首席研究员Jack Morris解释道:

“在更多数据上训练迫使模型对每个样本的记忆减少。”

可以这样理解:如果AI有一个固定的“记忆预算”,将其分散到更大的数据集意味着每个单独的部分获得更少的专用存储。因此,更大的数据集鼓励泛化而非机械复制——这可能缓解对AI复述受版权保护或敏感内容的担忧。

研究人员如何测量这一点?

为了将记忆与泛化分开,研究团队在完全随机的位串上训练模型——这些数据没有任何模式或结构。

为什么?因为如果模型重构了一个随机字符串,它必须是记忆了它——没有底层逻辑可供推断。

这种方法使他们能够:
✔ 测量纯粹的记忆,与学习的模式分开。
✔ 确认记忆随模型规模可预测地扩展
✔ 证明随着数据集变大,泛化开始发挥作用

现实世界的意义

  • 较小的数据集导致更多记忆。
  • 较大的数据集推动模型向泛化发展(伴随性能的暂时“双重下降”)。
  • 更高精度(如float32对比bfloat16)略微增加记忆容量(从3.51位/参数到3.83位/参数)。

独特的数据更容易被记忆

虽然研究关注平均值,高度独特或风格化的内容(如罕见的代码片段或独特的写作)可能仍更容易被记忆。

然而,随着数据集的增长,成员推断攻击(试图检测特定数据是否在训练集中)变得不可靠——支持了大规模训练降低隐私风险的观点。

放在更大的背景下

  • 50万个参数的模型可以记忆约225 KB的数据。
  • 15亿个参数的模型可以存储约675 MB。
  • 这不足以重现整本书或图像,但确实解释了分布式的文本模式。

法律影响?

这项研究可能在正在进行的AI版权诉讼中发挥关键作用。如果法院认为大型语言模型主要泛化而非复制,AI公司可能会有更强的合理使用论据。

底线

更多数据=更安全、更泛化的AI。与其担心海量数据集,我们可能实际上希望它们——因为它们推动模型向理解而非 エム>记忆发展。

这项研究不仅加深了我们对AI的理解——它可能重塑我们未来如何监管、开发和信任这些强大系统。

相关文章
谷歌在印度的Chrome浏览器中推出Gemini 谷歌在印度的Chrome浏览器中推出Gemini 周三,谷歌宣布将把Chrome浏览器中Gemini的集成功能扩展至印度、加拿大和新西兰等新地区。此次更新使桌面端用户能够通过侧边栏访问Gemini,用户可通过该功能向谷歌的AI聊天机器人咨询屏幕上的内容,从Gmail、Keep、Drive和YouTube中检索信息,并比较不同标签页的内容。随着此次扩展,除了英语和近期新增的Chrome支持语言外,Gemini还将支持印地语、孟加拉语、古吉拉特语、卡
科技巨头先是认可了人工智能基础设施的投入,随后却提高了费用 科技巨头先是认可了人工智能基础设施的投入,随后却提高了费用 每家科技巨头都超出了预期。每项资本支出预测均有所上调。这两句话概括了2026年最重要的财报日,也几乎揭示了关于科技巨头当前人工智能基础设施支出现状的一切。微软、Alphabet、Meta和亚马逊四家科技巨头在2026年的资本支出总额介于6300亿至6500亿美元之间。第一季度的财报为这些投资是否开始产生回报提供了首个切实的衡量标准。在四家公司的财报电话会议中,答案都是肯定的。而随后四家公司不约而
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者 YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者 周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
相关专题推荐
写作 最佳AI仙侠与武侠助手:创作史诗般的修仙历程与武打场面
最佳AI仙侠与武侠助手:创作史诗般的修仙历程与武打场面

探索2026年最优秀的AI助手,助您创作史诗级的仙侠与武侠故事。XIX.AI精心整理的这份清单汇集了广受好评、能彻底改变创作格局的工具,助您驾驭修仙进阶与武术动作设计。通过实际测试对比免费与付费选项。释放您的创作潜能,今天就开始写作吧!

10 个工具
xix.ai
代码 AI移动应用开发工具:根据提示生成跨平台的Flutter与React Native代码
AI移动应用开发工具:根据提示生成跨平台的Flutter与React Native代码

探索2026年最适合Flutter和React Native的最佳AI移动应用开发工具。我们精心挑选的这些高评分工具能够提供强大的功能,帮助您根据提示生成跨平台代码。通过实际测试来对比免费选项和付费选项,让开发更加高效,从而打造出更出色的应用程序。现在就访问XIX.AI查看排名吧!

10 个工具
xix.ai
代码 最佳 AI Chrome 扩展程序生成工具:无需编程经验即可创建自定义浏览器插件
最佳 AI Chrome 扩展程序生成工具:无需编程经验即可创建自定义浏览器插件

在 XIX.AI 上探索 2026 年最佳 AI Chrome 扩展程序生成器。我们精心挑选的这份清单汇集了广受好评、不容错过的工具,让您无需编写代码即可创建自定义浏览器插件。对比免费与付费选项,查看实际测试结果,并释放您的工作效率。立即查看最新排行榜,找到最适合您的工具!

10 个工具
xix.ai
文字转语音 最佳人工智能多语言文本转语音技术:能够生成50多种语言的逼真原声发音
最佳人工智能多语言文本转语音技术:能够生成50多种语言的逼真原声发音

探索2026年最优秀的人工智能多语言文本转语音工具,这些工具能够生成50多种语言中具有真实母语口音的语音。查看我们精心挑选的排名榜单,了解免费版本与付费版本的差异,并通过实际测试来验证它们的效果。在XIX.AI上找到最适合你的语音工具,立即开启全球交流的新篇章吧。

10 个工具
xix.ai
会议助理 最适合提升协作效率的最佳人工智能会议自动化工具
最适合提升协作效率的最佳人工智能会议自动化工具

探索2026年最新评选出的顶级AI会议自动化工具,让协作变得更智能、更高效。我们精心挑选的这些工具能够有效实现笔记、总结和待办事项的自动化处理。通过实际测试和每周更新的排名,您可以了解免费选项与付费选项的差异。立即访问XIX.AI,发现最适合您需求的工具,提升团队生产力吧。

10 个工具
xix.ai
提示词 适用于基础设施即代码的 AI 提示:安全部署 Terraform 和 Docker 配置
适用于基础设施即代码的 AI 提示:安全部署 Terraform 和 Docker 配置

探索 2026 年最新、评价最高的“基础设施即代码”(Infrastructure-as-Code)AI 提示词。XIX.AI 精心挑选的提示词集可助您安全部署 Terraform 和 Docker 配置、自动化云环境搭建,并提升 DevOps 工作效率。通过实际测试对比免费与付费选项。立即探索,释放您的 AI 优势。

10 个工具
xix.ai
评论 (2)
0/500
LawrenceWilliams
LawrenceWilliams 2025-08-24 11:01:17

This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?

EdwardYoung
EdwardYoung 2025-08-10 07:01:00

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

OR