研究：OpenAI模型记忆的受版权保护内容

首页

新闻

2025-04-10

RonaldHernández

265

# openai # Study

一项最新研究表明，OpenAI可能确实使用了受版权保护的材料来训练其部分AI模型，为公司面临的持续法律争议增添了依据。作者、程序员和其他内容创作者指控OpenAI未经许可使用他们的作品——如书籍和代码——来开发其AI模型。虽然OpenAI以合理使用为由进行辩护，但原告认为美国版权法并未为训练数据提供例外条款。

这项研究由华盛顿大学、哥本哈根大学和斯坦福大学的研究人员合作开展，介绍了一种新技术，用于检测通过API访问的模型（如OpenAI的模型）中“记忆”的训练数据。AI模型通过从海量数据中学习来识别模式，从而能够生成文章、图像等。虽然大多数输出并非训练数据的直接复制，但由于学习过程，某些输出不可避免地是复制品。例如，图像模型已知会重现电影截图，而语言模型则被发现几乎是在抄袭新闻文章。

研究中描述的方法聚焦于“高意外性”词汇——在特定语境中不常见的词汇。例如，在句子“Jack和我一动不动地坐着，雷达发出嗡嗡声”中，“雷达”是高意外性词汇，因为相比“引擎”或“收音机”等词汇，它出现在“嗡嗡声”前更不常见。

研究人员测试了多个OpenAI模型，包括GPT-4和GPT-3.5，通过从小说书籍片段和《纽约时报》文章中移除高意外性词汇，并要求模型预测这些缺失的词汇。如果模型能够准确猜测这些词汇，则表明它们在训练过程中记忆了这些文本。

OpenAI版权研究

一个让模型“猜测”高意外性词汇的示例。图片来源：OpenAI

结果显示，GPT-4很可能记忆了流行小说书籍的部分内容，包括BookMIA数据集中的受版权保护的电子书。它似乎也记忆了一些《纽约时报》的文章，尽管频率较低。

华盛顿大学博士生、研究合著者Abhilasha Ravichander向TechCrunch强调，这些发现突显了训练这些模型可能使用的“有争议数据”。“为了拥有值得信赖的大型语言模型，我们需要能够对其进行探测、审计和科学检查的模型，”Ravichander表示。“我们的工作旨在提供一种探测大型语言模型的工具，但整个生态系统迫切需要更高的数据透明度。”

OpenAI一直推动放宽使用受版权保护数据开发AI模型的规则。尽管该公司与一些内容许可协议达成合作，并为版权持有者提供了退出选项，但它也在向各国政府游说，试图为AI训练建立专门的“合理使用”规则。

OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图正当各国政府竭力应对超级智能机器带来的经济影响之际，OpenAI发布了一套政策建议，概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单，这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的

格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 2017年8月下旬，OpenAI（当时还是一家小型非营利研究实验室）的核心成员召开会议，商讨如何成立一家营利性实体，以实现技术的商业化，并筹集实现通用人工智能（AGI）所需的资金。埃隆·马斯克要求全面掌控公司，并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示，他认为这是马斯克试图收买人心，当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open

五角大楼与英伟达、微软和亚马逊网络服务公司签订了协议，以便在机密网络中部署人工智能技术。在此前与谷歌、SpaceX和OpenAI达成协议之后，美国国防部于周五宣布，它现已与Nvidia、微软、亚马逊网络服务和Reflection AI签订了合同，这些公司将会将其人工智能技术和模型部署在保密网络上，用于“合法的操作用途”。声明中还指出：“这些协议加速了将美国军队建设成为以人工智能为核心作战力量的进程，并将增强我们的战士在所有战争领域保持决策优势的能力。”这些协议的签署，正值五角大楼试图在与Anthropic就使用条款发生争议后，多元化其人工智能供应商的选择。五角大楼希望无限制地使

相关专题推荐

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

教育与学习

最佳AI数据科学导师：精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师，帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单，获得强大而具有变革性的指导。通过对比免费和付费选项，并结合实际应用案例进行了解，今天就开启你的数据科学精通之路吧。

10 个工具

xix.ai

聊天机器人

最佳AI调情与对话训练工具：实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具，查看免费版与付费版的对比，并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具

xix.ai

代码

最适合自动化单元测试的最佳AI工具：一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具，这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具，它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上，您可以免费查看各种选项，并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具，提升您的开发效率吧！

10 个工具

xix.ai

0/500

请登录后再操作

JackAllen

2025-12-30 22:30:40

这篇文章提到的版权问题确实让人担忧，以后AI生成的内容会不会都带着'侵权'的标签？想想就觉得挺讽刺的，毕竟这些模型训练数据不透明，普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。

WilliamGonzalez

2025-08-25 17:01:06

This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤

GregoryBaker

2025-08-23 19:01:18

This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.

JohnGarcia

2025-04-23 23:10:14

Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?

TimothyMitchell

2025-04-22 08:12:42

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね！クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね？🤔

WillLopez

2025-04-21 19:49:05

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选