研究:OpenAI模型记忆的受版权保护内容
一项最新研究表明,OpenAI可能确实使用了受版权保护的材料来训练其部分AI模型,为公司面临的持续法律争议增添了依据。作者、程序员和其他内容创作者指控OpenAI未经许可使用他们的作品——如书籍和代码——来开发其AI模型。虽然OpenAI以合理使用为由进行辩护,但原告认为美国版权法并未为训练数据提供例外条款。
这项研究由华盛顿大学、哥本哈根大学和斯坦福大学的研究人员合作开展,介绍了一种新技术,用于检测通过API访问的模型(如OpenAI的模型)中“记忆”的训练数据。AI模型通过从海量数据中学习来识别模式,从而能够生成文章、图像等。虽然大多数输出并非训练数据的直接复制,但由于学习过程,某些输出不可避免地是复制品。例如,图像模型已知会重现电影截图,而语言模型则被发现几乎是在抄袭新闻文章。
研究中描述的方法聚焦于“高意外性”词汇——在特定语境中不常见的词汇。例如,在句子“Jack和我一动不动地坐着,雷达发出嗡嗡声”中,“雷达”是高意外性词汇,因为相比“引擎”或“收音机”等词汇,它出现在“嗡嗡声”前更不常见。
研究人员测试了多个OpenAI模型,包括GPT-4和GPT-3.5,通过从小说书籍片段和《纽约时报》文章中移除高意外性词汇,并要求模型预测这些缺失的词汇。如果模型能够准确猜测这些词汇,则表明它们在训练过程中记忆了这些文本。

一个让模型“猜测”高意外性词汇的示例。图片来源:OpenAI 结果显示,GPT-4很可能记忆了流行小说书籍的部分内容,包括BookMIA数据集中的受版权保护的电子书。它似乎也记忆了一些《纽约时报》的文章,尽管频率较低。华盛顿大学博士生、研究合著者Abhilasha Ravichander向TechCrunch强调,这些发现突显了训练这些模型可能使用的“有争议数据”。“为了拥有值得信赖的大型语言模型,我们需要能够对其进行探测、审计和科学检查的模型,”Ravichander表示。“我们的工作旨在提供一种探测大型语言模型的工具,但整个生态系统迫切需要更高的数据透明度。”
OpenAI一直推动放宽使用受版权保护数据开发AI模型的规则。尽管该公司与一些内容许可协议达成合作,并为版权持有者提供了退出选项,但它也在向各国政府游说,试图为AI训练建立专门的“合理使用”规则。
相关文章
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
五角大楼与英伟达、微软和亚马逊网络服务公司签订了协议,以便在机密网络中部署人工智能技术。
在此前与谷歌、SpaceX和OpenAI达成协议之后,美国国防部于周五宣布,它现已与Nvidia、微软、亚马逊网络服务和Reflection AI签订了合同,这些公司将会将其人工智能技术和模型部署在保密网络上,用于“合法的操作用途”。声明中还指出:“这些协议加速了将美国军队建设成为以人工智能为核心作战力量的进程,并将增强我们的战士在所有战争领域保持决策优势的能力。”这些协议的签署,正值五角大楼试图在与Anthropic就使用条款发生争议后,多元化其人工智能供应商的选择。五角大楼希望无限制地使
相关专题推荐
评论 (33)
0/500
这篇文章提到的版权问题确实让人担忧,以后AI生成的内容会不会都带着'侵权'的标签?想想就觉得挺讽刺的,毕竟这些模型训练数据不透明,普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。
This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤
This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.
Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
一项最新研究表明,OpenAI可能确实使用了受版权保护的材料来训练其部分AI模型,为公司面临的持续法律争议增添了依据。作者、程序员和其他内容创作者指控OpenAI未经许可使用他们的作品——如书籍和代码——来开发其AI模型。虽然OpenAI以合理使用为由进行辩护,但原告认为美国版权法并未为训练数据提供例外条款。
这项研究由华盛顿大学、哥本哈根大学和斯坦福大学的研究人员合作开展,介绍了一种新技术,用于检测通过API访问的模型(如OpenAI的模型)中“记忆”的训练数据。AI模型通过从海量数据中学习来识别模式,从而能够生成文章、图像等。虽然大多数输出并非训练数据的直接复制,但由于学习过程,某些输出不可避免地是复制品。例如,图像模型已知会重现电影截图,而语言模型则被发现几乎是在抄袭新闻文章。
研究中描述的方法聚焦于“高意外性”词汇——在特定语境中不常见的词汇。例如,在句子“Jack和我一动不动地坐着,雷达发出嗡嗡声”中,“雷达”是高意外性词汇,因为相比“引擎”或“收音机”等词汇,它出现在“嗡嗡声”前更不常见。
研究人员测试了多个OpenAI模型,包括GPT-4和GPT-3.5,通过从小说书籍片段和《纽约时报》文章中移除高意外性词汇,并要求模型预测这些缺失的词汇。如果模型能够准确猜测这些词汇,则表明它们在训练过程中记忆了这些文本。

华盛顿大学博士生、研究合著者Abhilasha Ravichander向TechCrunch强调,这些发现突显了训练这些模型可能使用的“有争议数据”。“为了拥有值得信赖的大型语言模型,我们需要能够对其进行探测、审计和科学检查的模型,”Ravichander表示。“我们的工作旨在提供一种探测大型语言模型的工具,但整个生态系统迫切需要更高的数据透明度。”
OpenAI一直推动放宽使用受版权保护数据开发AI模型的规则。尽管该公司与一些内容许可协议达成合作,并为版权持有者提供了退出选项,但它也在向各国政府游说,试图为AI训练建立专门的“合理使用”规则。
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
五角大楼与英伟达、微软和亚马逊网络服务公司签订了协议,以便在机密网络中部署人工智能技术。
在此前与谷歌、SpaceX和OpenAI达成协议之后,美国国防部于周五宣布,它现已与Nvidia、微软、亚马逊网络服务和Reflection AI签订了合同,这些公司将会将其人工智能技术和模型部署在保密网络上,用于“合法的操作用途”。声明中还指出:“这些协议加速了将美国军队建设成为以人工智能为核心作战力量的进程,并将增强我们的战士在所有战争领域保持决策优势的能力。”这些协议的签署,正值五角大楼试图在与Anthropic就使用条款发生争议后,多元化其人工智能供应商的选择。五角大楼希望无限制地使
这篇文章提到的版权问题确实让人担忧,以后AI生成的内容会不会都带着'侵权'的标签?想想就觉得挺讽刺的,毕竟这些模型训练数据不透明,普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。
This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤
This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.
Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔





首页






