选项
首页
新闻
研究:OpenAI模型记忆的受版权保护内容

研究:OpenAI模型记忆的受版权保护内容

2025-04-10
192

一项最新研究表明,OpenAI可能确实使用了受版权保护的材料来训练其部分AI模型,为公司面临的持续法律争议增添了依据。作者、程序员和其他内容创作者指控OpenAI未经许可使用他们的作品——如书籍和代码——来开发其AI模型。虽然OpenAI以合理使用为由进行辩护,但原告认为美国版权法并未为训练数据提供例外条款。

这项研究由华盛顿大学、哥本哈根大学和斯坦福大学的研究人员合作开展,介绍了一种新技术,用于检测通过API访问的模型(如OpenAI的模型)中“记忆”的训练数据。AI模型通过从海量数据中学习来识别模式,从而能够生成文章、图像等。虽然大多数输出并非训练数据的直接复制,但由于学习过程,某些输出不可避免地是复制品。例如,图像模型已知会重现电影截图,而语言模型则被发现几乎是在抄袭新闻文章。

研究中描述的方法聚焦于“高意外性”词汇——在特定语境中不常见的词汇。例如,在句子“Jack和我一动不动地坐着,雷达发出嗡嗡声”中,“雷达”是高意外性词汇,因为相比“引擎”或“收音机”等词汇,它出现在“嗡嗡声”前更不常见。

研究人员测试了多个OpenAI模型,包括GPT-4和GPT-3.5,通过从小说书籍片段和《纽约时报》文章中移除高意外性词汇,并要求模型预测这些缺失的词汇。如果模型能够准确猜测这些词汇,则表明它们在训练过程中记忆了这些文本。

OpenAI版权研究

一个让模型“猜测”高意外性词汇的示例。图片来源:OpenAI
结果显示,GPT-4很可能记忆了流行小说书籍的部分内容,包括BookMIA数据集中的受版权保护的电子书。它似乎也记忆了一些《纽约时报》的文章,尽管频率较低。

华盛顿大学博士生、研究合著者Abhilasha Ravichander向TechCrunch强调,这些发现突显了训练这些模型可能使用的“有争议数据”。“为了拥有值得信赖的大型语言模型,我们需要能够对其进行探测、审计和科学检查的模型,”Ravichander表示。“我们的工作旨在提供一种探测大型语言模型的工具,但整个生态系统迫切需要更高的数据透明度。”

OpenAI一直推动放宽使用受版权保护数据开发AI模型的规则。尽管该公司与一些内容许可协议达成合作,并为版权持有者提供了退出选项,但它也在向各国政府游说,试图为AI训练建立专门的“合理使用”规则。

相关文章
非营利组织利用人工智能代理促进慈善筹款工作 非营利组织利用人工智能代理促进慈善筹款工作 当大型科技公司将人工智能 "代理 "作为企业生产力的助推器进行推广时,一家非营利组织正在展示它们在社会公益方面的潜力。由开放慈善组织(Open Philanthropy)支持的慈善研究机构赛智未来(Sage Future)最近进行了一项创新实验,展示了人工智能模型如何在慈善筹款方面进行合作。该非营利组织在一个模拟数字环境中设置了四个先进的人工智能模型--OpenAI 的 GPT-4o 和 o1
顶级人工智能实验室警告人类正在失去理解人工智能系统的能力 顶级人工智能实验室警告人类正在失去理解人工智能系统的能力 来自 OpenAI、谷歌 DeepMind、Anthropic 和 Meta 的研究人员前所未有地团结起来,搁置竞争分歧,就负责任的人工智能发展发出集体警告。来自这些通常相互竞争的组织的 40 多名顶尖科学家共同撰写了一篇开创性的研究论文,强调确保人工智能决策过程透明度的窗口正在迅速关闭。这次合作的重点是现代人工智能系统的一个关键发展--它们在生成最终输出之前,能够以人类可读的语言阐明推理过程的新
ChatGPT 添加了 Google Drive 和 Dropbox 集成,用于文件访问 ChatGPT 添加了 Google Drive 和 Dropbox 集成,用于文件访问 ChatGPT 通过新的企业功能提高生产力OpenAI 推出两项强大的新功能,将 ChatGPT 转变为全面的企业生产力工具:自动会议记录和无缝云存储集成。革命性的记录功能新推出的 "记录模式 "可自动转录和分析以下内容:重要的商务会议创造性的头脑风暴会议 个人思维过程这一高级功能目前仅面向 ChatGPT 团队用户(每用户每月 25 美元),可提供准确、有时间戳的记
评论 (32)
0/200
WilliamGonzalez
WilliamGonzalez 2025-08-25 17:01:06

This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤

GregoryBaker
GregoryBaker 2025-08-23 19:01:18

This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.

JohnGarcia
JohnGarcia 2025-04-23 23:10:14

Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?

TimothyMitchell
TimothyMitchell 2025-04-22 08:12:42

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔

WillLopez
WillLopez 2025-04-21 19:49:05

오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔

WillMitchell
WillMitchell 2025-04-21 11:30:11

Este estudio sobre los modelos de OpenAI usando contenido con derechos de autor es bastante aterrador! 😱 Está genial que la IA se esté volviendo más inteligente, pero usar libros y códigos sin permiso no parece correcto. ¡Espero que lo resuelvan pronto! 🤞

返回顶部
OR