研究:OpenAI模型记忆的受版权保护内容
最近的一项研究表明,Openai确实确实使用了受版权保护的材料来训练其一些AI模型,从而为公司面临的正在进行的法律斗争增加了燃料。作者,程序员和其他内容创建者指责Openai使用其作品(例如书籍和代码),而无权开发其AI模型。尽管Openai通过声称合理使用来捍卫自己,但原告认为美国版权法并未为培训数据提供例外。
这项研究是华盛顿大学,哥本哈根大学和斯坦福大学的研究人员之间的合作,引入了一种新技术,用于检测通过API访问的模型中的“记忆”培训数据,例如OpenAI的培训数据。 AI模型本质上从大量数据中学习以识别模式,使它们能够创建论文,图像等。尽管大多数输出不是培训数据的直接副本,但有些不可避免地是由于学习过程所致。例如,众所周知,图像模型可以复制电影屏幕截图,而语言模型实际上是窃新闻文章。
研究中描述的方法着重于“高生命”单词,这些单词在给定情况下是不寻常的单词。例如,在句子中,“杰克和我与雷达嗡嗡声完美坐着”,“雷达”将是一个高弹性的词,因为它比“引擎”或“无线电”诸如“嗡嗡声”之前的单词较少。
研究人员通过从小说书籍和《纽约时报》文章的摘录中删除了高空单词,并要求模型预测这些缺失的单词,从而测试了包括GPT-4和GPT-3.5在内的几种OpenAI模型。如果这些模型准确地猜到了这些单词,它表明他们在训练过程中记住了文本。

一个模型“猜测”高传播单词的示例。图片学分:OpenAi 结果表明,GPT-4可能记住了流行小说书籍的部分,包括在Bookmia的电子书数据集中。它似乎还记住了一些纽约时报的文章,尽管频率较低。
华盛顿大学的博士生,该研究的合着者Abhilasha Ravichander强调,这些发现强调了可能被用于培训这些模型的“有争议的数据”。 Ravichander说:“为了具有值得信赖的大语言模型,我们需要拥有可以探究和审核和科学检查的模型。” “我们的工作旨在提供一种探究大型语言模型的工具,但实际上需要在整个生态系统中提高数据透明度。”
Openai推动了使用受版权保护的数据开发AI模型的更轻松的规则。尽管该公司有一些内容许可协议,并为版权持有人提供了退出选项,但它游说各个政府以建立专门针对AI培训的“合理使用”规则。
相关文章
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準
為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
评论 (30)
0/200
AlbertHernández
2025-04-15 08:00:00
This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔
0
TimothyMitchell
2025-04-22 08:00:00
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
0
WillLopez
2025-04-21 08:00:00
오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔
0
JamesMiller
2025-04-11 08:00:00
Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔
0
BruceSmith
2025-04-13 08:00:00
Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔
0
JohnWilson
2025-04-18 08:00:00
This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞
0
最近的一项研究表明,Openai确实确实使用了受版权保护的材料来训练其一些AI模型,从而为公司面临的正在进行的法律斗争增加了燃料。作者,程序员和其他内容创建者指责Openai使用其作品(例如书籍和代码),而无权开发其AI模型。尽管Openai通过声称合理使用来捍卫自己,但原告认为美国版权法并未为培训数据提供例外。
这项研究是华盛顿大学,哥本哈根大学和斯坦福大学的研究人员之间的合作,引入了一种新技术,用于检测通过API访问的模型中的“记忆”培训数据,例如OpenAI的培训数据。 AI模型本质上从大量数据中学习以识别模式,使它们能够创建论文,图像等。尽管大多数输出不是培训数据的直接副本,但有些不可避免地是由于学习过程所致。例如,众所周知,图像模型可以复制电影屏幕截图,而语言模型实际上是窃新闻文章。
研究中描述的方法着重于“高生命”单词,这些单词在给定情况下是不寻常的单词。例如,在句子中,“杰克和我与雷达嗡嗡声完美坐着”,“雷达”将是一个高弹性的词,因为它比“引擎”或“无线电”诸如“嗡嗡声”之前的单词较少。
研究人员通过从小说书籍和《纽约时报》文章的摘录中删除了高空单词,并要求模型预测这些缺失的单词,从而测试了包括GPT-4和GPT-3.5在内的几种OpenAI模型。如果这些模型准确地猜到了这些单词,它表明他们在训练过程中记住了文本。
华盛顿大学的博士生,该研究的合着者Abhilasha Ravichander强调,这些发现强调了可能被用于培训这些模型的“有争议的数据”。 Ravichander说:“为了具有值得信赖的大语言模型,我们需要拥有可以探究和审核和科学检查的模型。” “我们的工作旨在提供一种探究大型语言模型的工具,但实际上需要在整个生态系统中提高数据透明度。”
Openai推动了使用受版权保护的数据开发AI模型的更轻松的规则。尽管该公司有一些内容许可协议,并为版权持有人提供了退出选项,但它游说各个政府以建立专门针对AI培训的“合理使用”规则。




This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔




OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔




오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔




Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔




Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔




This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞












