研究:OpenAI模型記憶的受版權保護內容
最近的一項研究表明,Openai確實確實使用了受版權保護的材料來訓練其一些AI模型,從而為公司面臨的正在進行的法律鬥爭增加了燃料。作者,程序員和其他內容創建者指責Openai使用其作品(例如書籍和代碼),而無權開發其AI模型。儘管Openai通過聲稱合理使用來捍衛自己,但原告認為美國版權法並未為培訓數據提供例外。
這項研究是華盛頓大學,哥本哈根大學和斯坦福大學的研究人員之間的合作,引入了一種新技術,用於檢測通過API訪問的模型中的“記憶”培訓數據,例如OpenAI的培訓數據。 AI模型本質上從大量數據中學習以識別模式,使它們能夠創建論文,圖像等。儘管大多數輸出不是培訓數據的直接副本,但有些不可避免地是由於學習過程所致。例如,眾所周知,圖像模型可以復制電影屏幕截圖,而語言模型實際上是竊新聞文章。
研究中描述的方法著重於“高生命”單詞,這些單詞在給定情況下是不尋常的單詞。例如,在句子中,“傑克和我與雷達嗡嗡聲完美坐著”,“雷達”將是一個高彈性的詞,因為它比“引擎”或“無線電”諸如“嗡嗡聲”之前的單詞較少。
研究人員通過從小說書籍和《紐約時報》文章的摘錄中刪除了高空單詞,並要求模型預測這些缺失的單詞,從而測試了包括GPT-4和GPT-3.5在內的幾種OpenAI模型。如果這些模型準確地猜到了這些單詞,它表明他們在訓練過程中記住了文本。

一個模型“猜測”高傳播單詞的示例。圖片學分:OpenAi 結果表明,GPT-4可能記住了流行小說書籍的部分,包括在Bookmia的電子書數據集中。它似乎還記住了一些紐約時報的文章,儘管頻率較低。
華盛頓大學的博士生,該研究的合著者Abhilasha Ravichander強調,這些發現強調了可能被用於培訓這些模型的“有爭議的數據”。 Ravichander說:“為了具有值得信賴的大語言模型,我們需要擁有可以探究和審核和科學檢查的模型。” “我們的工作旨在提供一種探究大型語言模型的工具,但實際上需要在整個生態系統中提高數據透明度。”
Openai推動了使用受版權保護的數據開發AI模型的更輕鬆的規則。儘管該公司有一些內容許可協議,並為版權持有人提供了退出選項,但它遊說各個政府以建立專門針對AI培訓的“合理使用”規則。
相關文章
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準
為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
評論 (30)
0/200
AlbertHernández
2025-04-15 08:00:00
This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔
0
TimothyMitchell
2025-04-22 08:00:00
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
0
WillLopez
2025-04-21 08:00:00
오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔
0
JamesMiller
2025-04-11 08:00:00
Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔
0
BruceSmith
2025-04-13 08:00:00
Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔
0
JohnWilson
2025-04-18 08:00:00
This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞
0
最近的一項研究表明,Openai確實確實使用了受版權保護的材料來訓練其一些AI模型,從而為公司面臨的正在進行的法律鬥爭增加了燃料。作者,程序員和其他內容創建者指責Openai使用其作品(例如書籍和代碼),而無權開發其AI模型。儘管Openai通過聲稱合理使用來捍衛自己,但原告認為美國版權法並未為培訓數據提供例外。
這項研究是華盛頓大學,哥本哈根大學和斯坦福大學的研究人員之間的合作,引入了一種新技術,用於檢測通過API訪問的模型中的“記憶”培訓數據,例如OpenAI的培訓數據。 AI模型本質上從大量數據中學習以識別模式,使它們能夠創建論文,圖像等。儘管大多數輸出不是培訓數據的直接副本,但有些不可避免地是由於學習過程所致。例如,眾所周知,圖像模型可以復制電影屏幕截圖,而語言模型實際上是竊新聞文章。
研究中描述的方法著重於“高生命”單詞,這些單詞在給定情況下是不尋常的單詞。例如,在句子中,“傑克和我與雷達嗡嗡聲完美坐著”,“雷達”將是一個高彈性的詞,因為它比“引擎”或“無線電”諸如“嗡嗡聲”之前的單詞較少。
研究人員通過從小說書籍和《紐約時報》文章的摘錄中刪除了高空單詞,並要求模型預測這些缺失的單詞,從而測試了包括GPT-4和GPT-3.5在內的幾種OpenAI模型。如果這些模型準確地猜到了這些單詞,它表明他們在訓練過程中記住了文本。
華盛頓大學的博士生,該研究的合著者Abhilasha Ravichander強調,這些發現強調了可能被用於培訓這些模型的“有爭議的數據”。 Ravichander說:“為了具有值得信賴的大語言模型,我們需要擁有可以探究和審核和科學檢查的模型。” “我們的工作旨在提供一種探究大型語言模型的工具,但實際上需要在整個生態系統中提高數據透明度。”
Openai推動了使用受版權保護的數據開發AI模型的更輕鬆的規則。儘管該公司有一些內容許可協議,並為版權持有人提供了退出選項,但它遊說各個政府以建立專門針對AI培訓的“合理使用”規則。




This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔




OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔




오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔




Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔




Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔




This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞












