研究:OpenAI模型記憶的受版權保護內容
近期一項研究表明,OpenAI確實可能使用了受版權保護的材料來訓練其部分AI模型,為該公司面臨的持續法律爭議增添了燃料。作者、程式設計師和其他內容創作者指控OpenAI未經許可使用他們的作品(如書籍和程式碼)來開發其AI模型。雖然OpenAI以合理使用為由進行辯護,但原告認為美國版權法並未為訓練數據提供例外。
這項研究由華盛頓大學、哥本哈根大學和史丹佛大學的研究人員合作進行,介紹了一種新技術,用於檢測通過API存取的模型(如OpenAI的模型)中「記憶」的訓練數據。AI模型基本上從大量數據中學習以識別模式,使其能夠創作文稿、圖像等。雖然大多數輸出並非訓練數據的直接複製品,但由於學習過程,某些輸出難免是複製品。例如,圖像模型已知會重現電影截圖,而語言模型則被發現幾乎是在抄襲新聞文章。
研究中描述的方法聚焦於「高驚訝度」詞彙——在特定情境中不常見的詞。例如,在句子「Jack和我靜坐不動,雷達嗡嗡作響」中,「雷達」是一個高驚訝度詞,因為相較於「引擎」或「收音機」等詞,它較不常與「嗡嗡作響」連繫。
研究人員測試了多個OpenAI模型,包括GPT-4和GPT-3.5,方法是從小說書籍和新紐約時報文章的摘錄中移除高驚訝度詞彙,並要求模型預測這些缺失的詞。如果模型能準確猜出這些詞,則表明它們在訓練過程中記憶了這些文本。

一個讓模型「猜測」高驚訝度詞的例子。圖片來源:OpenAI 結果顯示,GPT-4很可能記憶了受版權保護的電子書數據集BookMIA中的部分熱門小說書籍內容。它似乎也記憶了一些紐約時報的文章,儘管頻率較低。華盛頓大學博士生兼研究合著者Abhilasha Ravichander向TechCrunch強調,這些發現凸顯了可能用於訓練這些模型的「具爭議性數據」。「為了擁有值得信賴的大型語言模型,我們需要能夠探查、審計和科學檢驗的模型,」Ravichander表示。「我們的工作旨在提供一個探查大型語言模型的工具,但整個生態系統對數據透明度的需求確實很大。」
OpenAI一直推動放寬使用受版權保護數據來開發AI模型的規則。雖然該公司已與一些內容持有者簽訂了授權協議,並為版權持有人提供退出選項,但它也向各國政府遊說,試圖為AI訓練建立「合理使用」規則。
相關文章
非營利組織利用 AI 代理提升慈善募款工作
當各大科技公司將人工智慧「代理」推廣為企業生產力的助推器時,一家非營利組織正在展示人工智慧在社會公益方面的潛力。由 Open Philanthropy 支持的慈善研究組織 Sage Future 最近進行了一項創新實驗,展示 AI 模型如何協同進行慈善募款。該非營利組織將 OpenAI 的 GPT-4o 與 o1,以及 Anthropic 的 Claude 3.6 與 3.7 Sonnet 等
頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力
來自 OpenAI、Google DeepMind、Anthropic 和 Meta 的研究人員,史無前例地展現團結,擱置競爭分歧,就負責任的 AI 開發發出集體警告。來自這些典型競爭組織的 40 多位頂尖科學家共同撰寫了一份突破性的研究論文,強調確保 AI 決策過程透明化的窗口正在快速關閉。此次合作的重點在於現代人工智能系統的一項關鍵發展 - 在產生最終輸出之前,以人類可讀的語言闡明推理過程的新
ChatGPT 新增 Google Drive 和 Dropbox 整合功能以存取檔案
ChatGPT 利用新的企業功能增強生產力OpenAI 發表了兩項強大的新功能,將 ChatGPT 轉型為全面的企業生產力工具:自動化會議記錄和無縫雲儲存整合。革命性的錄音功能新推出的 「記錄模式 」可自動轉錄和分析以下內容:重要的商務會議有創意的腦力激盪會議 個人思考過程此優質功能目前為 ChatGPT 團隊訂閱者專屬 (每位使用者每月 $25),可提供:精確、有時
評論 (32)
0/200
WilliamGonzalez
2025-08-25 17:01:06
This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤
0
GregoryBaker
2025-08-23 19:01:18
This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.
0
JohnGarcia
2025-04-23 23:10:14
Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?
0
TimothyMitchell
2025-04-22 08:12:42
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
0
WillLopez
2025-04-21 19:49:05
오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔
0
WillMitchell
2025-04-21 11:30:11
Este estudio sobre los modelos de OpenAI usando contenido con derechos de autor es bastante aterrador! 😱 Está genial que la IA se esté volviendo más inteligente, pero usar libros y códigos sin permiso no parece correcto. ¡Espero que lo resuelvan pronto! 🤞
0
近期一項研究表明,OpenAI確實可能使用了受版權保護的材料來訓練其部分AI模型,為該公司面臨的持續法律爭議增添了燃料。作者、程式設計師和其他內容創作者指控OpenAI未經許可使用他們的作品(如書籍和程式碼)來開發其AI模型。雖然OpenAI以合理使用為由進行辯護,但原告認為美國版權法並未為訓練數據提供例外。
這項研究由華盛頓大學、哥本哈根大學和史丹佛大學的研究人員合作進行,介紹了一種新技術,用於檢測通過API存取的模型(如OpenAI的模型)中「記憶」的訓練數據。AI模型基本上從大量數據中學習以識別模式,使其能夠創作文稿、圖像等。雖然大多數輸出並非訓練數據的直接複製品,但由於學習過程,某些輸出難免是複製品。例如,圖像模型已知會重現電影截圖,而語言模型則被發現幾乎是在抄襲新聞文章。
研究中描述的方法聚焦於「高驚訝度」詞彙——在特定情境中不常見的詞。例如,在句子「Jack和我靜坐不動,雷達嗡嗡作響」中,「雷達」是一個高驚訝度詞,因為相較於「引擎」或「收音機」等詞,它較不常與「嗡嗡作響」連繫。
研究人員測試了多個OpenAI模型,包括GPT-4和GPT-3.5,方法是從小說書籍和新紐約時報文章的摘錄中移除高驚訝度詞彙,並要求模型預測這些缺失的詞。如果模型能準確猜出這些詞,則表明它們在訓練過程中記憶了這些文本。
華盛頓大學博士生兼研究合著者Abhilasha Ravichander向TechCrunch強調,這些發現凸顯了可能用於訓練這些模型的「具爭議性數據」。「為了擁有值得信賴的大型語言模型,我們需要能夠探查、審計和科學檢驗的模型,」Ravichander表示。「我們的工作旨在提供一個探查大型語言模型的工具,但整個生態系統對數據透明度的需求確實很大。」
OpenAI一直推動放寬使用受版權保護數據來開發AI模型的規則。雖然該公司已與一些內容持有者簽訂了授權協議,並為版權持有人提供退出選項,但它也向各國政府遊說,試圖為AI訓練建立「合理使用」規則。




This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤




This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.




Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?




OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔




오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔




Este estudio sobre los modelos de OpenAI usando contenido con derechos de autor es bastante aterrador! 😱 Está genial que la IA se esté volviendo más inteligente, pero usar libros y códigos sin permiso no parece correcto. ¡Espero que lo resuelvan pronto! 🤞












