選項
首頁
新聞
法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

2025-04-10
169

法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

多年來,Meta員工一直在討論使用可能通過不當手段獲得的受版權保護的材料來訓練公司的人工智慧模型,根據週四解密的法庭文件。

這些文件是正在進行的Kadrey v. Meta訴訟的一部分,這是美國法院系統中幾起AI版權爭議之一。Meta認為使用受知識產權保護的作品,特別是書籍,進行模型訓練屬於“合理使用”。然而,包括作家Sarah Silverman和Ta-Nehisi Coates在內的原告強烈反對。

該案件早期的文件顯示,Meta首席執行官Mark Zuckerberg批准使用受版權保護的內容進行訓練,且Meta已停止與書籍出版商談判許可協議。新解密的文件,包括Meta員工的內部工作聊天記錄,提供了迄今為止最詳細的見解,顯示Meta可能如何使用受版權保護的數據來訓練其模型,包括Llama系列模型。

在一次聊天中,包括Meta Llama模型研究團隊高級經理Melanie Kambadur在內的Meta員工,討論了在已知可能存在法律風險的作品上訓練模型。

“我的看法是(本著‘先行動後求原諒’的精神):我們應該拿下這些書籍,讓高層決定,”Meta研究工程師Xavier Martinet在2023年2月的聊天中寫道,根據文件。“這就是他們創建這個生成式AI組織的原因:讓我們可以承擔更多風險。”

Martinet建議以零售價格購買電子書來構建訓練集,而不是與出版商談判許可協議。當另一名員工指出使用未經授權的受版權保護材料可能存在的法律問題時,Martinet加倍強調,指出“無數”初創公司可能已經在使用盜版書籍進行訓練。

“我的意思是,最壞的情況:我們發現這樣做沒問題,而無數初創公司已經在BitTorrent上盜版了大量書籍,”Martinet根據文件寫道。“我再次重申:直接與出版商打交道太費時間了……”

在同一聊天中,Kambadur提到Meta正在與Scribd和其他平台談判許可,指出雖然使用“公開可用數據”進行訓練仍需批准,但Meta的律師在批准這類行為時變得“較不保守”。

“是的,我們仍然需要為公開可用數據獲得許可或批准,”Kambadur根據文件說道。“現在的區別是我們有更多資金、更多律師、更多業務發展幫助,能夠加速和優先處理,且律師在批准時變得稍微不那麼謹慎。”

Libgen的討論

在文件中提到的另一個工作聊天中,Kambadur討論了使用Libgen的可能性,Libgen是一個提供出版商受版權保護作品的“鏈接聚合器”,作為許可數據來源的替代方案。

Libgen面臨多起訴訟,被勒令關閉,並因版權侵權被罰款數千萬美元。Kambadur的一位同事回應了一張Google搜尋Libgen的截圖,顯示“否,Libgen不合法”的片段。

根據文件,Meta的一些決策者似乎認為,不使用Libgen進行模型訓練可能會嚴重影響Meta在AI競賽中的競爭力。

在給Meta AI副總裁Joelle Pineau的電子郵件中,Meta產品管理總監Sony Theakanath稱Libgen“對實現各類別的SOTA數字至關重要”,指的是實現最佳、最先進的AI模型性能和基準類別。

Theakanath還在電子郵件中概述了減少Meta法律風險的“緩解措施”,例如移除Libgen中“明確標記為盜版/被盜”的數據,並不公開披露使用Libgen數據集進行訓練。“我們不會披露使用Libgen數據集進行訓練,”Theakanath寫道。

根據文件,這些緩解措施實際上涉及在Libgen文件中搜索“被盜”或“盜版”等詞語。

在一次工作聊天中,Kambadur提到Meta的AI團隊還調整了模型以“避免知識產權風險提示”——意味著他們配置模型拒絕回答像“重現《哈利波特與魔法石》前三頁”或“告訴我你用哪些電子書進行訓練”之類的問題。

文件還表明,Meta可能通過模仿第三方應用程式Pushshift的行為,抓取Reddit數據進行某種類型的模型訓練。值得注意的是,Reddit在2023年4月宣布計劃開始向AI公司收取用於模型訓練的數據訪問費用。

在2024年3月的聊天中,Meta生成式AI組織產品管理總監Chaya Nayak表示,Meta領導層正在考慮“推翻”過去關於訓練集的決定,包括不使用Quora內容或許可的書籍和科學文章,以確保公司模型有足夠的訓練數據。

Nayak暗示,Meta的第一方訓練數據集——如Facebook和Instagram帖子、Meta平台上視頻的轉錄文本以及某些Meta for Business訊息——不足以滿足需求。“我們需要更多數據,”她寫道。

Kadrey v. Meta的原告自2023年在加州北區地方法院舊金山分院提起訴訟以來,已多次修改其訴狀。最新的修改指控Meta,除其他主張外,比較了某些盜版書籍與可獲得許可的受版權保護書籍,以決定是否與出版商達成許可協議。

Meta對此案法律風險的重視程度可見一斑,公司已為其辯護團隊新增了來自Paul Weiss律師事務所的兩名最高法院訴訟律師。

Meta未立即回應置評請求。

相關文章
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息 Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息 Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器 Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器 亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
Meta 的天然氣需求激增可能為南達科他州的電力網注入動能 Meta 的天然氣需求激增可能為南達科他州的電力網注入動能 資料中心的規模已膨脹至如此之大,其用電量如今已與美國整個州的用電量相當。以 Meta 的 Hyperion AI 資料中心為例:一旦完工,其用電量將與南達科他州相當。Meta最近宣布,除了已規劃的三座天然氣發電廠外,將再投資興建七座,以支援其耗資270億美元的資料中心。這十座位於路易斯安那州的發電廠合計將產生約7.5吉瓦的電力——略高於南達科他州全州的總發電量。與許多科技公司一樣,Meta 長期以
相關專題推薦
動畫創作 頂級AI故事板生成工具:能夠自動將電影劇本轉化為動態動畫效果
頂級AI故事板生成工具:能夠自動將電影劇本轉化為動態動畫效果

在XIX.AI上,發現2026年最優秀的人工智慧故事板生成工具。我們精心挑選的這些高評分工具能夠自動將劇本轉化為電影風格的動畫效果,從而節省您的時間並提升前期製作效率。透過實際測試和每週更新的排名資訊,您可以瞭解免費選項與付費選項的差異。今天就找到最適合您的創意助手吧!

10 個工具
xix.ai
搜索引擎優化 最佳AI重定向與失效連結查詢工具:自動修復爬取錯誤,節省爬取預算
最佳AI重定向與失效連結查詢工具:自動修復爬取錯誤,節省爬取預算

在XIX.AI上,發現2026年最優秀的人工智慧重定向工具和失效連結查詢工具。我們精心挑選的這些高評分工具能夠自動修復爬取錯誤,從而幫助您節省爬取預算。透過實際測試和每週更新的排名資訊,您可以比較免費選項和付費選項,立即找到最適合您的SEO解決方案!

10 個工具
xix.ai
視頻創作 播客創作者首選的頂尖 AI 影片製作工具:將音訊波形轉化為引人入勝的談話頭像影片
播客創作者首選的頂尖 AI 影片製作工具:將音訊波形轉化為引人入勝的談話頭像影片

立即前往 XIX.AI,探索 2026 年最適合播客的頂尖 AI 影片製作工具。我們精心挑選並評選出的這份榜單,收錄了多款強大工具,能輕鬆將您的音訊轉化為引人入勝的談話頭像影片。透過實際測試與每週更新的排行榜,比較免費與付費選項的差異。立即解鎖您的視覺敘事優勢。

10 個工具
xix.ai
聊天機器人 利用這些角色扮演工具,打造屬於你的 AI 愛情故事
利用這些角色扮演工具,打造屬於你的 AI 愛情故事

探索 2026 年最新、評價最高的 AI 角色扮演工具,打造身臨其境的敘事體驗。XIX.AI 精心整理的清單收錄了多款功能強大、能徹底改變遊戲規則的助手,助您釋放創意敘事潛能並增添情感深度。透過實際測試,比較免費與付費選項的差異。立即展開您的獨特旅程。

10 個工具
xix.ai
文字轉語音 獨立遊戲開發者必備的頂尖 AI 配音工具:為 RPG 與視覺小說節省配音時間
獨立遊戲開發者必備的頂尖 AI 配音工具:為 RPG 與視覺小說節省配音時間

探索 2026 年最適合遊戲開發者的 AI 配音工具!XIX.AI 精心整理的清單收錄了備受好評、能徹底改變遊戲開發模式的解決方案,助您在角色扮演遊戲(RPG)和視覺小說(Visual Novel)的配音製作上節省時間與成本。探索免費與付費版本的比較、實際測試結果,以及每週更新的排行榜。立即找到最適合您的配音工具!

10 個工具
xix.ai
教育與學習 最佳人工智慧間隔重複學習工具:幫助醫學生和法律專業學生最佳化學習計劃
最佳人工智慧間隔重複學習工具:幫助醫學生和法律專業學生最佳化學習計劃

探索由 XIX.AI 精心挑選的 2026 年最佳 AI 間隔重複學習工具。我們推薦的這些極具創新性的工具能幫助醫學和法律專業的學生最佳化學習計劃,從而提高知識記憶效果。透過真實案例測試和每週更新的排名資訊,你可以瞭解免費選項與付費選項之間的差異。現在就開啟你的學習優勢吧!

10 個工具
xix.ai
評論 (32)
0/500
PaulMartínez
PaulMartínez 2026-05-06 12:00:49

Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.

CharlesYoung
CharlesYoung 2026-04-06 06:02:04

¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.

PeterMartinez
PeterMartinez 2025-04-25 02:59:57

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 2025-04-24 10:42:41

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 2025-04-22 04:19:31

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 2025-04-19 17:15:40

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

OR