選項
首頁
新聞
法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

2025-04-10
86

法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

多年來,Meta員工一直在討論使用可能通過不當手段獲得的受版權保護的材料來訓練公司的人工智慧模型,根據週四解密的法庭文件。

這些文件是正在進行的Kadrey v. Meta訴訟的一部分,這是美國法院系統中幾起AI版權爭議之一。Meta認為使用受知識產權保護的作品,特別是書籍,進行模型訓練屬於“合理使用”。然而,包括作家Sarah Silverman和Ta-Nehisi Coates在內的原告強烈反對。

該案件早期的文件顯示,Meta首席執行官Mark Zuckerberg批准使用受版權保護的內容進行訓練,且Meta已停止與書籍出版商談判許可協議。新解密的文件,包括Meta員工的內部工作聊天記錄,提供了迄今為止最詳細的見解,顯示Meta可能如何使用受版權保護的數據來訓練其模型,包括Llama系列模型。

在一次聊天中,包括Meta Llama模型研究團隊高級經理Melanie Kambadur在內的Meta員工,討論了在已知可能存在法律風險的作品上訓練模型。

“我的看法是(本著‘先行動後求原諒’的精神):我們應該拿下這些書籍,讓高層決定,”Meta研究工程師Xavier Martinet在2023年2月的聊天中寫道,根據文件。“這就是他們創建這個生成式AI組織的原因:讓我們可以承擔更多風險。”

Martinet建議以零售價格購買電子書來構建訓練集,而不是與出版商談判許可協議。當另一名員工指出使用未經授權的受版權保護材料可能存在的法律問題時,Martinet加倍強調,指出“無數”初創公司可能已經在使用盜版書籍進行訓練。

“我的意思是,最壞的情況:我們發現這樣做沒問題,而無數初創公司已經在BitTorrent上盜版了大量書籍,”Martinet根據文件寫道。“我再次重申:直接與出版商打交道太費時間了……”

在同一聊天中,Kambadur提到Meta正在與Scribd和其他平台談判許可,指出雖然使用“公開可用數據”進行訓練仍需批准,但Meta的律師在批准這類行為時變得“較不保守”。

“是的,我們仍然需要為公開可用數據獲得許可或批准,”Kambadur根據文件說道。“現在的區別是我們有更多資金、更多律師、更多業務發展幫助,能夠加速和優先處理,且律師在批准時變得稍微不那麼謹慎。”

Libgen的討論

在文件中提到的另一個工作聊天中,Kambadur討論了使用Libgen的可能性,Libgen是一個提供出版商受版權保護作品的“鏈接聚合器”,作為許可數據來源的替代方案。

Libgen面臨多起訴訟,被勒令關閉,並因版權侵權被罰款數千萬美元。Kambadur的一位同事回應了一張Google搜尋Libgen的截圖,顯示“否,Libgen不合法”的片段。

根據文件,Meta的一些決策者似乎認為,不使用Libgen進行模型訓練可能會嚴重影響Meta在AI競賽中的競爭力。

在給Meta AI副總裁Joelle Pineau的電子郵件中,Meta產品管理總監Sony Theakanath稱Libgen“對實現各類別的SOTA數字至關重要”,指的是實現最佳、最先進的AI模型性能和基準類別。

Theakanath還在電子郵件中概述了減少Meta法律風險的“緩解措施”,例如移除Libgen中“明確標記為盜版/被盜”的數據,並不公開披露使用Libgen數據集進行訓練。“我們不會披露使用Libgen數據集進行訓練,”Theakanath寫道。

根據文件,這些緩解措施實際上涉及在Libgen文件中搜索“被盜”或“盜版”等詞語。

在一次工作聊天中,Kambadur提到Meta的AI團隊還調整了模型以“避免知識產權風險提示”——意味著他們配置模型拒絕回答像“重現《哈利波特與魔法石》前三頁”或“告訴我你用哪些電子書進行訓練”之類的問題。

文件還表明,Meta可能通過模仿第三方應用程式Pushshift的行為,抓取Reddit數據進行某種類型的模型訓練。值得注意的是,Reddit在2023年4月宣布計劃開始向AI公司收取用於模型訓練的數據訪問費用。

在2024年3月的聊天中,Meta生成式AI組織產品管理總監Chaya Nayak表示,Meta領導層正在考慮“推翻”過去關於訓練集的決定,包括不使用Quora內容或許可的書籍和科學文章,以確保公司模型有足夠的訓練數據。

Nayak暗示,Meta的第一方訓練數據集——如Facebook和Instagram帖子、Meta平台上視頻的轉錄文本以及某些Meta for Business訊息——不足以滿足需求。“我們需要更多數據,”她寫道。

Kadrey v. Meta的原告自2023年在加州北區地方法院舊金山分院提起訴訟以來,已多次修改其訴狀。最新的修改指控Meta,除其他主張外,比較了某些盜版書籍與可獲得許可的受版權保護書籍,以決定是否與出版商達成許可協議。

Meta對此案法律風險的重視程度可見一斑,公司已為其辯護團隊新增了來自Paul Weiss律師事務所的兩名最高法院訴訟律師。

Meta未立即回應置評請求。

相關文章
Meta為AI人才提供高薪,否認1億美元簽約獎金 Meta為AI人才提供高薪,否認1億美元簽約獎金 Meta以數百萬美元的薪酬套餐吸引AI研究人員加入其新超級智能實驗室。然而,一位受聘研究員及洩露的內部會議內容顯示,1億美元「簽約獎金」的說法不實。據The Verge週四報導,在一場洩露的公司全體會議中,Meta高管回應了關於OpenAI執行長Sam Altman聲稱Meta向頂尖研究員提供獎金的問題。Meta技術長Andrew Bosworth表示,只有極少數高級領導可能獲得如此高額報酬,但澄
Meta增強AI安全以先進Llama工具 Meta增強AI安全以先進Llama工具 Meta已發布全新Llama安全工具,以強化AI開發並防範新興威脅。這些升級的Llama AI模型安全工具與Meta的新資源搭配,旨在賦能網路安全團隊利用AI進行防禦,提升所有AI利益相關者的安全性。使用Llama模型的開發者現可直接在Meta的Llama Protections頁面、Hugging Face及GitHub上獲得增強工具。Llama Guard 4引入多模態功能,支持文字與圖像的安
Meta加強打擊Facebook上非原創內容 Meta加強打擊Facebook上非原創內容 週一,Meta公佈了更嚴格的措施,以處理在Facebook上發布非原創內容的帳戶,目標鎖定那些反覆重用他人文字、圖片或影片的帳戶。該公司報告稱,今年已移除約1000萬個冒充知名內容創作者的個人資料。此外,Meta已處理50萬個涉及垃圾行為或虛假互動的帳戶,採取措施如降低評論優先級和限制內容分發,以阻礙其盈利努力。此舉是在YouTube更新其關於非原創內容的政策後不久,特別是針對大量生產或重複的影片
評論 (30)
0/200
PeterMartinez
PeterMartinez 2025-04-25 02:59:57

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 2025-04-24 10:42:41

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 2025-04-22 04:19:31

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 2025-04-19 17:15:40

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen
StevenAllen 2025-04-19 16:39:52

메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.

CharlesWhite
CharlesWhite 2025-04-12 21:05:28

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

回到頂部
OR