選項
首頁
新聞
法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

2025-04-10
86

法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

多年來,Meta員工一直在討論使用可能通過不當手段獲得的受版權保護的材料來訓練公司的人工智慧模型,根據週四解密的法庭文件。

這些文件是正在進行的Kadrey v. Meta訴訟的一部分,這是美國法院系統中幾起AI版權爭議之一。Meta認為使用受知識產權保護的作品,特別是書籍,進行模型訓練屬於“合理使用”。然而,包括作家Sarah Silverman和Ta-Nehisi Coates在內的原告強烈反對。

該案件早期的文件顯示,Meta首席執行官Mark Zuckerberg批准使用受版權保護的內容進行訓練,且Meta已停止與書籍出版商談判許可協議。新解密的文件,包括Meta員工的內部工作聊天記錄,提供了迄今為止最詳細的見解,顯示Meta可能如何使用受版權保護的數據來訓練其模型,包括Llama系列模型。

在一次聊天中,包括Meta Llama模型研究團隊高級經理Melanie Kambadur在內的Meta員工,討論了在已知可能存在法律風險的作品上訓練模型。

“我的看法是(本著‘先行動後求原諒’的精神):我們應該拿下這些書籍,讓高層決定,”Meta研究工程師Xavier Martinet在2023年2月的聊天中寫道,根據文件。“這就是他們創建這個生成式AI組織的原因:讓我們可以承擔更多風險。”

Martinet建議以零售價格購買電子書來構建訓練集,而不是與出版商談判許可協議。當另一名員工指出使用未經授權的受版權保護材料可能存在的法律問題時,Martinet加倍強調,指出“無數”初創公司可能已經在使用盜版書籍進行訓練。

“我的意思是,最壞的情況:我們發現這樣做沒問題,而無數初創公司已經在BitTorrent上盜版了大量書籍,”Martinet根據文件寫道。“我再次重申:直接與出版商打交道太費時間了……”

在同一聊天中,Kambadur提到Meta正在與Scribd和其他平台談判許可,指出雖然使用“公開可用數據”進行訓練仍需批准,但Meta的律師在批准這類行為時變得“較不保守”。

“是的,我們仍然需要為公開可用數據獲得許可或批准,”Kambadur根據文件說道。“現在的區別是我們有更多資金、更多律師、更多業務發展幫助,能夠加速和優先處理,且律師在批准時變得稍微不那麼謹慎。”

Libgen的討論

在文件中提到的另一個工作聊天中,Kambadur討論了使用Libgen的可能性,Libgen是一個提供出版商受版權保護作品的“鏈接聚合器”,作為許可數據來源的替代方案。

Libgen面臨多起訴訟,被勒令關閉,並因版權侵權被罰款數千萬美元。Kambadur的一位同事回應了一張Google搜尋Libgen的截圖,顯示“否,Libgen不合法”的片段。

根據文件,Meta的一些決策者似乎認為,不使用Libgen進行模型訓練可能會嚴重影響Meta在AI競賽中的競爭力。

在給Meta AI副總裁Joelle Pineau的電子郵件中,Meta產品管理總監Sony Theakanath稱Libgen“對實現各類別的SOTA數字至關重要”,指的是實現最佳、最先進的AI模型性能和基準類別。

Theakanath還在電子郵件中概述了減少Meta法律風險的“緩解措施”,例如移除Libgen中“明確標記為盜版/被盜”的數據,並不公開披露使用Libgen數據集進行訓練。“我們不會披露使用Libgen數據集進行訓練,”Theakanath寫道。

根據文件,這些緩解措施實際上涉及在Libgen文件中搜索“被盜”或“盜版”等詞語。

在一次工作聊天中,Kambadur提到Meta的AI團隊還調整了模型以“避免知識產權風險提示”——意味著他們配置模型拒絕回答像“重現《哈利波特與魔法石》前三頁”或“告訴我你用哪些電子書進行訓練”之類的問題。

文件還表明,Meta可能通過模仿第三方應用程式Pushshift的行為,抓取Reddit數據進行某種類型的模型訓練。值得注意的是,Reddit在2023年4月宣布計劃開始向AI公司收取用於模型訓練的數據訪問費用。

在2024年3月的聊天中,Meta生成式AI組織產品管理總監Chaya Nayak表示,Meta領導層正在考慮“推翻”過去關於訓練集的決定,包括不使用Quora內容或許可的書籍和科學文章,以確保公司模型有足夠的訓練數據。

Nayak暗示,Meta的第一方訓練數據集——如Facebook和Instagram帖子、Meta平台上視頻的轉錄文本以及某些Meta for Business訊息——不足以滿足需求。“我們需要更多數據,”她寫道。

Kadrey v. Meta的原告自2023年在加州北區地方法院舊金山分院提起訴訟以來,已多次修改其訴狀。最新的修改指控Meta,除其他主張外,比較了某些盜版書籍與可獲得許可的受版權保護書籍,以決定是否與出版商達成許可協議。

Meta對此案法律風險的重視程度可見一斑,公司已為其辯護團隊新增了來自Paul Weiss律師事務所的兩名最高法院訴訟律師。

Meta未立即回應置評請求。

相關文章
Meta 的扎克伯格表示並非所有 AI「超級智慧」模型都會開放原始碼 Meta 的扎克伯格表示並非所有 AI「超級智慧」模型都會開放原始碼 Meta 邁向個人超級智慧的策略轉移Meta 執行長 Mark Zuckerberg 本週概述了「個人超級智慧」(personal superintelligence)的遠大願景,也就是讓個人有能力完成個人目標的 AI 系統,這意味著該公司的 AI 部署策略可能會有所改變。開放原始碼的困境扎克伯格的聲明顯示,Meta 在追求超級智慧系統時,可能會重新考慮其開放先進 AI 模型的承諾:"我們相信超級
Meta 的 AI 攻克 Instagram 內容的視訊配音問題 Meta 的 AI 攻克 Instagram 內容的視訊配音問題 Meta 將其突破性的 AI 配音技術擴展至 Facebook 和 Instagram,推出無縫視訊翻譯功能,以保持您真實的聲音和自然的嘴唇動作。革新跨文化內容Meta 的全新 AI 翻譯功能可自動在英文和西班牙文之間轉換 Reels,同時保留創作者的聲音特徵和唇語同步。這項創新是以去年 Meta Connect 活動中展示的技術為基礎,為內容創作人提供強大的工具,以吸引國際觀眾。如何運作此系統採
Meta AI應用程式將推出高級訂閱與廣告 Meta AI應用程式將推出高級訂閱與廣告 Meta的AI應用程式即將推出付費訂閱服務,類似於OpenAI、Google和Microsoft等競爭對手的產品。在2025年第一季財報電話會議中,Meta首席執行官馬克·祖克柏格概述了高級服務的計劃,讓用戶能夠使用更強大的運算能力或Meta AI的額外功能。為了與ChatGPT競爭,Meta本週推出了一款獨立的AI應用程式,允許用戶直接與聊天機器人互動並進行圖像生成。該聊天機器人目前擁有近10億
評論 (30)
0/200
PeterMartinez
PeterMartinez 2025-04-25 02:59:57

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 2025-04-24 10:42:41

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 2025-04-22 04:19:31

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 2025-04-19 17:15:40

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen
StevenAllen 2025-04-19 16:39:52

메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.

CharlesWhite
CharlesWhite 2025-04-12 21:05:28

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

回到頂部
OR