法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

多年來,Meta員工一直在討論使用可能通過不當手段獲得的受版權保護的材料來訓練公司的人工智慧模型,根據週四解密的法庭文件。
這些文件是正在進行的Kadrey v. Meta訴訟的一部分,這是美國法院系統中幾起AI版權爭議之一。Meta認為使用受知識產權保護的作品,特別是書籍,進行模型訓練屬於“合理使用”。然而,包括作家Sarah Silverman和Ta-Nehisi Coates在內的原告強烈反對。
該案件早期的文件顯示,Meta首席執行官Mark Zuckerberg批准使用受版權保護的內容進行訓練,且Meta已停止與書籍出版商談判許可協議。新解密的文件,包括Meta員工的內部工作聊天記錄,提供了迄今為止最詳細的見解,顯示Meta可能如何使用受版權保護的數據來訓練其模型,包括Llama系列模型。
在一次聊天中,包括Meta Llama模型研究團隊高級經理Melanie Kambadur在內的Meta員工,討論了在已知可能存在法律風險的作品上訓練模型。
“我的看法是(本著‘先行動後求原諒’的精神):我們應該拿下這些書籍,讓高層決定,”Meta研究工程師Xavier Martinet在2023年2月的聊天中寫道,根據文件。“這就是他們創建這個生成式AI組織的原因:讓我們可以承擔更多風險。”
Martinet建議以零售價格購買電子書來構建訓練集,而不是與出版商談判許可協議。當另一名員工指出使用未經授權的受版權保護材料可能存在的法律問題時,Martinet加倍強調,指出“無數”初創公司可能已經在使用盜版書籍進行訓練。
“我的意思是,最壞的情況:我們發現這樣做沒問題,而無數初創公司已經在BitTorrent上盜版了大量書籍,”Martinet根據文件寫道。“我再次重申:直接與出版商打交道太費時間了……”
在同一聊天中,Kambadur提到Meta正在與Scribd和其他平台談判許可,指出雖然使用“公開可用數據”進行訓練仍需批准,但Meta的律師在批准這類行為時變得“較不保守”。
“是的,我們仍然需要為公開可用數據獲得許可或批准,”Kambadur根據文件說道。“現在的區別是我們有更多資金、更多律師、更多業務發展幫助,能夠加速和優先處理,且律師在批准時變得稍微不那麼謹慎。”
Libgen的討論
在文件中提到的另一個工作聊天中,Kambadur討論了使用Libgen的可能性,Libgen是一個提供出版商受版權保護作品的“鏈接聚合器”,作為許可數據來源的替代方案。
Libgen面臨多起訴訟,被勒令關閉,並因版權侵權被罰款數千萬美元。Kambadur的一位同事回應了一張Google搜尋Libgen的截圖,顯示“否,Libgen不合法”的片段。
根據文件,Meta的一些決策者似乎認為,不使用Libgen進行模型訓練可能會嚴重影響Meta在AI競賽中的競爭力。
在給Meta AI副總裁Joelle Pineau的電子郵件中,Meta產品管理總監Sony Theakanath稱Libgen“對實現各類別的SOTA數字至關重要”,指的是實現最佳、最先進的AI模型性能和基準類別。
Theakanath還在電子郵件中概述了減少Meta法律風險的“緩解措施”,例如移除Libgen中“明確標記為盜版/被盜”的數據,並不公開披露使用Libgen數據集進行訓練。“我們不會披露使用Libgen數據集進行訓練,”Theakanath寫道。
根據文件,這些緩解措施實際上涉及在Libgen文件中搜索“被盜”或“盜版”等詞語。
在一次工作聊天中,Kambadur提到Meta的AI團隊還調整了模型以“避免知識產權風險提示”——意味著他們配置模型拒絕回答像“重現《哈利波特與魔法石》前三頁”或“告訴我你用哪些電子書進行訓練”之類的問題。
文件還表明,Meta可能通過模仿第三方應用程式Pushshift的行為,抓取Reddit數據進行某種類型的模型訓練。值得注意的是,Reddit在2023年4月宣布計劃開始向AI公司收取用於模型訓練的數據訪問費用。
在2024年3月的聊天中,Meta生成式AI組織產品管理總監Chaya Nayak表示,Meta領導層正在考慮“推翻”過去關於訓練集的決定,包括不使用Quora內容或許可的書籍和科學文章,以確保公司模型有足夠的訓練數據。
Nayak暗示,Meta的第一方訓練數據集——如Facebook和Instagram帖子、Meta平台上視頻的轉錄文本以及某些Meta for Business訊息——不足以滿足需求。“我們需要更多數據,”她寫道。
Kadrey v. Meta的原告自2023年在加州北區地方法院舊金山分院提起訴訟以來,已多次修改其訴狀。最新的修改指控Meta,除其他主張外,比較了某些盜版書籍與可獲得許可的受版權保護書籍,以決定是否與出版商達成許可協議。
Meta對此案法律風險的重視程度可見一斑,公司已為其辯護團隊新增了來自Paul Weiss律師事務所的兩名最高法院訴訟律師。
Meta未立即回應置評請求。
相關文章
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器
亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
Meta 的天然氣需求激增可能為南達科他州的電力網注入動能
資料中心的規模已膨脹至如此之大,其用電量如今已與美國整個州的用電量相當。以 Meta 的 Hyperion AI 資料中心為例:一旦完工,其用電量將與南達科他州相當。Meta最近宣布,除了已規劃的三座天然氣發電廠外,將再投資興建七座,以支援其耗資270億美元的資料中心。這十座位於路易斯安那州的發電廠合計將產生約7.5吉瓦的電力——略高於南達科他州全州的總發電量。與許多科技公司一樣,Meta 長期以
相關專題推薦
評論 (32)
0/500
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

多年來,Meta員工一直在討論使用可能通過不當手段獲得的受版權保護的材料來訓練公司的人工智慧模型,根據週四解密的法庭文件。
這些文件是正在進行的Kadrey v. Meta訴訟的一部分,這是美國法院系統中幾起AI版權爭議之一。Meta認為使用受知識產權保護的作品,特別是書籍,進行模型訓練屬於“合理使用”。然而,包括作家Sarah Silverman和Ta-Nehisi Coates在內的原告強烈反對。
該案件早期的文件顯示,Meta首席執行官Mark Zuckerberg批准使用受版權保護的內容進行訓練,且Meta已停止與書籍出版商談判許可協議。新解密的文件,包括Meta員工的內部工作聊天記錄,提供了迄今為止最詳細的見解,顯示Meta可能如何使用受版權保護的數據來訓練其模型,包括Llama系列模型。
在一次聊天中,包括Meta Llama模型研究團隊高級經理Melanie Kambadur在內的Meta員工,討論了在已知可能存在法律風險的作品上訓練模型。
“我的看法是(本著‘先行動後求原諒’的精神):我們應該拿下這些書籍,讓高層決定,”Meta研究工程師Xavier Martinet在2023年2月的聊天中寫道,根據文件。“這就是他們創建這個生成式AI組織的原因:讓我們可以承擔更多風險。”
Martinet建議以零售價格購買電子書來構建訓練集,而不是與出版商談判許可協議。當另一名員工指出使用未經授權的受版權保護材料可能存在的法律問題時,Martinet加倍強調,指出“無數”初創公司可能已經在使用盜版書籍進行訓練。
“我的意思是,最壞的情況:我們發現這樣做沒問題,而無數初創公司已經在BitTorrent上盜版了大量書籍,”Martinet根據文件寫道。“我再次重申:直接與出版商打交道太費時間了……”
在同一聊天中,Kambadur提到Meta正在與Scribd和其他平台談判許可,指出雖然使用“公開可用數據”進行訓練仍需批准,但Meta的律師在批准這類行為時變得“較不保守”。
“是的,我們仍然需要為公開可用數據獲得許可或批准,”Kambadur根據文件說道。“現在的區別是我們有更多資金、更多律師、更多業務發展幫助,能夠加速和優先處理,且律師在批准時變得稍微不那麼謹慎。”
Libgen的討論
在文件中提到的另一個工作聊天中,Kambadur討論了使用Libgen的可能性,Libgen是一個提供出版商受版權保護作品的“鏈接聚合器”,作為許可數據來源的替代方案。
Libgen面臨多起訴訟,被勒令關閉,並因版權侵權被罰款數千萬美元。Kambadur的一位同事回應了一張Google搜尋Libgen的截圖,顯示“否,Libgen不合法”的片段。
根據文件,Meta的一些決策者似乎認為,不使用Libgen進行模型訓練可能會嚴重影響Meta在AI競賽中的競爭力。
在給Meta AI副總裁Joelle Pineau的電子郵件中,Meta產品管理總監Sony Theakanath稱Libgen“對實現各類別的SOTA數字至關重要”,指的是實現最佳、最先進的AI模型性能和基準類別。
Theakanath還在電子郵件中概述了減少Meta法律風險的“緩解措施”,例如移除Libgen中“明確標記為盜版/被盜”的數據,並不公開披露使用Libgen數據集進行訓練。“我們不會披露使用Libgen數據集進行訓練,”Theakanath寫道。
根據文件,這些緩解措施實際上涉及在Libgen文件中搜索“被盜”或“盜版”等詞語。
在一次工作聊天中,Kambadur提到Meta的AI團隊還調整了模型以“避免知識產權風險提示”——意味著他們配置模型拒絕回答像“重現《哈利波特與魔法石》前三頁”或“告訴我你用哪些電子書進行訓練”之類的問題。
文件還表明,Meta可能通過模仿第三方應用程式Pushshift的行為,抓取Reddit數據進行某種類型的模型訓練。值得注意的是,Reddit在2023年4月宣布計劃開始向AI公司收取用於模型訓練的數據訪問費用。
在2024年3月的聊天中,Meta生成式AI組織產品管理總監Chaya Nayak表示,Meta領導層正在考慮“推翻”過去關於訓練集的決定,包括不使用Quora內容或許可的書籍和科學文章,以確保公司模型有足夠的訓練數據。
Nayak暗示,Meta的第一方訓練數據集——如Facebook和Instagram帖子、Meta平台上視頻的轉錄文本以及某些Meta for Business訊息——不足以滿足需求。“我們需要更多數據,”她寫道。
Kadrey v. Meta的原告自2023年在加州北區地方法院舊金山分院提起訴訟以來,已多次修改其訴狀。最新的修改指控Meta,除其他主張外,比較了某些盜版書籍與可獲得許可的受版權保護書籍,以決定是否與出版商達成許可協議。
Meta對此案法律風險的重視程度可見一斑,公司已為其辯護團隊新增了來自Paul Weiss律師事務所的兩名最高法院訴訟律師。
Meta未立即回應置評請求。
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器
亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
Meta 的天然氣需求激增可能為南達科他州的電力網注入動能
資料中心的規模已膨脹至如此之大,其用電量如今已與美國整個州的用電量相當。以 Meta 的 Hyperion AI 資料中心為例:一旦完工,其用電量將與南達科他州相當。Meta最近宣布,除了已規劃的三座天然氣發電廠外,將再投資興建七座,以支援其耗資270億美元的資料中心。這十座位於路易斯安那州的發電廠合計將產生約7.5吉瓦的電力——略高於南達科他州全州的總發電量。與許多科技公司一樣,Meta 長期以
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.





首頁






