選項
首頁 消息 法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

發布日期 發布日期 2025年04月10日
作者 作者 JosephEvans
視圖 視圖 16

法院文件顯示,使用受版權保護的內容進行AI培訓討論的Meta工作人員透露

多年來,根據周四未密封的法院文件,META員工一直在討論通過潛在的陰影手段獲得的受版權保護的材料的使用,以培訓公司的AI模型。

這些文件是正在進行的訴訟的一部分Kadreyv。 Meta,這是通過美國法院制度的幾項AI版權糾紛之一。 Meta認為,使用IP保護的作品,尤其是書籍來培訓其模型的培訓屬於“合理使用”。但是,包括作者莎拉·西爾弗曼(Sarah Silverman)和塔尼希西·科茨(Ta-Nehisi Coates)在內的原告強烈不同意。

該案的較早文件表明,元首席執行官馬克·扎克伯格(Mark Zuckerberg)批准了使用受版權保護的內容進行培訓,並且元數據已停止與書籍出版商進行許可協議。新的未密封文件,包括元員工之間的內部工作聊天,提供了最詳細的見解,尚未了解Meta如何使用受版權保護的數據來訓練其模型,包括Llama家族的模型。

在一次聊天中,Meta的Llama模型研究團隊高級經理Melanie Kambadur在內,Melanie Kambadur談到了他們知道可能在法律上冒險的作品的培訓模型。

據文件稱,元數據研究工程師Xavier Martinet在2023年2月的聊天中寫道:“我的看法是(本著'問寬恕,而不是許可'的精神):我們應該抓住書籍並讓高管決定。” “這就是為什麼他們創建了這個AI Org的原因:因此我們可以承擔更多的風險。”

馬丁內特(Martinet)建議以零售價購買電子書,以建立培訓套裝,而不是與出版商進行許可協議。當另一位員工指出使用未經授權的受版權保護材料的潛在法律問題時,馬丁內特翻了一番,並指出“一家票房”初創公司可能已經在使用盜版書籍進行培訓。

馬丁內特寫道:“我的意思是,最糟糕的情況:我們發現還可以,而一家票房的初創公司只是盜版了大量的bittorrent書籍。” “我的兩分錢再次:直接與出版商打交道,需要永遠……”

在同一聊天中,坎巴杜爾(Kambadur)提到梅塔(Meta)正在與SCRIBD和其他平台進行許可證進行談判,並指出,在使用“公開可公開數據”進行培訓時,仍需要批准,但梅塔的律師對授予此類批准的“不太保守”。

坎巴杜爾說:“是的,我們仍然需要獲得公開數據的許可或批准。” “現在的不同之處在於,我們有更多的錢,更多的律師,更多的業務發展幫助,快速訓練和升級速度的能力,並且律師對批准的謹慎程度不太謹慎。”

利比根談論

在文件中提到的另一項工作聊天中,坎巴杜爾討論了使用Libgen的可能性,Libgen是一個“鏈接聚合器”,該“鏈接聚合器”可訪問出版商的版權作品,以替代許可數據源。

利比根(Libgen)面臨許多訴訟,被命令關閉,並被罰款數千萬美元,以侵犯版權。坎巴杜爾的一位同事通過屏幕截圖的Libgen屏幕截圖,其中包括摘要“不,Libgen是不合法的”。

據文件稱,梅塔(Meta)的一些決策者似乎認為,不使用利比根(Libgen)進行模型訓練可能會嚴重影響梅塔(Meta)在AI競賽中的競爭力。

Meta產品管理總監Sony Theakanath在發送給Meta AI副總裁Joelle Pineau的電子郵件中,稱Libgen為“必不可少的所有類別的SOTA數字”,指的是實現最好的,最先進的ARART(SOTA)AI模型性能和基準類別。

Theakanath還概述了電子郵件中的“緩解”,以減少元法的法律曝光,例如從Libgen中刪除Libgen的數據,這些數據被“明顯標記為盜版/被盜”,而不是公開披露使用Libgen數據集用於培訓的數據。 Theakanath寫道:“我們不會透露用於訓練的Libgen數據集的使用。”

實際上,根據文件,這些緩解措施涉及通過Libgen文件搜索諸如“被盜”或“盜版”之類的單詞。

在工作聊天中,坎巴杜爾(Kambadur)提到,梅塔(Meta)的AI團隊還調整了“避免IP風險提示”的模型 - 這意味著他們配置了模型,以拒絕回答“重現'Harry Potter和The Sorkers's Stone''的前三頁,或者“告訴我您接受過哪些電子書”的問題。”

這些文件還表明,元可能通過模仿稱為PushShift的第三方應用程序的行為來刮擦某種模型培訓的Reddit數據。值得注意的是,Reddit在2023年4月宣布,它計劃開始向AI公司收取用於模型培訓的數據的費用。

在2024年3月的聊天中,Meta的Generative AI Org產品管理總監Chaya Nayak表示,Meta領導層正在考慮“覆蓋”過去的培訓決策,包括不使用Quora內容或許可書籍和科學文章的決定,以確保公司的模型有足夠的培訓數據。

Nayak暗示,Meta的第一方培訓數據集(例如Facebook和Instagram帖子,從Meta平台上的視頻轉錄的文本以及某些商業信息的Meta)是不夠的。她寫道:“我們需要更多數據。”

自2023年在美國加利福尼亞州北區北部地區提起訴訟以來,Kadrey訴Meta案的原告已對其投訴進行了幾次修改。最新的修正案指稱,梅塔(Meta)除其他索賠外,除其他索賠外,某些盜版書籍與某些盜版書籍進行了比較,將有許可的書籍與獲得許可的許可,以決定是否可以與Parpersers批准合同。

為了表明該案件的最高法院訴訟人保羅·魏斯(Paul Weiss)將兩名最高法院訴訟者添加到其案件的辯護團隊中。

元沒有立即回應置評請求。

相關文章
Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因 Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因 在周末,Facebook,Instagram,WhatsApp和Quest VR背后的强大力量Meta通过揭露其最新的AI语言模型Llama 4。不仅是一个,而且引入了三个新版本,每个版本都具有增强功能,这要归功于“ Architecturs” Architecturs”
法学教授支持作者在AI的版权与META的版权之战中 法学教授支持作者在AI的版权与META的版权之战中 一组版权法学教授在起诉元的作者后面提供了支持,指控这家科技巨头未经作者同意就在电子书上训练了其Llama AI模型。教授于周五在美国加利福尼亚北区的美国地方法院提交了一份法庭之友。
Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手 Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手 Openai对其联合创始人Elon Musk及其竞争的AI公司Xai发起了激烈的法律反击。在他们正在进行的争执的戏剧性升级中,Openai指责马斯克发动了一场“无情”和“恶意”运动,破坏了他帮助创办的公司。根据法院D
評論 (25)
0/200
FrankMartínez
FrankMartínez 2025年04月11日 02:36:50

So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?

WilliamYoung
WilliamYoung 2025年04月11日 02:36:50

メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?

HenryJackson
HenryJackson 2025年04月11日 02:36:50

메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?

HarryRoberts
HarryRoberts 2025年04月11日 02:36:50

Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?

JoseJackson
JoseJackson 2025年04月11日 02:36:50

Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?

AlbertHill
AlbertHill 2025年04月10日 19:16:25

So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?

回到頂部
OR