法院文件显示,使用受版权保护的内容进行AI培训讨论的Meta工作人员透露
2025年04月10日
JosephEvans
16

多年来,根据周四未密封的法院文件,META员工一直在讨论通过潜在的阴影手段获得的受版权保护的材料的使用,以培训公司的AI模型。
这些文件是正在进行的诉讼的一部分Kadreyv。Meta,这是通过美国法院制度的几项AI版权纠纷之一。 Meta认为,使用IP保护的作品,尤其是书籍来培训其模型的培训属于“合理使用”。但是,包括作者莎拉·西尔弗曼(Sarah Silverman)和塔尼希西·科茨(Ta-Nehisi Coates)在内的原告强烈不同意。
该案的较早文件表明,元首席执行官马克·扎克伯格(Mark Zuckerberg)批准了使用受版权保护的内容进行培训,并且元数据已停止与书籍出版商进行许可协议。新的未密封文件,包括元员工之间的内部工作聊天,提供了最详细的见解,尚未了解Meta如何使用受版权保护的数据来训练其模型,包括Llama家族的模型。
在一次聊天中,Meta的Llama模型研究团队高级经理Melanie Kambadur在内,Melanie Kambadur谈到了他们知道可能在法律上冒险的作品的培训模型。
据文件称,元数据研究工程师Xavier Martinet在2023年2月的聊天中写道:“我的看法是(本着'问宽恕,而不是许可'的精神):我们应该抓住书籍并让高管决定。” “这就是为什么他们创建了这个AI Org的原因:因此我们可以承担更多的风险。”
马丁内特(Martinet)建议以零售价购买电子书,以建立培训套装,而不是与出版商进行许可协议。当另一位员工指出使用未经授权的受版权保护材料的潜在法律问题时,马丁内特翻了一番,并指出“一家票房”初创公司可能已经在使用盗版书籍进行培训。
马丁内特写道:“我的意思是,最糟糕的情况:我们发现还可以,而一家票房的初创公司只是盗版了大量的bittorrent书籍。” “我的两分钱再次:直接与出版商打交道,需要永远……”
在同一聊天中,坎巴杜尔(Kambadur)提到梅塔(Meta)正在与SCRIBD和其他平台进行许可证进行谈判,并指出,在使用“公开可公开数据”进行培训时,仍需要批准,但梅塔的律师对授予此类批准的“不太保守”。
坎巴杜尔说:“是的,我们仍然需要获得公开数据的许可或批准。” “现在的不同之处在于,我们有更多的钱,更多的律师,更多的业务发展帮助,快速训练和升级速度的能力,并且律师对批准的谨慎程度不太谨慎。”
利比根谈论
在文件中提到的另一项工作聊天中,坎巴杜尔讨论了使用Libgen的可能性,Libgen是一个“链接聚合器”,该“链接聚合器”可访问出版商的版权作品,以替代许可数据源。
利比根(Libgen)面临许多诉讼,被命令关闭,并被罚款数千万美元,以侵犯版权。坎巴杜尔的一位同事通过屏幕截图的Libgen屏幕截图,其中包括摘要“不,Libgen是不合法的”。
据文件称,梅塔(Meta)的一些决策者似乎认为,不使用利比根(Libgen)进行模型训练可能会严重影响梅塔(Meta)在AI竞赛中的竞争力。
Meta产品管理总监Sony Theakanath在发送给Meta AI副总裁Joelle Pineau的电子邮件中,称Libgen为“必不可少的所有类别的SOTA数字”,指的是实现最好的,最先进的ARART(SOTA)AI模型性能和基准类别。
Theakanath还概述了电子邮件中的“缓解”,以减少元法的法律曝光,例如从Libgen中删除Libgen的数据,这些数据被“明显标记为盗版/被盗”,而不是公开披露使用Libgen数据集用于培训的数据。 Theakanath写道:“我们不会透露用于训练的Libgen数据集的使用。”
实际上,根据文件,这些缓解措施涉及通过Libgen文件搜索诸如“被盗”或“盗版”之类的单词。
在工作聊天中,坎巴杜尔(Kambadur)提到,梅塔(Meta)的AI团队还调整了“避免IP风险提示”的模型 - 这意味着他们配置了模型,以拒绝回答“重现'Harry Potter和The Sorkers's Stone''的前三页,或者“告诉我您接受过哪些电子书”的问题。”
这些文件还表明,元可能通过模仿称为PushShift的第三方应用程序的行为来刮擦某种模型培训的Reddit数据。值得注意的是,Reddit在2023年4月宣布,它计划开始向AI公司收取用于模型培训的数据的费用。
在2024年3月的聊天中,Meta的Generative AI Org产品管理总监Chaya Nayak表示,Meta领导层正在考虑“覆盖”过去的培训决策,包括不使用Quora内容或许可书籍和科学文章的决定,以确保公司的模型有足够的培训数据。
Nayak暗示,Meta的第一方培训数据集(例如Facebook和Instagram帖子,从Meta平台上的视频转录的文本以及某些商业信息的Meta)是不够的。她写道:“我们需要更多数据。”
自2023年在美国加利福尼亚州北区北部地区提起诉讼以来,Kadrey诉Meta案的原告已对其投诉进行了几次修改。最新的修正案指称,梅塔(Meta)除其他索赔外,除其他索赔外,某些盗版书籍与某些盗版书籍进行了比较,将有许可的书籍与获得许可的许可,以决定是否可以与Parpersers批准合同。
为了表明该案件的最高法院诉讼人保罗·魏斯(Paul Weiss)将两名最高法院诉讼者添加到其案件的辩护团队中。
元没有立即回应置评请求。
相关文章
Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因
在周末,Facebook,Instagram,WhatsApp和Quest VR背后的强大力量Meta通过揭露其最新的AI语言模型Llama 4。不仅是一个,而且引入了三个新版本,每个版本都具有增强功能,这要归功于“ Architecturs” Architecturs”
法学教授支持作者在AI的版权与META的版权之战中
一组版权法学教授在起诉元的作者后面提供了支持,指控这家科技巨头未经作者同意就在电子书上训练了其Llama AI模型。教授于周五在美国加利福尼亚北区的美国地方法院提交了一份法庭之友。
Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手
Openai对其联合创始人Elon Musk及其竞争的AI公司Xai发起了激烈的法律反击。在他们正在进行的争执的戏剧性升级中,Openai指责马斯克发动了一场“无情”和“恶意”运动,破坏了他帮助创办的公司。根据法院D
评论 (25)
0/200
FrankMartínez
2025年04月11日 02:36:50
So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?
0
WilliamYoung
2025年04月11日 02:36:50
メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?
0
HenryJackson
2025年04月11日 02:36:50
메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?
0
HarryRoberts
2025年04月11日 02:36:50
Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?
0
JoseJackson
2025年04月11日 02:36:50
Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?
0
AlbertHill
2025年04月10日 19:16:25
So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?
0






多年来,根据周四未密封的法院文件,META员工一直在讨论通过潜在的阴影手段获得的受版权保护的材料的使用,以培训公司的AI模型。
这些文件是正在进行的诉讼的一部分Kadreyv。Meta,这是通过美国法院制度的几项AI版权纠纷之一。 Meta认为,使用IP保护的作品,尤其是书籍来培训其模型的培训属于“合理使用”。但是,包括作者莎拉·西尔弗曼(Sarah Silverman)和塔尼希西·科茨(Ta-Nehisi Coates)在内的原告强烈不同意。
该案的较早文件表明,元首席执行官马克·扎克伯格(Mark Zuckerberg)批准了使用受版权保护的内容进行培训,并且元数据已停止与书籍出版商进行许可协议。新的未密封文件,包括元员工之间的内部工作聊天,提供了最详细的见解,尚未了解Meta如何使用受版权保护的数据来训练其模型,包括Llama家族的模型。
在一次聊天中,Meta的Llama模型研究团队高级经理Melanie Kambadur在内,Melanie Kambadur谈到了他们知道可能在法律上冒险的作品的培训模型。
据文件称,元数据研究工程师Xavier Martinet在2023年2月的聊天中写道:“我的看法是(本着'问宽恕,而不是许可'的精神):我们应该抓住书籍并让高管决定。” “这就是为什么他们创建了这个AI Org的原因:因此我们可以承担更多的风险。”
马丁内特(Martinet)建议以零售价购买电子书,以建立培训套装,而不是与出版商进行许可协议。当另一位员工指出使用未经授权的受版权保护材料的潜在法律问题时,马丁内特翻了一番,并指出“一家票房”初创公司可能已经在使用盗版书籍进行培训。
马丁内特写道:“我的意思是,最糟糕的情况:我们发现还可以,而一家票房的初创公司只是盗版了大量的bittorrent书籍。” “我的两分钱再次:直接与出版商打交道,需要永远……”
在同一聊天中,坎巴杜尔(Kambadur)提到梅塔(Meta)正在与SCRIBD和其他平台进行许可证进行谈判,并指出,在使用“公开可公开数据”进行培训时,仍需要批准,但梅塔的律师对授予此类批准的“不太保守”。
坎巴杜尔说:“是的,我们仍然需要获得公开数据的许可或批准。” “现在的不同之处在于,我们有更多的钱,更多的律师,更多的业务发展帮助,快速训练和升级速度的能力,并且律师对批准的谨慎程度不太谨慎。”
利比根谈论
在文件中提到的另一项工作聊天中,坎巴杜尔讨论了使用Libgen的可能性,Libgen是一个“链接聚合器”,该“链接聚合器”可访问出版商的版权作品,以替代许可数据源。
利比根(Libgen)面临许多诉讼,被命令关闭,并被罚款数千万美元,以侵犯版权。坎巴杜尔的一位同事通过屏幕截图的Libgen屏幕截图,其中包括摘要“不,Libgen是不合法的”。
据文件称,梅塔(Meta)的一些决策者似乎认为,不使用利比根(Libgen)进行模型训练可能会严重影响梅塔(Meta)在AI竞赛中的竞争力。
Meta产品管理总监Sony Theakanath在发送给Meta AI副总裁Joelle Pineau的电子邮件中,称Libgen为“必不可少的所有类别的SOTA数字”,指的是实现最好的,最先进的ARART(SOTA)AI模型性能和基准类别。
Theakanath还概述了电子邮件中的“缓解”,以减少元法的法律曝光,例如从Libgen中删除Libgen的数据,这些数据被“明显标记为盗版/被盗”,而不是公开披露使用Libgen数据集用于培训的数据。 Theakanath写道:“我们不会透露用于训练的Libgen数据集的使用。”
实际上,根据文件,这些缓解措施涉及通过Libgen文件搜索诸如“被盗”或“盗版”之类的单词。
在工作聊天中,坎巴杜尔(Kambadur)提到,梅塔(Meta)的AI团队还调整了“避免IP风险提示”的模型 - 这意味着他们配置了模型,以拒绝回答“重现'Harry Potter和The Sorkers's Stone''的前三页,或者“告诉我您接受过哪些电子书”的问题。”
这些文件还表明,元可能通过模仿称为PushShift的第三方应用程序的行为来刮擦某种模型培训的Reddit数据。值得注意的是,Reddit在2023年4月宣布,它计划开始向AI公司收取用于模型培训的数据的费用。
在2024年3月的聊天中,Meta的Generative AI Org产品管理总监Chaya Nayak表示,Meta领导层正在考虑“覆盖”过去的培训决策,包括不使用Quora内容或许可书籍和科学文章的决定,以确保公司的模型有足够的培训数据。
Nayak暗示,Meta的第一方培训数据集(例如Facebook和Instagram帖子,从Meta平台上的视频转录的文本以及某些商业信息的Meta)是不够的。她写道:“我们需要更多数据。”
自2023年在美国加利福尼亚州北区北部地区提起诉讼以来,Kadrey诉Meta案的原告已对其投诉进行了几次修改。最新的修正案指称,梅塔(Meta)除其他索赔外,除其他索赔外,某些盗版书籍与某些盗版书籍进行了比较,将有许可的书籍与获得许可的许可,以决定是否可以与Parpersers批准合同。
为了表明该案件的最高法院诉讼人保罗·魏斯(Paul Weiss)将两名最高法院诉讼者添加到其案件的辩护团队中。
元没有立即回应置评请求。



So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?




メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?




메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?




Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?




Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?




So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?












