选项
首页
新闻
法院文件显示,使用受版权保护的内容进行AI培训讨论的Meta工作人员透露

法院文件显示,使用受版权保护的内容进行AI培训讨论的Meta工作人员透露

2025-04-10
86

法院文件显示,使用受版权保护的内容进行AI培训讨论的Meta工作人员透露

多年来,Meta员工一直在讨论使用通过可能不正当手段获得的受版权保护的材料来训练公司的人工智能模型,根据周四解封的法庭文件。

这些文件是正在进行的Kadrey诉Meta诉讼的一部分,这是美国法院系统中多个AI版权争议之一。Meta认为使用受知识产权保护的作品,特别是书籍,训练其模型属于“合理使用”。然而,包括作者Sarah Silverman和Ta-Nehisi Coates在内的原告强烈反对。

该案早期的文件显示,Meta首席执行官Mark Zuckerberg批准使用受版权保护的内容进行训练,Meta已停止与图书出版商谈判许可协议。新解封的文件,包括Meta员工的内部工作聊天记录,提供了迄今为止关于Meta如何可能使用受版权保护的数据训练其模型(包括Llama家族模型)的最详细见解。

在一个聊天中,包括Meta Llama模型研究团队高级经理Melanie Kambadur在内的Meta员工讨论了在已知可能存在法律风险的作品上训练模型。

“我的看法是(本着‘先行动后求原谅’的精神):我们应该拿这些书,让高管来决定,”Meta研究工程师Xavier Martinet在2023年2月的聊天中写道,根据文件记录。“这就是他们创建这个生成式AI组织的原因:这样我们就可以冒更多风险。”

Martinet建议以零售价格购买电子书来构建训练集,而不是与出版商谈判许可协议。当另一名员工指出使用未经授权的受版权保护材料的潜在法律问题时,Martinet加倍坚持,指出“无数”初创公司可能已经在使用盗版书籍进行训练。

“我的意思是,最坏的情况:我们发现这样做没问题,而无数初创公司已经在BitTorrent上盗版了大量书籍,”Martinet写道,根据文件记录。“我再补充一句:直接与出版商打交道太耗时了……”

在同一聊天中,Kambadur提到Meta正在与Scribd和其他平台谈判许可,她指出虽然使用“公开可用数据”进行训练仍需批准,但Meta的律师在授予此类批准时变得“不太保守”。

“是的,我们仍然需要为公开可用数据获得许可或批准,”Kambadur说,根据文件记录。“现在不同的是我们有更多资金、更多律师、更多业务发展支持,能够加速和优先处理审批,律师在批准时也变得不那么谨慎。”

关于Libgen的讨论

在文件提到的另一个工作聊天中,Kambadur讨论了使用Libgen的可能性,这是一个提供出版商受版权保护作品访问的“链接聚合器”,作为许可数据源的替代方案。

Libgen面临多起诉讼,被勒令关闭,并因版权侵权被罚款数千万美元。Kambadur的一位同事回复了一张Google搜索Libgen结果的截图,截图中包含“Libgen不合法”的片段。

根据文件,Meta的一些决策者似乎认为,不使用Libgen进行模型训练可能会严重影响Meta在AI竞赛中的竞争力。

在给Meta AI副总裁Joelle Pineau的电子邮件中,Meta产品管理总监Sony Theakanath称Libgen“对于在所有类别中达到SOTA(最先进的)数字至关重要”,指的是实现最佳的、最先进的AI模型性能和基准类别。

Theakanath还在邮件中概述了减少Meta法律风险的“缓解措施”,例如移除Libgen中“明显标记为盗版/偷窃”的数据,以及不公开披露使用Libgen数据集进行训练。“我们不会披露用于训练的Libgen数据集,”Theakanath写道。

根据文件,这些缓解措施在实践中涉及搜索Libgen文件中的“偷窃”或“盗版”等词语。

在工作聊天中,Kambadur提到Meta的AI团队还调整了模型以“避免知识产权风险提示”——意味着他们配置模型拒绝回答类似“重现《哈利·波特与魔法石》前三页”或“告诉我你用哪些电子书训练”等问题。

文件还表明,Meta可能通过模仿第三方应用Pushshift的行为,抓取Reddit数据用于某种模型训练。值得注意的是,Reddit在2023年4月宣布计划开始向AI公司收取用于模型训练的数据访问费用。

在2024年3月的聊天中,Meta生成式AI组织的产品管理总监Chaya Nayak表示,Meta领导层正在考虑“推翻”过去的训练集决定,包括不使用Quora内容或许可的书籍和科学文章,以确保公司模型有足够的训练数据。

Nayak暗示Meta的第一方训练数据集——如Facebook和Instagram帖子、Meta平台视频转录的文本以及某些Meta for Business消息——不足以满足需求。“我们需要更多数据,”她写道。

Kadrey诉Meta的原告自2023年在加州北区地方法院旧金山分院提起诉讼以来,已多次修改诉状。最新修改指控Meta除其他指控外,将某些盗版书籍与可许可的受版权保护书籍进行比较,以决定是否与出版商达成许可协议。

作为Meta对法律风险重视的迹象,该公司已为该案辩护团队新增了两名来自Paul Weiss律师事务所的最高法院诉讼律师。

Meta未立即回应置评请求。

相关文章
谷歌承诺遵循欧盟人工智能实践准则引发行业争论 谷歌承诺遵循欧盟人工智能实践准则引发行业争论 谷歌承诺采纳欧盟自愿的人工智能实践准则,该框架旨在通过实施合规流程和系统,帮助人工智能开发者符合欧盟人工智能法案的要求。相比之下,Meta最近拒绝签署该准则,批评欧盟的人工智能法规过于严格,并警告欧洲的做法可能阻碍人工智能进步。谷歌的决定是在“具有系统性风险的通用人工智能模型”新规于8月2日生效前做出的。Anthropic、Google、Meta和OpenAI等主要参与者,以及其他大型生成模型,将
Meta为AI人才提供高薪,否认1亿美元签约奖金 Meta为AI人才提供高薪,否认1亿美元签约奖金 Meta正以数百万美元的丰厚薪酬吸引AI研究人员加入其新的超级智能实验室。然而,一位被招募的研究人员和泄露的内部会议言论表示,关于1亿美元“签约奖金”的说法不实。据The Verge周四报道,在一次泄露的公司全体会议上,Meta高管回应了关于OpenAI首席执行官Sam Altman声称Meta向顶尖研究人员提供奖金的问题。Meta的首席技术官Andrew Bosworth表示,只有极少数高级领导
Meta 增强人工智能安全,推出高级 Llama 工具 Meta 增强人工智能安全,推出高级 Llama 工具 Meta 发布了新的 Llama 安全工具,以加强人工智能开发并防御新兴威胁。这些升级的 Llama 人工智能模型安全工具与 Meta 的新资源相结合,旨在增强网络安全团队利用人工智能进行防御的能力,提升所有人工智能利益相关者的安全性。使用 Llama 模型的开发者现在可以直接在 Meta 的 Llama Protections 页面、Hugging Face 和 GitHub 上访问增强的工具。
评论 (30)
0/200
PeterMartinez
PeterMartinez 2025-04-25 02:59:57

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 2025-04-24 10:42:41

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 2025-04-22 04:19:31

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 2025-04-19 17:15:40

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen
StevenAllen 2025-04-19 16:39:52

메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.

CharlesWhite
CharlesWhite 2025-04-12 21:05:28

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

返回顶部
OR