选项
首页
新闻
法院文件显示,使用受版权保护的内容进行AI培训讨论的Meta工作人员透露

法院文件显示,使用受版权保护的内容进行AI培训讨论的Meta工作人员透露

2025-04-10
86

法院文件显示,使用受版权保护的内容进行AI培训讨论的Meta工作人员透露

多年来,Meta员工一直在讨论使用通过可能不正当手段获得的受版权保护的材料来训练公司的人工智能模型,根据周四解封的法庭文件。

这些文件是正在进行的Kadrey诉Meta诉讼的一部分,这是美国法院系统中多个AI版权争议之一。Meta认为使用受知识产权保护的作品,特别是书籍,训练其模型属于“合理使用”。然而,包括作者Sarah Silverman和Ta-Nehisi Coates在内的原告强烈反对。

该案早期的文件显示,Meta首席执行官Mark Zuckerberg批准使用受版权保护的内容进行训练,Meta已停止与图书出版商谈判许可协议。新解封的文件,包括Meta员工的内部工作聊天记录,提供了迄今为止关于Meta如何可能使用受版权保护的数据训练其模型(包括Llama家族模型)的最详细见解。

在一个聊天中,包括Meta Llama模型研究团队高级经理Melanie Kambadur在内的Meta员工讨论了在已知可能存在法律风险的作品上训练模型。

“我的看法是(本着‘先行动后求原谅’的精神):我们应该拿这些书,让高管来决定,”Meta研究工程师Xavier Martinet在2023年2月的聊天中写道,根据文件记录。“这就是他们创建这个生成式AI组织的原因:这样我们就可以冒更多风险。”

Martinet建议以零售价格购买电子书来构建训练集,而不是与出版商谈判许可协议。当另一名员工指出使用未经授权的受版权保护材料的潜在法律问题时,Martinet加倍坚持,指出“无数”初创公司可能已经在使用盗版书籍进行训练。

“我的意思是,最坏的情况:我们发现这样做没问题,而无数初创公司已经在BitTorrent上盗版了大量书籍,”Martinet写道,根据文件记录。“我再补充一句:直接与出版商打交道太耗时了……”

在同一聊天中,Kambadur提到Meta正在与Scribd和其他平台谈判许可,她指出虽然使用“公开可用数据”进行训练仍需批准,但Meta的律师在授予此类批准时变得“不太保守”。

“是的,我们仍然需要为公开可用数据获得许可或批准,”Kambadur说,根据文件记录。“现在不同的是我们有更多资金、更多律师、更多业务发展支持,能够加速和优先处理审批,律师在批准时也变得不那么谨慎。”

关于Libgen的讨论

在文件提到的另一个工作聊天中,Kambadur讨论了使用Libgen的可能性,这是一个提供出版商受版权保护作品访问的“链接聚合器”,作为许可数据源的替代方案。

Libgen面临多起诉讼,被勒令关闭,并因版权侵权被罚款数千万美元。Kambadur的一位同事回复了一张Google搜索Libgen结果的截图,截图中包含“Libgen不合法”的片段。

根据文件,Meta的一些决策者似乎认为,不使用Libgen进行模型训练可能会严重影响Meta在AI竞赛中的竞争力。

在给Meta AI副总裁Joelle Pineau的电子邮件中,Meta产品管理总监Sony Theakanath称Libgen“对于在所有类别中达到SOTA(最先进的)数字至关重要”,指的是实现最佳的、最先进的AI模型性能和基准类别。

Theakanath还在邮件中概述了减少Meta法律风险的“缓解措施”,例如移除Libgen中“明显标记为盗版/偷窃”的数据,以及不公开披露使用Libgen数据集进行训练。“我们不会披露用于训练的Libgen数据集,”Theakanath写道。

根据文件,这些缓解措施在实践中涉及搜索Libgen文件中的“偷窃”或“盗版”等词语。

在工作聊天中,Kambadur提到Meta的AI团队还调整了模型以“避免知识产权风险提示”——意味着他们配置模型拒绝回答类似“重现《哈利·波特与魔法石》前三页”或“告诉我你用哪些电子书训练”等问题。

文件还表明,Meta可能通过模仿第三方应用Pushshift的行为,抓取Reddit数据用于某种模型训练。值得注意的是,Reddit在2023年4月宣布计划开始向AI公司收取用于模型训练的数据访问费用。

在2024年3月的聊天中,Meta生成式AI组织的产品管理总监Chaya Nayak表示,Meta领导层正在考虑“推翻”过去的训练集决定,包括不使用Quora内容或许可的书籍和科学文章,以确保公司模型有足够的训练数据。

Nayak暗示Meta的第一方训练数据集——如Facebook和Instagram帖子、Meta平台视频转录的文本以及某些Meta for Business消息——不足以满足需求。“我们需要更多数据,”她写道。

Kadrey诉Meta的原告自2023年在加州北区地方法院旧金山分院提起诉讼以来,已多次修改诉状。最新修改指控Meta除其他指控外,将某些盗版书籍与可许可的受版权保护书籍进行比较,以决定是否与出版商达成许可协议。

作为Meta对法律风险重视的迹象,该公司已为该案辩护团队新增了两名来自Paul Weiss律师事务所的最高法院诉讼律师。

Meta未立即回应置评请求。

相关文章
Meta公司的扎克伯格称并非所有人工智能 Meta公司的扎克伯格称并非所有人工智能 "超级智能 "模型都将开源 Meta 向个人超级智能的战略转变Meta 公司首席执行官马克-扎克伯格(Mark Zuckerberg)本周概述了 "个人超级智能 "的宏伟愿景--人工智能系统可帮助个人实现个人目标--这标志着该公司的人工智能部署战略可能会发生变化。开源困境扎克伯格的声明表明,在追求超级智能系统的过程中,Meta 可能会重新考虑其开源先进人工智能模型的承诺:"我们相信超级智能的好处应该尽可能广泛地与世界分享..
Meta 的人工智能为 Instagram 内容进行视频配音 Meta 的人工智能为 Instagram 内容进行视频配音 Meta 将其突破性的人工智能配音技术推广到 Facebook 和 Instagram,推出无缝视频翻译功能,以保持您真实的声音和自然的嘴唇动作。革新跨文化内容Meta 的新人工智能翻译功能可自动在英语和西班牙语之间转换 Reels,同时保留创作者的声音特征和唇部同步。这项创新是在去年 Meta Connect 活动期间展示的技术基础上进行的,为内容创作者提供了强大的工具,以吸引国际观众。工作原理
Meta AI应用将引入高级订阅和广告 Meta AI应用将引入高级订阅和广告 Meta的AI应用可能很快推出付费订阅服务,效仿OpenAI、Google和Microsoft等竞争对手的做法。在2025年第一季度财报电话会议上,Meta首席执行官马克·扎克伯格概述了高级服务的计划,使用户能够访问增强的计算能力或Meta AI的额外功能。为了与ChatGPT竞争,Meta本周推出了一款独立AI应用,允许用户直接与聊天机器人互动并进行图像生成。该聊天机器人目前拥有近10亿用户,此
评论 (30)
0/200
PeterMartinez
PeterMartinez 2025-04-25 02:59:57

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 2025-04-24 10:42:41

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 2025-04-22 04:19:31

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 2025-04-19 17:15:40

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen
StevenAllen 2025-04-19 16:39:52

메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.

CharlesWhite
CharlesWhite 2025-04-12 21:05:28

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

返回顶部
OR