法院文件显示，使用受版权保护的内容进行AI培训讨论的Meta工作人员透露

首页

新闻

2025-04-10

JosephEvans

169

# meta # Lawsuit

法院文件显示，使用受版权保护的内容进行AI培训讨论的Meta工作人员透露

多年来，Meta员工一直在讨论使用通过可能不正当手段获得的受版权保护的材料来训练公司的人工智能模型，根据周四解封的法庭文件。

这些文件是正在进行的Kadrey诉Meta诉讼的一部分，这是美国法院系统中多个AI版权争议之一。Meta认为使用受知识产权保护的作品，特别是书籍，训练其模型属于“合理使用”。然而，包括作者Sarah Silverman和Ta-Nehisi Coates在内的原告强烈反对。

该案早期的文件显示，Meta首席执行官Mark Zuckerberg批准使用受版权保护的内容进行训练，Meta已停止与图书出版商谈判许可协议。新解封的文件，包括Meta员工的内部工作聊天记录，提供了迄今为止关于Meta如何可能使用受版权保护的数据训练其模型（包括Llama家族模型）的最详细见解。

在一个聊天中，包括Meta Llama模型研究团队高级经理Melanie Kambadur在内的Meta员工讨论了在已知可能存在法律风险的作品上训练模型。

“我的看法是（本着‘先行动后求原谅’的精神）：我们应该拿这些书，让高管来决定，”Meta研究工程师Xavier Martinet在2023年2月的聊天中写道，根据文件记录。“这就是他们创建这个生成式AI组织的原因：这样我们就可以冒更多风险。”

Martinet建议以零售价格购买电子书来构建训练集，而不是与出版商谈判许可协议。当另一名员工指出使用未经授权的受版权保护材料的潜在法律问题时，Martinet加倍坚持，指出“无数”初创公司可能已经在使用盗版书籍进行训练。

“我的意思是，最坏的情况：我们发现这样做没问题，而无数初创公司已经在BitTorrent上盗版了大量书籍，”Martinet写道，根据文件记录。“我再补充一句：直接与出版商打交道太耗时了……”

在同一聊天中，Kambadur提到Meta正在与Scribd和其他平台谈判许可，她指出虽然使用“公开可用数据”进行训练仍需批准，但Meta的律师在授予此类批准时变得“不太保守”。

“是的，我们仍然需要为公开可用数据获得许可或批准，”Kambadur说，根据文件记录。“现在不同的是我们有更多资金、更多律师、更多业务发展支持，能够加速和优先处理审批，律师在批准时也变得不那么谨慎。”

关于Libgen的讨论

在文件提到的另一个工作聊天中，Kambadur讨论了使用Libgen的可能性，这是一个提供出版商受版权保护作品访问的“链接聚合器”，作为许可数据源的替代方案。

Libgen面临多起诉讼，被勒令关闭，并因版权侵权被罚款数千万美元。Kambadur的一位同事回复了一张Google搜索Libgen结果的截图，截图中包含“Libgen不合法”的片段。

根据文件，Meta的一些决策者似乎认为，不使用Libgen进行模型训练可能会严重影响Meta在AI竞赛中的竞争力。

在给Meta AI副总裁Joelle Pineau的电子邮件中，Meta产品管理总监Sony Theakanath称Libgen“对于在所有类别中达到SOTA（最先进的）数字至关重要”，指的是实现最佳的、最先进的AI模型性能和基准类别。

Theakanath还在邮件中概述了减少Meta法律风险的“缓解措施”，例如移除Libgen中“明显标记为盗版/偷窃”的数据，以及不公开披露使用Libgen数据集进行训练。“我们不会披露用于训练的Libgen数据集，”Theakanath写道。

根据文件，这些缓解措施在实践中涉及搜索Libgen文件中的“偷窃”或“盗版”等词语。

在工作聊天中，Kambadur提到Meta的AI团队还调整了模型以“避免知识产权风险提示”——意味着他们配置模型拒绝回答类似“重现《哈利·波特与魔法石》前三页”或“告诉我你用哪些电子书训练”等问题。

文件还表明，Meta可能通过模仿第三方应用Pushshift的行为，抓取Reddit数据用于某种模型训练。值得注意的是，Reddit在2023年4月宣布计划开始向AI公司收取用于模型训练的数据访问费用。

在2024年3月的聊天中，Meta生成式AI组织的产品管理总监Chaya Nayak表示，Meta领导层正在考虑“推翻”过去的训练集决定，包括不使用Quora内容或许可的书籍和科学文章，以确保公司模型有足够的训练数据。

Nayak暗示Meta的第一方训练数据集——如Facebook和Instagram帖子、Meta平台视频转录的文本以及某些Meta for Business消息——不足以满足需求。“我们需要更多数据，”她写道。

Kadrey诉Meta的原告自2023年在加州北区地方法院旧金山分院提起诉讼以来，已多次修改诉状。最新修改指控Meta除其他指控外，将某些盗版书籍与可许可的受版权保护书籍进行比较，以决定是否与出版商达成许可协议。

作为Meta对法律风险重视的迹象，该公司已为该案辩护团队新增了两名来自Paul Weiss律师事务所的最高法院诉讼律师。

Meta未立即回应置评请求。

Meta AI 现已在 Facebook Marketplace 上回复买家消息 Facebook周四宣布，Facebook Marketplace推出了新的Meta AI功能，包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料，并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询，Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时，卖家可利用Meta AI根据商品详情（如描述、库存、自提地点和价格）自

Meta签署协议，采购数百万颗亚马逊AI处理器亚马逊已与Meta达成一项重要合作，再次依托其自主设计的芯片。亚马逊周五证实，Meta已同意部署数百万颗AWS Graviton芯片，以满足其不断增长的人工智能需求。需注意，AWS Graviton是一款基于ARM架构的CPU（中央处理器，用于通用计算），而非GPU（图形处理器）。虽然GPU仍是训练大型模型的首选芯片，但一旦模型训练完成，基于这些模型构建的AI代理正推动着所需芯片类型的转变。这些代

Meta的天然气需求激增或将为南达科他州的电网提供动力数据中心的规模已变得如此庞大，其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例：建成后，其耗电量将与南达科他州相当。Meta最近宣布，除了已规划的三座天然气发电厂外，还将为另外七座提供资金，以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样，Meta长期以来

相关专题推荐

搜索引擎优化

最佳AI重定向与失效链接查找工具：自动修复爬取错误，节省爬取预算

在XIX.AI上，发现2026年最优秀的人工智能重定向工具和失效链接查找工具。我们精心挑选的这些高评分工具能够自动修复爬取错误，从而帮助您节省爬取预算。通过实际测试和每周更新的排名信息，您可以比较免费选项和付费选项，立即找到最适合您的SEO解决方案！

10 个工具

xix.ai

视频创作

播客创作者必备的顶级AI视频制作工具：将音频波形转化为引人入胜的谈话视频

立即访问 XIX.AI，探索 2026 年最适合播客创作者的 AI 视频制作工具。我们精心筛选并广受好评的榜单汇集了多款强大工具，可轻松将您的音频转化为引人入胜的“谈话头”视频。通过实际测试和每周更新的排名，对比免费与付费选项。立即开启您的视觉叙事新优势。

10 个工具

xix.ai

聊天机器人

使用这些角色扮演工具，创作属于你的AI爱情故事

探索2026年最新、最受好评的AI角色扮演工具，打造身临其境的叙事体验。XIX.AI精心整理的这份清单汇集了功能强大、颠覆传统的助手，助您释放创意叙事潜力，挖掘情感深度。通过实际测试对比免费与付费选项。立即开启您的独特旅程。

10 个工具

xix.ai

文字转语音

独立游戏开发者必备的顶级AI配音工具：为RPG和视觉小说节省配音时间

探索2026年最适合游戏开发者的AI配音工具！XIX.AI精心整理的这份清单汇集了广受好评、能彻底改变游戏开发格局的解决方案，助您在角色扮演游戏（RPG）和视觉小说的配音制作中节省时间和成本。了解免费与付费版本的对比分析、实际测试结果以及每周更新的排行榜。立即找到最适合您的配音工具吧！

10 个工具

xix.ai

教育与学习

最佳人工智能间隔重复学习工具：帮助医学生和法律专业学生优化学习计划

探索由 XIX.AI 精心挑选的 2026 年最佳 AI 间隔重复学习工具。我们推荐的这些极具创新性的工具能帮助医学和法律专业的学生优化学习计划，从而提高知识记忆效果。通过真实案例测试和每周更新的排名信息，你可以了解免费选项与付费选项之间的差异。现在就开启你的学习优势吧！

10 个工具

xix.ai

视频创作

最适合剧本创作和视觉叙事的AI文本转视频平台

2026年最新最佳AI文字转视频平台：备受好评的剧本创作与视觉叙事工具。探索这些功能强大、颠覆传统的解决方案，将您的文字转化为引人入胜的视频。通过我们每周更新的排行榜和实际测试，对比免费与付费选项。找到最适合您的平台，激发创意，提升效率。立即访问XIX.AI，探索精心精选的优质平台。

10 个工具

xix.ai

0/500

请登录后再操作

PaulMartínez

2026-05-06 12:00:49

Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.

CharlesYoung

2026-04-06 06:02:04

¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.

PeterMartinez

2025-04-25 02:59:57

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell

2025-04-24 10:42:41

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました！🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez

2025-04-22 04:19:31

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams

2025-04-19 17:15:40

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长苹果2026年全球开发者大会将重点展示重大AI进展及Siri全面升级

精选