法院文件显示,使用受版权保护的内容进行AI培训讨论的Meta工作人员透露

多年来,Meta员工一直在讨论使用通过可能不正当手段获得的受版权保护的材料来训练公司的人工智能模型,根据周四解封的法庭文件。
这些文件是正在进行的Kadrey诉Meta诉讼的一部分,这是美国法院系统中多个AI版权争议之一。Meta认为使用受知识产权保护的作品,特别是书籍,训练其模型属于“合理使用”。然而,包括作者Sarah Silverman和Ta-Nehisi Coates在内的原告强烈反对。
该案早期的文件显示,Meta首席执行官Mark Zuckerberg批准使用受版权保护的内容进行训练,Meta已停止与图书出版商谈判许可协议。新解封的文件,包括Meta员工的内部工作聊天记录,提供了迄今为止关于Meta如何可能使用受版权保护的数据训练其模型(包括Llama家族模型)的最详细见解。
在一个聊天中,包括Meta Llama模型研究团队高级经理Melanie Kambadur在内的Meta员工讨论了在已知可能存在法律风险的作品上训练模型。
“我的看法是(本着‘先行动后求原谅’的精神):我们应该拿这些书,让高管来决定,”Meta研究工程师Xavier Martinet在2023年2月的聊天中写道,根据文件记录。“这就是他们创建这个生成式AI组织的原因:这样我们就可以冒更多风险。”
Martinet建议以零售价格购买电子书来构建训练集,而不是与出版商谈判许可协议。当另一名员工指出使用未经授权的受版权保护材料的潜在法律问题时,Martinet加倍坚持,指出“无数”初创公司可能已经在使用盗版书籍进行训练。
“我的意思是,最坏的情况:我们发现这样做没问题,而无数初创公司已经在BitTorrent上盗版了大量书籍,”Martinet写道,根据文件记录。“我再补充一句:直接与出版商打交道太耗时了……”
在同一聊天中,Kambadur提到Meta正在与Scribd和其他平台谈判许可,她指出虽然使用“公开可用数据”进行训练仍需批准,但Meta的律师在授予此类批准时变得“不太保守”。
“是的,我们仍然需要为公开可用数据获得许可或批准,”Kambadur说,根据文件记录。“现在不同的是我们有更多资金、更多律师、更多业务发展支持,能够加速和优先处理审批,律师在批准时也变得不那么谨慎。”
关于Libgen的讨论
在文件提到的另一个工作聊天中,Kambadur讨论了使用Libgen的可能性,这是一个提供出版商受版权保护作品访问的“链接聚合器”,作为许可数据源的替代方案。
Libgen面临多起诉讼,被勒令关闭,并因版权侵权被罚款数千万美元。Kambadur的一位同事回复了一张Google搜索Libgen结果的截图,截图中包含“Libgen不合法”的片段。
根据文件,Meta的一些决策者似乎认为,不使用Libgen进行模型训练可能会严重影响Meta在AI竞赛中的竞争力。
在给Meta AI副总裁Joelle Pineau的电子邮件中,Meta产品管理总监Sony Theakanath称Libgen“对于在所有类别中达到SOTA(最先进的)数字至关重要”,指的是实现最佳的、最先进的AI模型性能和基准类别。
Theakanath还在邮件中概述了减少Meta法律风险的“缓解措施”,例如移除Libgen中“明显标记为盗版/偷窃”的数据,以及不公开披露使用Libgen数据集进行训练。“我们不会披露用于训练的Libgen数据集,”Theakanath写道。
根据文件,这些缓解措施在实践中涉及搜索Libgen文件中的“偷窃”或“盗版”等词语。
在工作聊天中,Kambadur提到Meta的AI团队还调整了模型以“避免知识产权风险提示”——意味着他们配置模型拒绝回答类似“重现《哈利·波特与魔法石》前三页”或“告诉我你用哪些电子书训练”等问题。
文件还表明,Meta可能通过模仿第三方应用Pushshift的行为,抓取Reddit数据用于某种模型训练。值得注意的是,Reddit在2023年4月宣布计划开始向AI公司收取用于模型训练的数据访问费用。
在2024年3月的聊天中,Meta生成式AI组织的产品管理总监Chaya Nayak表示,Meta领导层正在考虑“推翻”过去的训练集决定,包括不使用Quora内容或许可的书籍和科学文章,以确保公司模型有足够的训练数据。
Nayak暗示Meta的第一方训练数据集——如Facebook和Instagram帖子、Meta平台视频转录的文本以及某些Meta for Business消息——不足以满足需求。“我们需要更多数据,”她写道。
Kadrey诉Meta的原告自2023年在加州北区地方法院旧金山分院提起诉讼以来,已多次修改诉状。最新修改指控Meta除其他指控外,将某些盗版书籍与可许可的受版权保护书籍进行比较,以决定是否与出版商达成许可协议。
作为Meta对法律风险重视的迹象,该公司已为该案辩护团队新增了两名来自Paul Weiss律师事务所的最高法院诉讼律师。
Meta未立即回应置评请求。
相关文章
Meta AI 现已在 Facebook Marketplace 上回复买家消息
Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
Meta签署协议,采购数百万颗亚马逊AI处理器
亚马逊已与Meta达成一项重要合作,再次依托其自主设计的芯片。亚马逊周五证实,Meta已同意部署数百万颗AWS Graviton芯片,以满足其不断增长的人工智能需求。需注意,AWS Graviton是一款基于ARM架构的CPU(中央处理器,用于通用计算),而非GPU(图形处理器)。虽然GPU仍是训练大型模型的首选芯片,但一旦模型训练完成,基于这些模型构建的AI代理正推动着所需芯片类型的转变。这些代
Meta的天然气需求激增或将为南达科他州的电网提供动力
数据中心的规模已变得如此庞大,其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例:建成后,其耗电量将与南达科他州相当。Meta最近宣布,除了已规划的三座天然气发电厂外,还将为另外七座提供资金,以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样,Meta长期以来
相关专题推荐
评论 (32)
0/500
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

多年来,Meta员工一直在讨论使用通过可能不正当手段获得的受版权保护的材料来训练公司的人工智能模型,根据周四解封的法庭文件。
这些文件是正在进行的Kadrey诉Meta诉讼的一部分,这是美国法院系统中多个AI版权争议之一。Meta认为使用受知识产权保护的作品,特别是书籍,训练其模型属于“合理使用”。然而,包括作者Sarah Silverman和Ta-Nehisi Coates在内的原告强烈反对。
该案早期的文件显示,Meta首席执行官Mark Zuckerberg批准使用受版权保护的内容进行训练,Meta已停止与图书出版商谈判许可协议。新解封的文件,包括Meta员工的内部工作聊天记录,提供了迄今为止关于Meta如何可能使用受版权保护的数据训练其模型(包括Llama家族模型)的最详细见解。
在一个聊天中,包括Meta Llama模型研究团队高级经理Melanie Kambadur在内的Meta员工讨论了在已知可能存在法律风险的作品上训练模型。
“我的看法是(本着‘先行动后求原谅’的精神):我们应该拿这些书,让高管来决定,”Meta研究工程师Xavier Martinet在2023年2月的聊天中写道,根据文件记录。“这就是他们创建这个生成式AI组织的原因:这样我们就可以冒更多风险。”
Martinet建议以零售价格购买电子书来构建训练集,而不是与出版商谈判许可协议。当另一名员工指出使用未经授权的受版权保护材料的潜在法律问题时,Martinet加倍坚持,指出“无数”初创公司可能已经在使用盗版书籍进行训练。
“我的意思是,最坏的情况:我们发现这样做没问题,而无数初创公司已经在BitTorrent上盗版了大量书籍,”Martinet写道,根据文件记录。“我再补充一句:直接与出版商打交道太耗时了……”
在同一聊天中,Kambadur提到Meta正在与Scribd和其他平台谈判许可,她指出虽然使用“公开可用数据”进行训练仍需批准,但Meta的律师在授予此类批准时变得“不太保守”。
“是的,我们仍然需要为公开可用数据获得许可或批准,”Kambadur说,根据文件记录。“现在不同的是我们有更多资金、更多律师、更多业务发展支持,能够加速和优先处理审批,律师在批准时也变得不那么谨慎。”
关于Libgen的讨论
在文件提到的另一个工作聊天中,Kambadur讨论了使用Libgen的可能性,这是一个提供出版商受版权保护作品访问的“链接聚合器”,作为许可数据源的替代方案。
Libgen面临多起诉讼,被勒令关闭,并因版权侵权被罚款数千万美元。Kambadur的一位同事回复了一张Google搜索Libgen结果的截图,截图中包含“Libgen不合法”的片段。
根据文件,Meta的一些决策者似乎认为,不使用Libgen进行模型训练可能会严重影响Meta在AI竞赛中的竞争力。
在给Meta AI副总裁Joelle Pineau的电子邮件中,Meta产品管理总监Sony Theakanath称Libgen“对于在所有类别中达到SOTA(最先进的)数字至关重要”,指的是实现最佳的、最先进的AI模型性能和基准类别。
Theakanath还在邮件中概述了减少Meta法律风险的“缓解措施”,例如移除Libgen中“明显标记为盗版/偷窃”的数据,以及不公开披露使用Libgen数据集进行训练。“我们不会披露用于训练的Libgen数据集,”Theakanath写道。
根据文件,这些缓解措施在实践中涉及搜索Libgen文件中的“偷窃”或“盗版”等词语。
在工作聊天中,Kambadur提到Meta的AI团队还调整了模型以“避免知识产权风险提示”——意味着他们配置模型拒绝回答类似“重现《哈利·波特与魔法石》前三页”或“告诉我你用哪些电子书训练”等问题。
文件还表明,Meta可能通过模仿第三方应用Pushshift的行为,抓取Reddit数据用于某种模型训练。值得注意的是,Reddit在2023年4月宣布计划开始向AI公司收取用于模型训练的数据访问费用。
在2024年3月的聊天中,Meta生成式AI组织的产品管理总监Chaya Nayak表示,Meta领导层正在考虑“推翻”过去的训练集决定,包括不使用Quora内容或许可的书籍和科学文章,以确保公司模型有足够的训练数据。
Nayak暗示Meta的第一方训练数据集——如Facebook和Instagram帖子、Meta平台视频转录的文本以及某些Meta for Business消息——不足以满足需求。“我们需要更多数据,”她写道。
Kadrey诉Meta的原告自2023年在加州北区地方法院旧金山分院提起诉讼以来,已多次修改诉状。最新修改指控Meta除其他指控外,将某些盗版书籍与可许可的受版权保护书籍进行比较,以决定是否与出版商达成许可协议。
作为Meta对法律风险重视的迹象,该公司已为该案辩护团队新增了两名来自Paul Weiss律师事务所的最高法院诉讼律师。
Meta未立即回应置评请求。
Meta AI 现已在 Facebook Marketplace 上回复买家消息
Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
Meta签署协议,采购数百万颗亚马逊AI处理器
亚马逊已与Meta达成一项重要合作,再次依托其自主设计的芯片。亚马逊周五证实,Meta已同意部署数百万颗AWS Graviton芯片,以满足其不断增长的人工智能需求。需注意,AWS Graviton是一款基于ARM架构的CPU(中央处理器,用于通用计算),而非GPU(图形处理器)。虽然GPU仍是训练大型模型的首选芯片,但一旦模型训练完成,基于这些模型构建的AI代理正推动着所需芯片类型的转变。这些代
Meta的天然气需求激增或将为南达科他州的电网提供动力
数据中心的规模已变得如此庞大,其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例:建成后,其耗电量将与南达科他州相当。Meta最近宣布,除了已规划的三座天然气发电厂外,还将为另外七座提供资金,以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样,Meta长期以来
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.





首页






