

A equipe da Meta discutiu usando conteúdo protegido por direitos autorais para treinamento de IA, os registros judiciais revelam
10 de Abril de 2025
JosephEvans
16

Durante anos, os funcionários da Meta discutem o uso de materiais protegidos por direitos autorais, obtidos por meios potencialmente obscuros, para treinar os modelos de IA da empresa, de acordo com documentos judiciais que não foram lançados na quinta -feira.
Esses documentos faziam parte do processo em andamento Kadrey v. Meta, uma das várias disputas de direitos autorais da IA que percorriam o sistema judicial dos EUA. A Meta argumenta que o uso de obras protegidas por IP, especialmente livros, para treinar seus modelos, se enquadra em "Uso justo". No entanto, os demandantes, incluindo os autores Sarah Silverman e Ta-Nehisi Coates, discordam fortemente.
Os registros anteriores no caso sugeriram que o CEO da Meta, Mark Zuckerberg, havia aprovado o uso de conteúdo protegido por direitos autorais para o treinamento e que a Meta parou de negociar acordos de licenciamento com editores de livros. Os documentos recém -lacrados, que incluem bate -papos de trabalho internos entre a equipe da Meta, fornecem a visão mais detalhada, mas como a Meta pode ter usado dados protegidos por direitos autorais para treinar seus modelos, incluindo os da família Llama.
Em um bate -papo, os funcionários da Meta, incluindo Melanie Kambadur, gerente sênior da equipe de pesquisa de modelos de Llama da Meta, falou sobre modelos de treinamento sobre trabalhos que eles conheciam, poderia ser legalmente arriscada.
"Minha opinião é (no espírito de 'Perdão, não permissão'): devemos pegar os livros e deixar os executivos decidirem", escreveu Xavier Martinet, um engenheiro de meta de pesquisa, em um bate -papo em fevereiro de 2023, de acordo com os registros. "É por isso que eles criaram essa organização da Gen Ai: para que possamos correr mais riscos".
Martinet sugeriu a compra de e-books a preços de varejo para construir um conjunto de treinamento em vez de negociar acordos de licenciamento com editores. Quando outro funcionário apontou os possíveis problemas legais ao usar materiais de direitos autorais não autorizados, Martinet dobrou, observando que as startups de "um gazilhão" provavelmente já estavam usando livros piratas para treinamento.
"Quero dizer, no pior caso: descobrimos que está tudo bem, enquanto uma startups de gazilhões de livros pirateados apenas sobre Bittorrent", escreveu Martinet, segundo os registros. "Meus dois centavos novamente: lidar diretamente com os editores leva uma eternidade ..."
No mesmo bate -papo, Kambadur, que mencionou que a Meta estava negociando com o Scribd e outras plataformas para licenças, observou que, ao usar "dados publicamente disponíveis" para treinamento, ainda precisaria de aprovações, os advogados da Meta estavam se tornando "menos conservadores" sobre a concessão de tais aprovações.
"Sim, ainda precisamos obter licenças ou aprovações para dados disponíveis ao público", disse Kambadur, de acordo com os registros. "A diferença agora é que temos mais dinheiro, mais advogados, mais ajuda para o desenvolvimento de negócios, a capacidade de acelerar e aumentar a velocidade, e os advogados estão sendo um pouco menos cautelosos com as aprovações".
Conversas sobre libgen
Em outro bate -papo de trabalho mencionado nos arquivos, Kambadur discutiu a possibilidade de usar o LibGen, um "agregador de links" que fornece acesso a obras protegidas por direitos autorais de editores, como uma alternativa às fontes de dados licenciadas.
A Libgen enfrentou inúmeras ações judiciais, foi ordenada a desligar e foi multada em dezenas de milhões de dólares por violação de direitos autorais. Um dos colegas de Kambadur respondeu com uma captura de tela de um resultado de pesquisa do Google para a libgen que incluía o snippet "Não, Libgen não é legal".
Alguns tomadores de decisão da Meta pareciam acreditar que não usar o LibGen para o treinamento de modelos poderia impactar seriamente a competitividade da Meta na corrida de IA, de acordo com os registros.
Em um email para a vice-presidente da Meta AI Joelle Pineau, a Sony Theakanath, diretora de gerenciamento de produtos da Meta, chamada Libgen "essencial para atender aos números SOTA em todas as categorias", referindo-se a alcançar as categorias de desempenho e melhor desempenho do modelo de AI de última geração (SOTA).
Theakanath também descreveu "mitigações" no email para reduzir a exposição legal da Meta, como a remoção de dados da LibGen que foi "claramente marcada como pirata/roubada" e não divulgando publicamente o uso de conjuntos de dados LibGen para treinamento. "Não divulgaríamos o uso de conjuntos de dados LibGen usados para treinar", escreveu Theakanath.
Na prática, essas mitigações envolveram a pesquisa de arquivos libgen em busca de palavras como "roubadas" ou "pirateados", de acordo com os registros.
Em um bate-papo de trabalho, Kambadur mencionou que a equipe de AI da Meta também ajustou os modelos para "evitar instruções de risco de IP"-o que significa que eles configuraram os modelos para se recusar a responder a perguntas como "reproduzir as três primeiras páginas de 'Harry Potter e a pedra do feiticeiro' ou" Diga-me em que você foi treinado ".
Os arquivos também sugerem que a Meta pode ter descartado dados do Reddit para algum tipo de treinamento de modelo, possivelmente imitando o comportamento de um aplicativo de terceiros chamado PushShift. Notavelmente, o Reddit anunciou em abril de 2023 que planejava começar a cobrar das empresas de IA pelo acesso a dados para o treinamento de modelos.
Em um bate -papo de março de 2024, Chaya Nayak, diretora de gerenciamento de produtos da Org generativa de AI da Meta, disse que a meta liderança estava considerando "substituir" decisões anteriores em conjuntos de treinamento, incluindo uma decisão de não usar conteúdo quora ou livros licenciados e artigos científicos, para garantir que os modelos da empresa tivessem dados de treinamento suficientes.
Nayak implicava que os conjuntos de dados de treinamento de primeira parte da Meta-como postagens do Facebook e Instagram, o texto transcrito de vídeos em meta plataformas e certos meta para mensagens comerciais-não eram suficientes. "Precisamos de mais dados", escreveu ela.
Os queixosos em Kadrey v. Meta alteraram sua queixa várias vezes desde que registrou o caso no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, em São Francisco, em 2023. A última emenda alega que a meta, entre outros reclamações, comparou certos livros pirateados com livros de direitos autorais disponíveis para decidir se a perseguir um alicerce a um alicerce.
Em um sinal de quão seriamente visualiza as apostas legais, a empresa adicionou dois litigantes da Suprema Corte do escritório de advocacia Paul Weiss à sua equipe de defesa no caso.
A Meta não respondeu imediatamente a um pedido de comentário.
Artigo relacionado
Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因
在周末,Facebook,Instagram,WhatsApp和Quest VR背后的强大力量Meta通过揭露其最新的AI语言模型Llama 4。不仅是一个,而且引入了三个新版本,每个版本都具有增强功能,这要归功于“ Architecturs” Architecturs”
法学教授支持作者在AI的版权与META的版权之战中
一组版权法学教授在起诉元的作者后面提供了支持,指控这家科技巨头未经作者同意就在电子书上训练了其Llama AI模型。教授于周五在美国加利福尼亚北区的美国地方法院提交了一份法庭之友。
Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手
Openai对其联合创始人Elon Musk及其竞争的AI公司Xai发起了激烈的法律反击。在他们正在进行的争执的戏剧性升级中,Openai指责马斯克发动了一场“无情”和“恶意”运动,破坏了他帮助创办的公司。根据法院D
Comentários (25)
0/200
FrankMartínez
11 de Abril de 2025 à50 02:36:50 GMT
So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?
0
WilliamYoung
11 de Abril de 2025 à50 02:36:50 GMT
メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?
0
HenryJackson
11 de Abril de 2025 à50 02:36:50 GMT
메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?
0
HarryRoberts
11 de Abril de 2025 à50 02:36:50 GMT
Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?
0
JoseJackson
11 de Abril de 2025 à50 02:36:50 GMT
Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?
0
AlbertHill
10 de Abril de 2025 à25 19:16:25 GMT
So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?
0






Durante anos, os funcionários da Meta discutem o uso de materiais protegidos por direitos autorais, obtidos por meios potencialmente obscuros, para treinar os modelos de IA da empresa, de acordo com documentos judiciais que não foram lançados na quinta -feira.
Esses documentos faziam parte do processo em andamento Kadrey v. Meta, uma das várias disputas de direitos autorais da IA que percorriam o sistema judicial dos EUA. A Meta argumenta que o uso de obras protegidas por IP, especialmente livros, para treinar seus modelos, se enquadra em "Uso justo". No entanto, os demandantes, incluindo os autores Sarah Silverman e Ta-Nehisi Coates, discordam fortemente.
Os registros anteriores no caso sugeriram que o CEO da Meta, Mark Zuckerberg, havia aprovado o uso de conteúdo protegido por direitos autorais para o treinamento e que a Meta parou de negociar acordos de licenciamento com editores de livros. Os documentos recém -lacrados, que incluem bate -papos de trabalho internos entre a equipe da Meta, fornecem a visão mais detalhada, mas como a Meta pode ter usado dados protegidos por direitos autorais para treinar seus modelos, incluindo os da família Llama.
Em um bate -papo, os funcionários da Meta, incluindo Melanie Kambadur, gerente sênior da equipe de pesquisa de modelos de Llama da Meta, falou sobre modelos de treinamento sobre trabalhos que eles conheciam, poderia ser legalmente arriscada.
"Minha opinião é (no espírito de 'Perdão, não permissão'): devemos pegar os livros e deixar os executivos decidirem", escreveu Xavier Martinet, um engenheiro de meta de pesquisa, em um bate -papo em fevereiro de 2023, de acordo com os registros. "É por isso que eles criaram essa organização da Gen Ai: para que possamos correr mais riscos".
Martinet sugeriu a compra de e-books a preços de varejo para construir um conjunto de treinamento em vez de negociar acordos de licenciamento com editores. Quando outro funcionário apontou os possíveis problemas legais ao usar materiais de direitos autorais não autorizados, Martinet dobrou, observando que as startups de "um gazilhão" provavelmente já estavam usando livros piratas para treinamento.
"Quero dizer, no pior caso: descobrimos que está tudo bem, enquanto uma startups de gazilhões de livros pirateados apenas sobre Bittorrent", escreveu Martinet, segundo os registros. "Meus dois centavos novamente: lidar diretamente com os editores leva uma eternidade ..."
No mesmo bate -papo, Kambadur, que mencionou que a Meta estava negociando com o Scribd e outras plataformas para licenças, observou que, ao usar "dados publicamente disponíveis" para treinamento, ainda precisaria de aprovações, os advogados da Meta estavam se tornando "menos conservadores" sobre a concessão de tais aprovações.
"Sim, ainda precisamos obter licenças ou aprovações para dados disponíveis ao público", disse Kambadur, de acordo com os registros. "A diferença agora é que temos mais dinheiro, mais advogados, mais ajuda para o desenvolvimento de negócios, a capacidade de acelerar e aumentar a velocidade, e os advogados estão sendo um pouco menos cautelosos com as aprovações".
Conversas sobre libgen
Em outro bate -papo de trabalho mencionado nos arquivos, Kambadur discutiu a possibilidade de usar o LibGen, um "agregador de links" que fornece acesso a obras protegidas por direitos autorais de editores, como uma alternativa às fontes de dados licenciadas.
A Libgen enfrentou inúmeras ações judiciais, foi ordenada a desligar e foi multada em dezenas de milhões de dólares por violação de direitos autorais. Um dos colegas de Kambadur respondeu com uma captura de tela de um resultado de pesquisa do Google para a libgen que incluía o snippet "Não, Libgen não é legal".
Alguns tomadores de decisão da Meta pareciam acreditar que não usar o LibGen para o treinamento de modelos poderia impactar seriamente a competitividade da Meta na corrida de IA, de acordo com os registros.
Em um email para a vice-presidente da Meta AI Joelle Pineau, a Sony Theakanath, diretora de gerenciamento de produtos da Meta, chamada Libgen "essencial para atender aos números SOTA em todas as categorias", referindo-se a alcançar as categorias de desempenho e melhor desempenho do modelo de AI de última geração (SOTA).
Theakanath também descreveu "mitigações" no email para reduzir a exposição legal da Meta, como a remoção de dados da LibGen que foi "claramente marcada como pirata/roubada" e não divulgando publicamente o uso de conjuntos de dados LibGen para treinamento. "Não divulgaríamos o uso de conjuntos de dados LibGen usados para treinar", escreveu Theakanath.
Na prática, essas mitigações envolveram a pesquisa de arquivos libgen em busca de palavras como "roubadas" ou "pirateados", de acordo com os registros.
Em um bate-papo de trabalho, Kambadur mencionou que a equipe de AI da Meta também ajustou os modelos para "evitar instruções de risco de IP"-o que significa que eles configuraram os modelos para se recusar a responder a perguntas como "reproduzir as três primeiras páginas de 'Harry Potter e a pedra do feiticeiro' ou" Diga-me em que você foi treinado ".
Os arquivos também sugerem que a Meta pode ter descartado dados do Reddit para algum tipo de treinamento de modelo, possivelmente imitando o comportamento de um aplicativo de terceiros chamado PushShift. Notavelmente, o Reddit anunciou em abril de 2023 que planejava começar a cobrar das empresas de IA pelo acesso a dados para o treinamento de modelos.
Em um bate -papo de março de 2024, Chaya Nayak, diretora de gerenciamento de produtos da Org generativa de AI da Meta, disse que a meta liderança estava considerando "substituir" decisões anteriores em conjuntos de treinamento, incluindo uma decisão de não usar conteúdo quora ou livros licenciados e artigos científicos, para garantir que os modelos da empresa tivessem dados de treinamento suficientes.
Nayak implicava que os conjuntos de dados de treinamento de primeira parte da Meta-como postagens do Facebook e Instagram, o texto transcrito de vídeos em meta plataformas e certos meta para mensagens comerciais-não eram suficientes. "Precisamos de mais dados", escreveu ela.
Os queixosos em Kadrey v. Meta alteraram sua queixa várias vezes desde que registrou o caso no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, em São Francisco, em 2023. A última emenda alega que a meta, entre outros reclamações, comparou certos livros pirateados com livros de direitos autorais disponíveis para decidir se a perseguir um alicerce a um alicerce.
Em um sinal de quão seriamente visualiza as apostas legais, a empresa adicionou dois litigantes da Suprema Corte do escritório de advocacia Paul Weiss à sua equipe de defesa no caso.
A Meta não respondeu imediatamente a um pedido de comentário.



So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?




メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?




메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?




Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?




Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?




So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?












