opção
Lar
Notícias
A equipe da Meta discutiu usando conteúdo protegido por direitos autorais para treinamento de IA, os registros judiciais revelam

A equipe da Meta discutiu usando conteúdo protegido por direitos autorais para treinamento de IA, os registros judiciais revelam

10 de Abril de 2025
86

A equipe da Meta discutiu usando conteúdo protegido por direitos autorais para treinamento de IA, os registros judiciais revelam

Por anos, funcionários da Meta discutiram o uso de materiais protegidos por direitos autorais, obtidos por meios potencialmente questionáveis, para treinar os modelos de IA da empresa, segundo documentos judiciais revelados na quinta-feira.

Esses documentos fazem parte do processo em andamento Kadrey v. Meta, um dos vários litígios sobre direitos autorais de IA em tramitação no sistema judicial dos EUA. A Meta argumenta que o uso de obras protegidas por propriedade intelectual, especialmente livros, para treinamento de seus modelos se enquadra no "uso justo". No entanto, os demandantes, incluindo os autores Sarah Silverman e Ta-Nehisi Coates, discordam veementemente.

Arquivos anteriores do caso sugeriram que o CEO da Meta, Mark Zuckerberg, aprovou o uso de conteúdo protegido por direitos autorais para treinamento e que a Meta interrompeu as negociações de acordos de licenciamento com editoras de livros. Os documentos recém-revelados, que incluem conversas internas de trabalho entre funcionários da Meta, oferecem a visão mais detalhada até agora sobre como a Meta pode ter usado dados protegidos por direitos autorais para treinar seus modelos, incluindo os da família Llama.

Em uma conversa, funcionários da Meta, incluindo Melanie Kambadur, gerente sênior da equipe de pesquisa do modelo Llama da Meta, falaram sobre treinar modelos com obras que sabiam ser legalmente arriscadas.

"Minha opinião é (no espírito de 'peça perdão, não permissão'): devemos pegar os livros e deixar os executivos decidirem", escreveu Xavier Martinet, engenheiro de pesquisa da Meta, em uma conversa de fevereiro de 2023, segundo os arquivos. "Foi por isso que criaram esta organização de IA generativa: para que possamos assumir mais riscos."

Martinet sugeriu comprar e-books a preços de varejo para construir um conjunto de treinamento, em vez de negociar acordos de licenciamento com editoras. Quando outro funcionário apontou os possíveis problemas legais com o uso de materiais protegidos por direitos autorais não autorizados, Martinet reforçou, observando que "um zilhão" de startups provavelmente já estavam usando livros pirateados para treinamento.

"Quero dizer, no pior dos casos: descobrimos que está tudo bem, enquanto um zilhão de startups simplesmente piratearam toneladas de livros no BitTorrent", escreveu Martinet, segundo os arquivos. "Minha opinião de novo: lidar diretamente com editoras leva uma eternidade..."

Na mesma conversa, Kambadur, que mencionou que a Meta estava negociando com Scribd e outras plataformas por licenças, observou que, embora o uso de "dados publicamente disponíveis" para treinamento ainda exigisse aprovações, os advogados da Meta estavam se tornando "menos conservadores" ao conceder tais aprovações.

"Sim, ainda precisamos obter licenças ou aprovações para dados publicamente disponíveis", disse Kambadur, segundo os arquivos. "A diferença agora é que temos mais dinheiro, mais advogados, mais ajuda de desenvolvimento de negócios, a capacidade de acelerar e priorizar para maior rapidez, e os advogados estão sendo um pouco menos cautelosos com as aprovações."

Conversas sobre Libgen

Em outra conversa de trabalho mencionada nos arquivos, Kambadur discutiu a possibilidade de usar o Libgen, um "agregador de links" que fornece acesso a obras protegidas por direitos autorais de editoras, como alternativa a fontes de dados licenciadas.

O Libgen enfrentou inúmeros processos, foi ordenado a fechar e multado em dezenas de milhões de dólares por violação de direitos autorais. Um dos colegas de Kambadur respondeu com uma captura de tela de um resultado de busca do Google para o Libgen que incluía o trecho "Não, o Libgen não é legal."

Alguns tomadores de decisão na Meta pareciam acreditar que não usar o Libgen para treinamento de modelos poderia impactar seriamente a competitividade da Meta na corrida da IA, segundo os arquivos.

Em um e-mail para Joelle Pineau, vice-presidente de IA da Meta, Sony Theakanath, diretor de gerenciamento de produtos na Meta, chamou o Libgen de "essencial para alcançar números SOTA em todas as categorias", referindo-se a obter o melhor desempenho de modelo de IA de ponta (SOTA) e categorias de referência.

Theakanath também delineou "mitigações" no e-mail para reduzir a exposição legal da Meta, como remover dados do Libgen que fossem "claramente marcados como pirateados/roubados" e não divulgar publicamente o uso de conjuntos de dados do Libgen para treinamento. "Não divulgaríamos o uso de conjuntos de dados do Libgen usados para treinar", escreveu Theakanath.

Na prática, essas mitigações envolviam buscar em arquivos do Libgen palavras como "roubado" ou "pirateado", segundo os arquivos.

Em uma conversa de trabalho, Kambadur mencionou que a equipe de IA da Meta também ajustou modelos para "evitar prompts arriscados de propriedade intelectual" — ou seja, configuraram os modelos para recusar responder a perguntas como "reproduza as primeiras três páginas de 'Harry Potter e a Pedra Filosofal'" ou "diga-me quais e-books foram usados no seu treinamento."

Os arquivos também sugerem que a Meta pode ter extraído dados do Reddit para algum tipo de treinamento de modelo, possivelmente imitando o comportamento de um aplicativo de terceiros chamado Pushshift. Notavelmente, o Reddit anunciou em abril de 2023 que começaria a cobrar de empresas de IA pelo acesso a dados para treinamento de modelos.

Em uma conversa de março de 2024, Chaya Nayak, diretor de gerenciamento de produtos na organização de IA generativa da Meta, disse que a liderança da Meta estava considerando "reverter" decisões anteriores sobre conjuntos de treinamento, incluindo uma decisão de não usar conteúdo do Quora ou livros e artigos científicos licenciados, para garantir que os modelos da empresa tivessem dados de treinamento suficientes.

Nayak sugeriu que os conjuntos de dados de treinamento próprios da Meta — como postagens do Facebook e Instagram, textos transcritos de vídeos em plataformas da Meta e certas mensagens do Meta for Business — não eram suficientes. "Precisamos de mais dados", escreveu ela.

Os demandantes em Kadrey v. Meta alteraram sua denúncia várias vezes desde que o caso foi registrado no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, Divisão de São Francisco, em 2023. A última emenda alega que a Meta, entre outras reivindicações, comparou certos livros pirateados com livros protegidos por direitos autorais disponíveis para licenciamento para decidir se buscaria um acordo de licenciamento com uma editora.

Em um sinal de quão seriamente a Meta vê as apostas legais, a empresa adicionou dois advogados do Supremo Tribunal da firma Paul Weiss à sua equipe de defesa no caso.

A Meta não respondeu imediatamente a um pedido de comentário.

Artigo relacionado
Google Adere ao Código de Prática de IA da UE em Meio a Debate na Indústria Google Adere ao Código de Prática de IA da UE em Meio a Debate na Indústria Google comprometeu-se a adotar o código de prática de IA voluntário da União Europeia, um quadro projetado para auxiliar desenvolvedores de IA a alinharem-se com a Lei de IA da UE, implementando proce
Meta Oferece Alto Salário para Talentos em IA, Nega Bônus de Contratação de $100M Meta Oferece Alto Salário para Talentos em IA, Nega Bônus de Contratação de $100M Meta atrai pesquisadores de IA para seu novo laboratório de superinteligência com pacotes de compensação multimilionários. No entanto, alegações de bônus de contratação de $100 milhões são falsas, seg
Meta Aprimora a Segurança de IA com Ferramentas Avançadas do Llama Meta Aprimora a Segurança de IA com Ferramentas Avançadas do Llama A Meta lançou novas ferramentas de segurança do Llama para fortalecer o desenvolvimento de IA e proteger contra ameaças emergentes.Essas ferramentas de segurança do modelo de IA Llama atualizadas são
Comentários (30)
0/200
PeterMartinez
PeterMartinez 24 de Abril de 2025 à57 19:59:57 WEST

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 24 de Abril de 2025 à41 03:42:41 WEST

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 21 de Abril de 2025 à31 21:19:31 WEST

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 19 de Abril de 2025 à40 10:15:40 WEST

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen
StevenAllen 19 de Abril de 2025 à52 09:39:52 WEST

메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.

CharlesWhite
CharlesWhite 12 de Abril de 2025 à28 14:05:28 WEST

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

De volta ao topo
OR