A equipe da Meta discutiu usando conteúdo protegido por direitos autorais para treinamento de IA, os registros judiciais revelam

Lar

Notícias

10 de Abril de 2025

JosephEvans

169

# meta # Lawsuit

A equipe da Meta discutiu usando conteúdo protegido por direitos autorais para treinamento de IA, os registros judiciais revelam

Por anos, funcionários da Meta discutiram o uso de materiais protegidos por direitos autorais, obtidos por meios potencialmente questionáveis, para treinar os modelos de IA da empresa, segundo documentos judiciais revelados na quinta-feira.

Esses documentos fazem parte do processo em andamento Kadrey v. Meta, um dos vários litígios sobre direitos autorais de IA em tramitação no sistema judicial dos EUA. A Meta argumenta que o uso de obras protegidas por propriedade intelectual, especialmente livros, para treinamento de seus modelos se enquadra no "uso justo". No entanto, os demandantes, incluindo os autores Sarah Silverman e Ta-Nehisi Coates, discordam veementemente.

Arquivos anteriores do caso sugeriram que o CEO da Meta, Mark Zuckerberg, aprovou o uso de conteúdo protegido por direitos autorais para treinamento e que a Meta interrompeu as negociações de acordos de licenciamento com editoras de livros. Os documentos recém-revelados, que incluem conversas internas de trabalho entre funcionários da Meta, oferecem a visão mais detalhada até agora sobre como a Meta pode ter usado dados protegidos por direitos autorais para treinar seus modelos, incluindo os da família Llama.

Em uma conversa, funcionários da Meta, incluindo Melanie Kambadur, gerente sênior da equipe de pesquisa do modelo Llama da Meta, falaram sobre treinar modelos com obras que sabiam ser legalmente arriscadas.

"Minha opinião é (no espírito de 'peça perdão, não permissão'): devemos pegar os livros e deixar os executivos decidirem", escreveu Xavier Martinet, engenheiro de pesquisa da Meta, em uma conversa de fevereiro de 2023, segundo os arquivos. "Foi por isso que criaram esta organização de IA generativa: para que possamos assumir mais riscos."

Martinet sugeriu comprar e-books a preços de varejo para construir um conjunto de treinamento, em vez de negociar acordos de licenciamento com editoras. Quando outro funcionário apontou os possíveis problemas legais com o uso de materiais protegidos por direitos autorais não autorizados, Martinet reforçou, observando que "um zilhão" de startups provavelmente já estavam usando livros pirateados para treinamento.

"Quero dizer, no pior dos casos: descobrimos que está tudo bem, enquanto um zilhão de startups simplesmente piratearam toneladas de livros no BitTorrent", escreveu Martinet, segundo os arquivos. "Minha opinião de novo: lidar diretamente com editoras leva uma eternidade..."

Na mesma conversa, Kambadur, que mencionou que a Meta estava negociando com Scribd e outras plataformas por licenças, observou que, embora o uso de "dados publicamente disponíveis" para treinamento ainda exigisse aprovações, os advogados da Meta estavam se tornando "menos conservadores" ao conceder tais aprovações.

"Sim, ainda precisamos obter licenças ou aprovações para dados publicamente disponíveis", disse Kambadur, segundo os arquivos. "A diferença agora é que temos mais dinheiro, mais advogados, mais ajuda de desenvolvimento de negócios, a capacidade de acelerar e priorizar para maior rapidez, e os advogados estão sendo um pouco menos cautelosos com as aprovações."

Conversas sobre Libgen

Em outra conversa de trabalho mencionada nos arquivos, Kambadur discutiu a possibilidade de usar o Libgen, um "agregador de links" que fornece acesso a obras protegidas por direitos autorais de editoras, como alternativa a fontes de dados licenciadas.

O Libgen enfrentou inúmeros processos, foi ordenado a fechar e multado em dezenas de milhões de dólares por violação de direitos autorais. Um dos colegas de Kambadur respondeu com uma captura de tela de um resultado de busca do Google para o Libgen que incluía o trecho "Não, o Libgen não é legal."

Alguns tomadores de decisão na Meta pareciam acreditar que não usar o Libgen para treinamento de modelos poderia impactar seriamente a competitividade da Meta na corrida da IA, segundo os arquivos.

Em um e-mail para Joelle Pineau, vice-presidente de IA da Meta, Sony Theakanath, diretor de gerenciamento de produtos na Meta, chamou o Libgen de "essencial para alcançar números SOTA em todas as categorias", referindo-se a obter o melhor desempenho de modelo de IA de ponta (SOTA) e categorias de referência.

Theakanath também delineou "mitigações" no e-mail para reduzir a exposição legal da Meta, como remover dados do Libgen que fossem "claramente marcados como pirateados/roubados" e não divulgar publicamente o uso de conjuntos de dados do Libgen para treinamento. "Não divulgaríamos o uso de conjuntos de dados do Libgen usados para treinar", escreveu Theakanath.

Na prática, essas mitigações envolviam buscar em arquivos do Libgen palavras como "roubado" ou "pirateado", segundo os arquivos.

Em uma conversa de trabalho, Kambadur mencionou que a equipe de IA da Meta também ajustou modelos para "evitar prompts arriscados de propriedade intelectual" — ou seja, configuraram os modelos para recusar responder a perguntas como "reproduza as primeiras três páginas de 'Harry Potter e a Pedra Filosofal'" ou "diga-me quais e-books foram usados no seu treinamento."

Os arquivos também sugerem que a Meta pode ter extraído dados do Reddit para algum tipo de treinamento de modelo, possivelmente imitando o comportamento de um aplicativo de terceiros chamado Pushshift. Notavelmente, o Reddit anunciou em abril de 2023 que começaria a cobrar de empresas de IA pelo acesso a dados para treinamento de modelos.

Em uma conversa de março de 2024, Chaya Nayak, diretor de gerenciamento de produtos na organização de IA generativa da Meta, disse que a liderança da Meta estava considerando "reverter" decisões anteriores sobre conjuntos de treinamento, incluindo uma decisão de não usar conteúdo do Quora ou livros e artigos científicos licenciados, para garantir que os modelos da empresa tivessem dados de treinamento suficientes.

Nayak sugeriu que os conjuntos de dados de treinamento próprios da Meta — como postagens do Facebook e Instagram, textos transcritos de vídeos em plataformas da Meta e certas mensagens do Meta for Business — não eram suficientes. "Precisamos de mais dados", escreveu ela.

Os demandantes em Kadrey v. Meta alteraram sua denúncia várias vezes desde que o caso foi registrado no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, Divisão de São Francisco, em 2023. A última emenda alega que a Meta, entre outras reivindicações, comparou certos livros pirateados com livros protegidos por direitos autorais disponíveis para licenciamento para decidir se buscaria um acordo de licenciamento com uma editora.

Em um sinal de quão seriamente a Meta vê as apostas legais, a empresa adicionou dois advogados do Supremo Tribunal da firma Paul Weiss à sua equipe de defesa no caso.

A Meta não respondeu imediatamente a um pedido de comentário.

Artigo relacionado

A Meta AI agora responde às mensagens dos compradores no Facebook Marketplace O Facebook Marketplace lança novos recursos de IA da Meta, incluindo respostas automáticas às consultas dos compradores, anunciou a empresa nesta quinta-feira. A plataforma também utiliza IA para agil

Meta fecha acordo para a aquisição de milhões de CPUs de IA da Amazon A Amazon fechou uma parceria significativa com a Meta, mais uma vez contando com seus próprios chips projetados sob medida. A Meta concordou em implantar milhões de chips AWS Graviton para atender às

O aumento da produção de gás natural da Meta pode abastecer a rede elétrica de Dakota do Sul Os data centers cresceram tanto que seu consumo de eletricidade agora se equipara ao de estados inteiros dos EUA. Veja o caso do data center de IA Hyperion, da Meta: quando estiver concluído, consumir

Recomendações de tópicos especiais relacionados

Criação de vídeo

Os melhores criadores de vídeo com IA para podcasters: transforme arquivos de áudio em vídeos envolventes com apresentador

Descubra os melhores criadores de vídeo com IA para podcasters de 2026 no XIX.AI. Nossa lista selecionada e com as melhores avaliações apresenta ferramentas poderosas que transformam seu áudio em vídeos envolventes com a sua imagem em primeiro plano, sem esforço. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Destaque-se agora na narrativa visual.

10 ferramentas

xix.ai

chatbot

Crie sua própria história de amor com IA usando estas ferramentas de roleplay

Descubra as melhores ferramentas de roleplay com IA de 2026 para criar narrativas imersivas. A lista selecionada pela XIX.AI apresenta assistentes poderosos e revolucionários, capazes de estimular a narrativa criativa e a profundidade emocional. Compare as opções gratuitas com as pagas por meio de testes práticos. Comece hoje mesmo sua jornada única.

10 ferramentas

xix.ai

Conversão de texto para fala

As melhores ferramentas de voz com IA para desenvolvedores de jogos independentes: economize tempo na dublagem de RPGs e romances visuais

Descubra as melhores ferramentas de voz com IA de 2026 para desenvolvedores de jogos! A lista selecionada pela XIX.AI apresenta soluções de ponta e revolucionárias para economizar seu tempo e dinheiro na dublagem de RPGs e romances visuais. Explore comparações entre opções gratuitas e pagas, testes práticos e rankings atualizados semanalmente. Encontre hoje a ferramenta de voz perfeita para você!

10 ferramentas

xix.ai

Educação e Aprendizagem

Melhores ferramentas de repetição espaçada com IA: otimize seus horários de estudo para estudantes de medicina e direito

Descubra os melhores ferramentas de repetição espaçada em AI de 2026, selecionadas por XIX.AI. Nossas escolhas mais recomendadas e revolucionárias ajudam estudantes de medicina e direito a otimizar seus horários de estudo para uma melhor retenção do conhecimento. Compare opções gratuitas e pagas com testes reais e rankings atualizados semanalmente. Desfrute agora de uma vantagem competitiva no aprendizado.

10 ferramentas

xix.ai

Criação de vídeo

As melhores plataformas de IA para conversão de texto em vídeo para redação de roteiros e narrativa visual

As melhores plataformas de IA para conversão de texto em vídeo de 2026: as ferramentas mais bem avaliadas para redação de roteiros e narrativa visual. Descubra soluções poderosas e revolucionárias para transformar seu texto em vídeos envolventes. Compare opções gratuitas e pagas com nossos rankings atualizados semanalmente e testes práticos. Encontre a plataforma perfeita para impulsionar sua criatividade e produtividade. Explore a seleção especial no XIX.AI.

10 ferramentas

xix.ai

chatbot

Orquestradores de Múltiplos Agentes IA: Projeto de Fluxos de Trabalho Automatizados Complexos através do Linguagem Natural

2026 Mais recente: Descubra os melhores orquestradores multi-agente de IA para projetar fluxos de trabalho automatizados complexos através do uso da linguagem natural. Nossa lista selecionada apresenta plataformas poderosas e altamente avaliadas para uma automação de tarefas sem falhas e um gerenciamento inteligente de processos. Compare opções gratuitas e pagas com informações reais do mundo real. Desfrute de uma vantagem competitiva com as classificações atualizadas semanalmente por especialistas da XIX.AI.

10 ferramentas

xix.ai

Comentários (32)

0/500

Por favor, faça o login primeiro

PaulMartínez

6 de Maio de 2026 à49 05:00:49 WEST

Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.

CharlesYoung

5 de Abril de 2026 à4 23:02:04 WEST

¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.

PeterMartinez

24 de Abril de 2025 à57 19:59:57 WEST

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell

24 de Abril de 2025 à41 03:42:41 WEST

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました！🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez

21 de Abril de 2025 à31 21:19:31 WEST

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams

19 de Abril de 2025 à40 10:15:40 WEST

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

Principais notícias

AI Builder e Power Automate Revolucionam a Sumarização de Documentos Hosts de IA do podcast Notebooklm agora disponíveis para entrevistas China revela padrão nacional para robôs humanóides e inteligência incorporada Platôs de adoção de IA corporativa, revelam dados da Ramp Tutorial do Criador de Imagens do Bing: Guia de Geração de Arte por IA Aprenda a criar música de IA usando sua voz: um tutorial passo a passo do SUNO iMyFone MagicMic: Revisão e Tutorial de Mudança de Voz AI em Tempo Real Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas A Embodied Intelligence divulga a primeira norma do setor para conter o crescimento descontrolado DeepSeek V4 surge como uma revolução na IA multimodal

Mais

Apresentou