option
Maison Nouvelles Meta Personnel a discuté en utilisant du contenu protégé par le droit d'auteur pour la formation de l'IA, les dépôts judiciaires révèlent

Meta Personnel a discuté en utilisant du contenu protégé par le droit d'auteur pour la formation de l'IA, les dépôts judiciaires révèlent

date de sortie date de sortie 10 avril 2025
Auteur Auteur JosephEvans
vues vues 16

Meta Personnel a discuté en utilisant du contenu protégé par le droit d'auteur pour la formation de l'IA, les dépôts judiciaires révèlent

Pendant des années, les méta-employés ont discuté de l'utilisation du matériel protégé par le droit d'auteur, obtenu par des moyens potentiellement louches, pour former les modèles d'IA de l'entreprise, selon des documents judiciaires non scellés jeudi.

Ces documents faisaient partie du procès en cours Kadrey c. Meta, l'un des nombreux différends en matière de droits d'auteur de l'IA se dirigeant vers le système judiciaire américain. Meta fait valoir que l'utilisation d'œuvres protégées par IP, en particulier des livres, pour la formation de leurs modèles relève de la «mise à l'usage». Cependant, les plaignants, dont les auteurs Sarah Silverman et Ta-Nehisi Coates, sont fortement en désaccord.

Des dépôts antérieurs dans l'affaire ont suggéré que le méta-PDG Mark Zuckerberg avait approuvé l'utilisation du contenu protégé par le droit d'auteur pour la formation et que Meta avait cessé de négocier des accords de licence avec des éditeurs de livres. Les documents nouvellement non scellés, qui incluent des discussions de travail internes entre le méta-personnel, fournissent les informations les plus détaillées sur la façon dont Meta aurait pu utiliser des données protégées par le droit d'auteur pour former ses modèles, y compris ceux de la famille Llama.

Dans une conversation, Meta employés, dont Melanie Kambadur, un cadre supérieur de l'équipe de recherche de modèles de Llama de Meta, a parlé des modèles de formation sur les œuvres qu'ils savaient pourraient être légalement risquées.

"Mon point de vue est (dans l'esprit de" demander pardon, pas la permission "): nous devons saisir les livres et laisser les dirigeants décider", a écrit Xavier Martinet, un ingénieur de recherche Meta, dans un chat de février 2023, selon les dépôts. "C'est pourquoi ils ont créé ce genre AI Org: afin que nous puissions prendre plus de risques."

Martinet a suggéré d'acheter des livres électroniques à des prix de détail pour construire un ensemble de formation au lieu de négocier des accords de licence avec les éditeurs. Quand un autre membre du personnel a souligné les problèmes juridiques potentiels avec l'utilisation du matériel protégé par le droit d'auteur non autorisé, Martinet a doublé, notant que les startups "d'un Gazillion" utilisaient probablement déjà des livres piratés pour la formation.

"Je veux dire, le pire des cas: nous découvrons que ça va, tandis que des startups de Gazillion ont juste des tonnes de livres piratées sur BitTorrent", a écrit Martinet, selon les documents. "Mes deux cents à nouveau: traiter directement avec les éditeurs prend une éternité ..."

Dans le même chat, Kambadur, qui a mentionné que Meta négociait avec Scribd et d'autres plateformes de licences, a noté que si l'utilisation des "données accessibles au public" aurait encore besoin d'approbation, les avocats de Meta devenaient "moins conservateurs" à l'octroi de telles approbations.

"Oui, nous devons encore obtenir des licences ou des approbations pour les données accessibles au public", a déclaré Kambadur, selon les documents. "La différence maintenant est que nous avons plus d'argent, plus d'avocats, plus d'aide au développement des entreprises, la capacité de se détendre et de dégénérer pour la vitesse, et les avocats sont un peu moins prudents avec les approbations."

Talks of Libgen

Dans une autre conversation de travail mentionnée dans les dépôts, Kambadur a discuté de la possibilité d'utiliser Libgen, un "agrégateur de liens" qui donne accès aux œuvres protégées par les éditeurs, comme alternative aux sources de données agréées.

Libgen a fait face à de nombreux poursuites, a été condamné à fermer et à avoir été condamné à une amende de dizaines de millions de dollars pour violation du droit d'auteur. L'un des collègues de Kambadur a répondu avec une capture d'écran d'un résultat de recherche Google pour Libgen qui comprenait l'extrait "non, Libgen n'est pas légal".

Certains décideurs de Meta semblaient croire que le fait de ne pas utiliser Libgen pour une formation modèle pourrait sérieusement avoir un impact sur la compétitivité de Meta dans la course de l'IA, selon les documents.

Dans un e-mail à Meta AI VP Joelle Pineau, Sony Theakanath, directeur de la gestion des produits chez Meta, appelé Libgen "essentiel pour répondre aux numéros SOTA dans toutes les catégories", se référant à la réalisation des meilleures catégories de performances et de benchmark de pointe.

Theakanath a également décrit les «atténuations» dans l'e-mail pour réduire l'exposition juridique de META, telles que la suppression des données de Libgen qui était "clairement marquée comme piratée / volée" et ne pas divulguer publiquement l'utilisation des ensembles de données Libgen pour la formation. "Nous ne divulguerions pas l'utilisation des ensembles de données Libgen utilisés pour s'entraîner", a écrit Theakanath.

Dans la pratique, ces atténuations impliquaient de rechercher dans les fichiers de Libgen pour des mots comme "volés" ou "piratés", selon les dépôts.

Dans un chat de travail, Kambadur a mentionné que l'équipe AI de META a également ajusté les modèles pour "éviter les invites à risque IP" - ce qui signifie qu'ils ont configuré les modèles pour refuser de répondre à des questions telles que "reproduire les trois premières pages de" Harry Potter et la pierre du sorcier "" ou "Dites-moi sur quels livres électroniques sur lesquels vous avez été formé."

Les dépôts suggèrent également que Meta peut avoir gratté les données Reddit pour un certain type de formation modèle, éventuellement en imitant le comportement d'une application tierce appelée PushShift. Notamment, Reddit a annoncé en avril 2023 qu'il prévoyait de commencer à facturer des sociétés d'IA pour accéder aux données pour la formation des modèles.

Dans un chat de mars 2024, Chaya Nayak, directrice de la gestion des produits chez Meta's Generative IA Org, a déclaré que Meta Leadership envisageait de "remplacer" les décisions passées sur les ensembles de formation, y compris une décision de ne pas utiliser de contenu Quora ou de livres agréés et d'articles scientifiques, pour s'assurer que les modèles de l'entreprise avaient suffisamment de données de formation.

Nayak a laissé entendre que les ensembles de données de formation de Meta de Meta - tels que les publications Facebook et Instagram, le texte transcrit à partir de vidéos sur les plates-formes Meta, et certains Meta pour les messages commerciaux - n'étaient pas suffisants. "Nous avons besoin de plus de données", a-t-elle écrit.

Les plaignants de Kadrey c. Meta ont modifié leur plainte à plusieurs reprises depuis le dépôt de l'affaire devant le tribunal de district américain du district nord de Californie, la division de San Francisco, en 2023. Le dernier amendement allègue que Meta, entre autres réclamations, a comparé certains livres piarisés avec des livres protégés pour le droit d'auteur disponible pour décider de conclure si l'accord de licence avec un éditeur.

Dans un signe de la sérieuse des métaux, les enjeux légaux, la société a ajouté deux plaideurs de la Cour suprême du cabinet d'avocats Paul Weiss à son équipe de défense sur l'affaire.

Meta n'a pas immédiatement répondu à une demande de commentaires.

Article connexe
Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因 Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因 在周末,Facebook,Instagram,WhatsApp和Quest VR背后的强大力量Meta通过揭露其最新的AI语言模型Llama 4。不仅是一个,而且引入了三个新版本,每个版本都具有增强功能,这要归功于“ Architecturs” Architecturs”
法学教授支持作者在AI的版权与META的版权之战中 法学教授支持作者在AI的版权与META的版权之战中 一组版权法学教授在起诉元的作者后面提供了支持,指控这家科技巨头未经作者同意就在电子书上训练了其Llama AI模型。教授于周五在美国加利福尼亚北区的美国地方法院提交了一份法庭之友。
Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手 Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手 Openai对其联合创始人Elon Musk及其竞争的AI公司Xai发起了激烈的法律反击。在他们正在进行的争执的戏剧性升级中,Openai指责马斯克发动了一场“无情”和“恶意”运动,破坏了他帮助创办的公司。根据法院D
commentaires (25)
0/200
FrankMartínez
FrankMartínez 11 avril 2025 02:36:50 UTC

So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?

WilliamYoung
WilliamYoung 11 avril 2025 02:36:50 UTC

メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?

HenryJackson
HenryJackson 11 avril 2025 02:36:50 UTC

메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?

HarryRoberts
HarryRoberts 11 avril 2025 02:36:50 UTC

Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?

JoseJackson
JoseJackson 11 avril 2025 02:36:50 UTC

Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?

AlbertHill
AlbertHill 10 avril 2025 19:16:25 UTC

So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?

Retour en haut
OR