Meta Personnel a discuté en utilisant du contenu protégé par le droit d'auteur pour la formation de l'IA, les dépôts judiciaires révèlent

Depuis des années, les employés de Meta discutent de l'utilisation de matériaux protégés par le droit d'auteur, obtenus par des moyens potentiellement douteux, pour entraîner les modèles d'IA de l'entreprise, selon des documents judiciaires dévoilés jeudi.
Ces documents font partie du procès en cours Kadrey v. Meta, l'un des nombreux litiges sur le droit d'auteur en IA qui progressent dans le système judiciaire américain. Meta soutient que l'utilisation d'œuvres protégées par la propriété intellectuelle, en particulier des livres, pour entraîner leurs modèles relève du "fair use". Cependant, les plaignants, y compris les auteurs Sarah Silverman et Ta-Nehisi Coates, sont fortement en désaccord.
Des dépôts antérieurs dans l'affaire suggéraient que le PDG de Meta, Mark Zuckerberg, avait approuvé l'utilisation de contenus protégés par le droit d'auteur pour l'entraînement et que Meta avait cessé de négocier des accords de licence avec les éditeurs de livres. Les documents récemment dévoilés, qui incluent des discussions internes entre les employés de Meta, offrent l'aperçu le plus détaillé à ce jour sur la manière dont Meta pourrait avoir utilisé des données protégées par le droit d'auteur pour entraîner ses modèles, y compris ceux de la famille Llama.
Dans une discussion, des employés de Meta, y compris Melanie Kambadur, une responsable senior de l'équipe de recherche sur le modèle Llama de Meta, ont parlé de l'entraînement des modèles sur des œuvres qu'ils savaient juridiquement risquées.
"Mon avis est (dans l'esprit de 'demander pardon plutôt que la permission') : nous devrions prendre les livres et laisser les dirigeants décider," a écrit Xavier Martinet, un ingénieur de recherche chez Meta, dans une discussion de février 2023, selon les dépôts. "C'est pourquoi ils ont créé cette organisation d'IA générative : pour que nous puissions prendre plus de risques."
Martinet a suggéré d'acheter des livres électroniques au prix de détail pour constituer un ensemble d'entraînement au lieu de négocier des accords de licence avec les éditeurs. Lorsqu'un autre employé a souligné les problèmes juridiques potentiels liés à l'utilisation de matériaux protégés sans autorisation, Martinet a insisté, notant qu'"un gazillion" de startups utilisaient probablement déjà des livres piratés pour l'entraînement.
"Je veux dire, dans le pire des cas : nous découvrons que c'est correct, alors qu'un gazillion de startups ont simplement piraté des tonnes de livres sur BitTorrent," a écrit Martinet, selon les dépôts. "Mon point de vue encore : traiter directement avec les éditeurs prend une éternité..."
Dans la même discussion, Kambadur, qui a mentionné que Meta négociait avec Scribd et d'autres plateformes pour des licences, a noté que bien que l'utilisation de "données publiques" pour l'entraînement nécessiterait toujours des approbations, les avocats de Meta devenaient "moins conservateurs" concernant l'octroi de telles approbations.
"Oui, nous devons encore obtenir des licences ou des approbations pour les données publiques," a déclaré Kambadur, selon les dépôts. "La différence maintenant est que nous avons plus d'argent, plus d'avocats, plus d'aide au développement commercial, la capacité d'accélérer et de prioriser pour la rapidité, et les avocats sont un peu moins prudents avec les approbations."
Discussions sur Libgen
Dans une autre discussion mentionnée dans les dépôts, Kambadur a discuté de la possibilité d'utiliser Libgen, un "agrégateur de liens" qui donne accès à des œuvres protégées par le droit d'auteur des éditeurs, comme alternative aux sources de données sous licence.
Libgen a fait face à de nombreux procès, a été ordonné de fermer et a été condamné à des dizaines de millions de dollars d'amendes pour violation de droit d'auteur. L'un des collègues de Kambadur a répondu avec une capture d'écran d'un résultat de recherche Google pour Libgen qui incluait l'extrait "Non, Libgen n'est pas légal."
Certains décideurs chez Meta semblaient croire que ne pas utiliser Libgen pour l'entraînement des modèles pourrait sérieusement affecter la compétitivité de Meta dans la course à l'IA, selon les dépôts.
Dans un courriel à la vice-présidente de Meta AI, Joelle Pineau, Sony Theakanath, directeur de la gestion de produits chez Meta, a qualifié Libgen d'"essentiel pour atteindre les chiffres SOTA dans toutes les catégories," faisant référence à l'obtention des meilleures performances de modèle d'IA de pointe (SOTA) et des catégories de référence.
Theakanath a également décrit des "mesures d'atténuation" dans le courriel pour réduire l'exposition juridique de Meta, comme supprimer les données de Libgen qui étaient "clairement marquées comme piratées/volées" et ne pas divulguer publiquement l'utilisation des ensembles de données de Libgen pour l'entraînement. "Nous ne divulguerons pas l'utilisation des ensembles de données de Libgen utilisés pour l'entraînement," a écrit Theakanath.
En pratique, ces mesures impliquaient de rechercher dans les fichiers de Libgen des mots comme "volé" ou "piraté," selon les dépôts.
Dans une discussion, Kambadur a mentionné que l'équipe d'IA de Meta avait également ajusté les modèles pour "éviter les prompts risqués en termes de propriété intellectuelle" — ce qui signifie qu'ils ont configuré les modèles pour refuser de répondre à des questions comme "reproduisez les trois premières pages de 'Harry Potter et la Pierre Philosophale'" ou "dites-moi sur quels livres électroniques vous avez été formé."
Les dépôts suggèrent également que Meta pourrait avoir collecté des données de Reddit pour un certain type d'entraînement de modèle, peut-être en imitant le comportement d'une application tierce appelée Pushshift. Notamment, Reddit a annoncé en avril 2023 qu'il prévoyait de commencer à facturer les entreprises d'IA pour l'accès aux données destinées à l'entraînement des modèles.
Dans une discussion de mars 2024, Chaya Nayak, directrice de la gestion de produits dans l'organisation d'IA générative de Meta, a déclaré que la direction de Meta envisageait de "contourner" les décisions passées sur les ensembles d'entraînement, y compris une décision de ne pas utiliser le contenu de Quora ou des livres et articles scientifiques sous licence, pour s'assurer que les modèles de l'entreprise disposaient de suffisamment de données d'entraînement.
Nayak a laissé entendre que les ensembles de données d'entraînement propriétaires de Meta — tels que les publications de Facebook et Instagram, le texte transcrit à partir de vidéos sur les plateformes de Meta, et certains messages Meta for Business — n'étaient pas suffisants. "Nous avons besoin de plus de données," a-t-elle écrit.
Les plaignants dans Kadrey v. Meta ont modifié leur plainte à plusieurs reprises depuis le dépôt de l'affaire devant le tribunal de district des États-Unis pour le district nord de la Californie, division de San Francisco, en 2023. La dernière modification allègue que Meta, parmi d'autres revendications, a comparé certains livres piratés avec des livres protégés par le droit d'auteur disponibles pour une licence afin de décider s'il fallait poursuivre un accord de licence avec un éditeur.
En signe de l'importance que Meta accorde aux enjeux juridiques, l'entreprise a ajouté deux avocats plaidants devant la Cour suprême du cabinet Paul Weiss à son équipe de défense pour l'affaire.
Meta n'a pas immédiatement répondu à une demande de commentaire.
Article connexe
Google s'engage à respecter le code de pratique de l'IA de l'UE au milieu du débat industriel
Google s'est engagé à adopter le code de pratique volontaire de l'IA de l'Union européenne, un cadre conçu pour aider les développeurs d'IA à s'aligner sur la loi sur l'IA de l'UE en mettant en œuvre
Meta Offre des Salaires Élevés pour les Talents en IA, Dément les Bonus de Signature de 100M$
Meta attire des chercheurs en IA vers son nouveau laboratoire de superintelligence avec des packages de rémunération de plusieurs millions de dollars. Cependant, les allégations de "bonus de signature
Meta Renforce la Sécurité IA avec des Outils Llama Avancés
Meta a publié de nouveaux outils de sécurité Llama pour renforcer le développement IA et protéger contre les menaces émergentes.Ces outils de sécurité du modèle IA Llama améliorés sont associés aux no
commentaires (30)
0/200
PeterMartinez
24 avril 2025 20:59:57 UTC+02:00
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
0
RalphMitchell
24 avril 2025 04:42:41 UTC+02:00
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
0
AnthonyPerez
21 avril 2025 22:19:31 UTC+02:00
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.
0
BrianWilliams
19 avril 2025 11:15:40 UTC+02:00
I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.
0
StevenAllen
19 avril 2025 10:39:52 UTC+02:00
메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.
0
CharlesWhite
12 avril 2025 15:05:28 UTC+02:00
Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.
0
Depuis des années, les employés de Meta discutent de l'utilisation de matériaux protégés par le droit d'auteur, obtenus par des moyens potentiellement douteux, pour entraîner les modèles d'IA de l'entreprise, selon des documents judiciaires dévoilés jeudi.
Ces documents font partie du procès en cours Kadrey v. Meta, l'un des nombreux litiges sur le droit d'auteur en IA qui progressent dans le système judiciaire américain. Meta soutient que l'utilisation d'œuvres protégées par la propriété intellectuelle, en particulier des livres, pour entraîner leurs modèles relève du "fair use". Cependant, les plaignants, y compris les auteurs Sarah Silverman et Ta-Nehisi Coates, sont fortement en désaccord.
Des dépôts antérieurs dans l'affaire suggéraient que le PDG de Meta, Mark Zuckerberg, avait approuvé l'utilisation de contenus protégés par le droit d'auteur pour l'entraînement et que Meta avait cessé de négocier des accords de licence avec les éditeurs de livres. Les documents récemment dévoilés, qui incluent des discussions internes entre les employés de Meta, offrent l'aperçu le plus détaillé à ce jour sur la manière dont Meta pourrait avoir utilisé des données protégées par le droit d'auteur pour entraîner ses modèles, y compris ceux de la famille Llama.
Dans une discussion, des employés de Meta, y compris Melanie Kambadur, une responsable senior de l'équipe de recherche sur le modèle Llama de Meta, ont parlé de l'entraînement des modèles sur des œuvres qu'ils savaient juridiquement risquées.
"Mon avis est (dans l'esprit de 'demander pardon plutôt que la permission') : nous devrions prendre les livres et laisser les dirigeants décider," a écrit Xavier Martinet, un ingénieur de recherche chez Meta, dans une discussion de février 2023, selon les dépôts. "C'est pourquoi ils ont créé cette organisation d'IA générative : pour que nous puissions prendre plus de risques."
Martinet a suggéré d'acheter des livres électroniques au prix de détail pour constituer un ensemble d'entraînement au lieu de négocier des accords de licence avec les éditeurs. Lorsqu'un autre employé a souligné les problèmes juridiques potentiels liés à l'utilisation de matériaux protégés sans autorisation, Martinet a insisté, notant qu'"un gazillion" de startups utilisaient probablement déjà des livres piratés pour l'entraînement.
"Je veux dire, dans le pire des cas : nous découvrons que c'est correct, alors qu'un gazillion de startups ont simplement piraté des tonnes de livres sur BitTorrent," a écrit Martinet, selon les dépôts. "Mon point de vue encore : traiter directement avec les éditeurs prend une éternité..."
Dans la même discussion, Kambadur, qui a mentionné que Meta négociait avec Scribd et d'autres plateformes pour des licences, a noté que bien que l'utilisation de "données publiques" pour l'entraînement nécessiterait toujours des approbations, les avocats de Meta devenaient "moins conservateurs" concernant l'octroi de telles approbations.
"Oui, nous devons encore obtenir des licences ou des approbations pour les données publiques," a déclaré Kambadur, selon les dépôts. "La différence maintenant est que nous avons plus d'argent, plus d'avocats, plus d'aide au développement commercial, la capacité d'accélérer et de prioriser pour la rapidité, et les avocats sont un peu moins prudents avec les approbations."
Discussions sur Libgen
Dans une autre discussion mentionnée dans les dépôts, Kambadur a discuté de la possibilité d'utiliser Libgen, un "agrégateur de liens" qui donne accès à des œuvres protégées par le droit d'auteur des éditeurs, comme alternative aux sources de données sous licence.
Libgen a fait face à de nombreux procès, a été ordonné de fermer et a été condamné à des dizaines de millions de dollars d'amendes pour violation de droit d'auteur. L'un des collègues de Kambadur a répondu avec une capture d'écran d'un résultat de recherche Google pour Libgen qui incluait l'extrait "Non, Libgen n'est pas légal."
Certains décideurs chez Meta semblaient croire que ne pas utiliser Libgen pour l'entraînement des modèles pourrait sérieusement affecter la compétitivité de Meta dans la course à l'IA, selon les dépôts.
Dans un courriel à la vice-présidente de Meta AI, Joelle Pineau, Sony Theakanath, directeur de la gestion de produits chez Meta, a qualifié Libgen d'"essentiel pour atteindre les chiffres SOTA dans toutes les catégories," faisant référence à l'obtention des meilleures performances de modèle d'IA de pointe (SOTA) et des catégories de référence.
Theakanath a également décrit des "mesures d'atténuation" dans le courriel pour réduire l'exposition juridique de Meta, comme supprimer les données de Libgen qui étaient "clairement marquées comme piratées/volées" et ne pas divulguer publiquement l'utilisation des ensembles de données de Libgen pour l'entraînement. "Nous ne divulguerons pas l'utilisation des ensembles de données de Libgen utilisés pour l'entraînement," a écrit Theakanath.
En pratique, ces mesures impliquaient de rechercher dans les fichiers de Libgen des mots comme "volé" ou "piraté," selon les dépôts.
Dans une discussion, Kambadur a mentionné que l'équipe d'IA de Meta avait également ajusté les modèles pour "éviter les prompts risqués en termes de propriété intellectuelle" — ce qui signifie qu'ils ont configuré les modèles pour refuser de répondre à des questions comme "reproduisez les trois premières pages de 'Harry Potter et la Pierre Philosophale'" ou "dites-moi sur quels livres électroniques vous avez été formé."
Les dépôts suggèrent également que Meta pourrait avoir collecté des données de Reddit pour un certain type d'entraînement de modèle, peut-être en imitant le comportement d'une application tierce appelée Pushshift. Notamment, Reddit a annoncé en avril 2023 qu'il prévoyait de commencer à facturer les entreprises d'IA pour l'accès aux données destinées à l'entraînement des modèles.
Dans une discussion de mars 2024, Chaya Nayak, directrice de la gestion de produits dans l'organisation d'IA générative de Meta, a déclaré que la direction de Meta envisageait de "contourner" les décisions passées sur les ensembles d'entraînement, y compris une décision de ne pas utiliser le contenu de Quora ou des livres et articles scientifiques sous licence, pour s'assurer que les modèles de l'entreprise disposaient de suffisamment de données d'entraînement.
Nayak a laissé entendre que les ensembles de données d'entraînement propriétaires de Meta — tels que les publications de Facebook et Instagram, le texte transcrit à partir de vidéos sur les plateformes de Meta, et certains messages Meta for Business — n'étaient pas suffisants. "Nous avons besoin de plus de données," a-t-elle écrit.
Les plaignants dans Kadrey v. Meta ont modifié leur plainte à plusieurs reprises depuis le dépôt de l'affaire devant le tribunal de district des États-Unis pour le district nord de la Californie, division de San Francisco, en 2023. La dernière modification allègue que Meta, parmi d'autres revendications, a comparé certains livres piratés avec des livres protégés par le droit d'auteur disponibles pour une licence afin de décider s'il fallait poursuivre un accord de licence avec un éditeur.
En signe de l'importance que Meta accorde aux enjeux juridiques, l'entreprise a ajouté deux avocats plaidants devant la Cour suprême du cabinet Paul Weiss à son équipe de défense pour l'affaire.
Meta n'a pas immédiatement répondu à une demande de commentaire.



Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.




Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。




¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.




I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.




메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.




Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.












