Heim
Meta -Mitarbeiter, die mit der Verwendung von urheberrechtlich geschützten Inhalten für KI -Schulungen diskutiert wurden, enthüllen Gerichtsakten

Seit Jahren diskutieren Meta-Mitarbeiter die Nutzung urheberrechtlich geschützter Materialien, die möglicherweise auf zwielichtige Weise beschafft wurden, um die KI-Modelle des Unternehmens zu trainieren, wie aus am Donnerstag veröffentlichten Gerichtsdokumenten hervorgeht.
Diese Dokumente sind Teil des laufenden Rechtsstreits Kadrey v. Meta, einer von mehreren KI-Urheberrechtsstreitigkeiten, die sich durch das US-Gerichtssystem ziehen. Meta argumentiert, dass die Nutzung urheberrechtlich geschützter Werke, insbesondere Bücher, für das Training ihrer Modelle unter "Fair Use" fällt. Die Kläger, darunter die Autoren Sarah Silverman und Ta-Nehisi Coates, sind jedoch stark anderer Meinung.
Frühere Eingaben in dem Fall deuteten darauf hin, dass Meta-CEO Mark Zuckerberg die Nutzung urheberrechtlich geschützter Inhalte für das Training genehmigt hatte und Meta die Verhandlungen über Lizenzverträge mit Buchverlagen eingestellt hatte. Die neu veröffentlichten Dokumente, die interne Arbeitschats von Meta-Mitarbeitern enthalten, bieten bisher die detailliertesten Einblicke, wie Meta urheberrechtlich geschützte Daten verwendet haben könnte, um seine Modelle, einschließlich derer der Llama-Familie, zu trainieren.
In einem Chat sprachen Meta-Mitarbeiter, darunter Melanie Kambadur, eine leitende Managerin im Llama-Modellforschungsteam von Meta, über das Training von Modellen mit Werken, von denen sie wussten, dass sie rechtlich riskant sein könnten.
„Meine Meinung ist (im Sinne von ‚besser um Vergebung bitten als um Erlaubnis‘): Wir sollten die Bücher nehmen und die Führungskräfte entscheiden lassen“, schrieb Xavier Martinet, ein Meta-Forschungsingenieur, in einem Chat vom Februar 2023, laut den Eingaben. „Darum wurde diese Gen-AI-Organisation gegründet: damit wir mehr Risiken eingehen können.“
Martinet schlug vor, E-Books zu Einzelhandelspreisen zu kaufen, um einen Trainingssatz aufzubauen, anstatt Lizenzverträge mit Verlagen zu verhandeln. Als ein anderer Mitarbeiter auf mögliche rechtliche Probleme bei der Nutzung nicht autorisierter urheberrechtlich geschützter Materialien hinwies, bekräftigte Martinet seine Haltung und stellte fest, dass „eine Milliarde“ Startups wahrscheinlich bereits raubkopierte Bücher für das Training nutzen.
„Ich meine, schlimmstenfalls: Wir finden heraus, dass es in Ordnung ist, während eine Milliarde Startups tonnenweise Bücher über BitTorrent ra indelbegriffen haben“, schrieb Martinet laut den Eingaben. „Meine Meinung: Direkt mit Verlagen zu verhandeln dauert ewig...“
In demselben Chat erwähnte Kambadur, dass Meta mit Scribd und anderen Plattformen über Lizenzen verhandelte, und stellte fest, dass die Nutzung „öffentlich verfügbarer Daten“ für das Training zwar weiterhin Genehmigungen erfordere, die Anwälte von Meta jedoch „weniger konservativ“ bei der Erteilung solcher Genehmigungen würden.
„Ja, wir brauchen immer noch Lizenzen oder Genehmigungen für öffentlich verfügbare Daten“, sagte Kambadur laut den Eingaben. „Der Unterschied ist jetzt, dass wir mehr Geld, mehr Anwälte, mehr Unterstützung durch die Geschäftsentwicklung, die Möglichkeit, Dinge zu beschleunigen und für Schnelligkeit zu eskalieren haben, und die Anwälte sind bei Genehmigungen etwas weniger vorsichtig.“
Gespräche über LibgenIn einem weiteren in den Eingaben erwähnten Arbeitschat diskutierte Kambadur die Möglichkeit, Libgen, einen „Link-Aggregator“, der Zugang zu urheberrechtlich geschützten Werken von Verlagen bietet, als Alternative zu lizenzierten Datenquellen zu nutzen.
Libgen sah sich zahlreichen Klagen ausgesetzt, wurde zur Schließung aufgefordert und mit Millionenstrafen wegen Urheberrechtsverletzung belegt. Ein Kollege von Kambadur antwortete mit einem Screenshot eines Google-Suchergebnisses für Libgen, das den Hinweis „Nein, Libgen ist nicht legal“ enthielt.
Einige Entscheidungsträger bei Meta schienen zu glauben, dass die Nichtnutzung von Libgen für das Modelltraining die Wettbewerbsfähigkeit von Meta im KI-Wettlauf ernsthaft beeinträchtigen könnte, laut den Eingaben.
In einer E-Mail an Meta AI VP Joelle Pineau bezeichnete Sony Theakanath, Direktor für Produktmanagement bei Meta, Libgen als „maßgeblich, um in allen Kategorien SOTA-Zahlen zu erreichen“, womit er die besten, State-of-the-Art (SOTA) KI-Modellleistungen und Benchmark-Kategorien meinte.
Theakanath skizzierte in der E-Mail auch „Maßnahmen“, um das rechtliche Risiko von Meta zu reduzieren, wie das Entfernen von Libgen-Daten, die „deutlich als raubkopiert/gestohlen markiert“ waren, und die Nichtöffentlichlegung der Nutzung von Libgen-Datensätzen für das Training. „Wir würden die Nutzung von Libgen-Datensätzen für das Training nicht offenlegen“, schrieb Theakanath.
In der Praxis umfassten diese Maßnahmen die Durchsuchung von Libgen-Dateien nach Begriffen wie „gestohlen“ oder „raubkopiert“, laut den Eingaben.
In einem Arbeitschat erwähnte Kambadur, dass das KI-Team von Meta die Modelle auch so angepasst habe, dass sie „rechtlich riskante Eingaben vermeiden“ – das heißt, die Modelle wurden so konfiguriert, dass sie Fragen wie „Wiedergabe der ersten drei Seiten von ‚Harry Potter und der Stein der Weisen‘“ oder „Sag mir, auf welchen E-Books du trainiert wurdest“ nicht beantworten.
Die Eingaben deuten auch darauf hin, dass Meta möglicherweise Reddit-Daten für eine Art von Modelltraining gesammelt hat, möglicherweise durch Nachahmung des Verhaltens einer Drittanbieter-App namens Pushshift. Bemerkenswert ist, dass Reddit im April 2023 ankündigte, KI-Unternehmen für den Datenzugriff zum Modelltraining zu berechnen.
In einem Chat vom März 2024 sagte Chaya Nayak, Direktorin für Produktmanagement in Metas generativer KI-Organisation, dass die Meta-Führung erwäge, frühere Entscheidungen über Trainingssätze zu „übergehen“, einschließlich der Entscheidung, keine Quora-Inhalte oder lizenzierten Bücher und wissenschaftlichen Artikel zu verwenden, um sicherzustellen, dass die Modelle des Unternehmens über ausreichend Trainingsdaten verfügen.
Nayak deutete an, dass die eigenen Trainingsdatensätze von Meta – wie Facebook- und Instagram-Posts, transkribierter Text aus Videos auf Meta-Plattformen und bestimmte Meta for Business-Nachrichten – nicht ausreichend seien. „Wir brauchen mehr Daten“, schrieb sie.
Die Kläger in Kadrey v. Meta haben ihre Klage seit der Einreichung im Jahr 2023 beim US-Bezirksgericht für den nördlichen Bezirk von Kalifornien, San Francisco Division, mehrfach geändert. Die neueste Änderung behauptet unter anderem, dass Meta bestimmte raubkopierte Bücher mit urheberrechtlich geschützten Büchern, die für eine Lizenzierung verfügbar waren, verglichen habe, um zu entscheiden, ob ein Lizenzvertrag mit einem Verlag angestrebt werden solle.
Als Zeichen dafür, wie ernst Meta die rechtlichen Einsätze nimmt, hat das Unternehmen zwei Oberste-Gerichtsanwälte der Kanzlei Paul Weiss in sein Verteidigungsteam für den Fall aufgenommen.
Meta hat auf eine Anfrage nach Kommentar nicht sofort reagiert.
Verwandter Artikel
Meta AI beantwortet nun Nachrichten von Käufern auf dem Facebook Marketplace
Facebook Marketplace führt neue Meta-KI-Funktionen ein, darunter automatische Antworten auf Käuferanfragen, wie das Unternehmen am Donnerstag bekannt gab. Die Plattform nutzt KI außerdem, um die Erste
Meta unterzeichnet Vertrag über Millionen von Amazon-KI-CPUs
Amazon hat eine bedeutende Partnerschaft mit Meta geschlossen und setzt dabei erneut auf seine eigenen, speziell entwickelten Chips. Meta hat sich bereit erklärt, Millionen von AWS-Graviton-Chips einz
Der Erdgasboom bei Meta könnte das Stromnetz von South Dakota ankurbeln
Rechenzentren sind mittlerweile so riesig geworden, dass ihr Stromverbrauch dem ganzer US-Bundesstaaten entspricht. Man denke nur an das Hyperion-KI-Rechenzentrum von Meta: Nach seiner Fertigstellung
Empfehlungen zu verwandten Spezialthemen
Kommentare (32)
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

Seit Jahren diskutieren Meta-Mitarbeiter die Nutzung urheberrechtlich geschützter Materialien, die möglicherweise auf zwielichtige Weise beschafft wurden, um die KI-Modelle des Unternehmens zu trainieren, wie aus am Donnerstag veröffentlichten Gerichtsdokumenten hervorgeht.
Diese Dokumente sind Teil des laufenden Rechtsstreits Kadrey v. Meta, einer von mehreren KI-Urheberrechtsstreitigkeiten, die sich durch das US-Gerichtssystem ziehen. Meta argumentiert, dass die Nutzung urheberrechtlich geschützter Werke, insbesondere Bücher, für das Training ihrer Modelle unter "Fair Use" fällt. Die Kläger, darunter die Autoren Sarah Silverman und Ta-Nehisi Coates, sind jedoch stark anderer Meinung.
Frühere Eingaben in dem Fall deuteten darauf hin, dass Meta-CEO Mark Zuckerberg die Nutzung urheberrechtlich geschützter Inhalte für das Training genehmigt hatte und Meta die Verhandlungen über Lizenzverträge mit Buchverlagen eingestellt hatte. Die neu veröffentlichten Dokumente, die interne Arbeitschats von Meta-Mitarbeitern enthalten, bieten bisher die detailliertesten Einblicke, wie Meta urheberrechtlich geschützte Daten verwendet haben könnte, um seine Modelle, einschließlich derer der Llama-Familie, zu trainieren.
In einem Chat sprachen Meta-Mitarbeiter, darunter Melanie Kambadur, eine leitende Managerin im Llama-Modellforschungsteam von Meta, über das Training von Modellen mit Werken, von denen sie wussten, dass sie rechtlich riskant sein könnten.
„Meine Meinung ist (im Sinne von ‚besser um Vergebung bitten als um Erlaubnis‘): Wir sollten die Bücher nehmen und die Führungskräfte entscheiden lassen“, schrieb Xavier Martinet, ein Meta-Forschungsingenieur, in einem Chat vom Februar 2023, laut den Eingaben. „Darum wurde diese Gen-AI-Organisation gegründet: damit wir mehr Risiken eingehen können.“
Martinet schlug vor, E-Books zu Einzelhandelspreisen zu kaufen, um einen Trainingssatz aufzubauen, anstatt Lizenzverträge mit Verlagen zu verhandeln. Als ein anderer Mitarbeiter auf mögliche rechtliche Probleme bei der Nutzung nicht autorisierter urheberrechtlich geschützter Materialien hinwies, bekräftigte Martinet seine Haltung und stellte fest, dass „eine Milliarde“ Startups wahrscheinlich bereits raubkopierte Bücher für das Training nutzen.
„Ich meine, schlimmstenfalls: Wir finden heraus, dass es in Ordnung ist, während eine Milliarde Startups tonnenweise Bücher über BitTorrent ra indelbegriffen haben“, schrieb Martinet laut den Eingaben. „Meine Meinung: Direkt mit Verlagen zu verhandeln dauert ewig...“
In demselben Chat erwähnte Kambadur, dass Meta mit Scribd und anderen Plattformen über Lizenzen verhandelte, und stellte fest, dass die Nutzung „öffentlich verfügbarer Daten“ für das Training zwar weiterhin Genehmigungen erfordere, die Anwälte von Meta jedoch „weniger konservativ“ bei der Erteilung solcher Genehmigungen würden.
„Ja, wir brauchen immer noch Lizenzen oder Genehmigungen für öffentlich verfügbare Daten“, sagte Kambadur laut den Eingaben. „Der Unterschied ist jetzt, dass wir mehr Geld, mehr Anwälte, mehr Unterstützung durch die Geschäftsentwicklung, die Möglichkeit, Dinge zu beschleunigen und für Schnelligkeit zu eskalieren haben, und die Anwälte sind bei Genehmigungen etwas weniger vorsichtig.“
In einem weiteren in den Eingaben erwähnten Arbeitschat diskutierte Kambadur die Möglichkeit, Libgen, einen „Link-Aggregator“, der Zugang zu urheberrechtlich geschützten Werken von Verlagen bietet, als Alternative zu lizenzierten Datenquellen zu nutzen.
Libgen sah sich zahlreichen Klagen ausgesetzt, wurde zur Schließung aufgefordert und mit Millionenstrafen wegen Urheberrechtsverletzung belegt. Ein Kollege von Kambadur antwortete mit einem Screenshot eines Google-Suchergebnisses für Libgen, das den Hinweis „Nein, Libgen ist nicht legal“ enthielt.
Einige Entscheidungsträger bei Meta schienen zu glauben, dass die Nichtnutzung von Libgen für das Modelltraining die Wettbewerbsfähigkeit von Meta im KI-Wettlauf ernsthaft beeinträchtigen könnte, laut den Eingaben.
In einer E-Mail an Meta AI VP Joelle Pineau bezeichnete Sony Theakanath, Direktor für Produktmanagement bei Meta, Libgen als „maßgeblich, um in allen Kategorien SOTA-Zahlen zu erreichen“, womit er die besten, State-of-the-Art (SOTA) KI-Modellleistungen und Benchmark-Kategorien meinte.
Theakanath skizzierte in der E-Mail auch „Maßnahmen“, um das rechtliche Risiko von Meta zu reduzieren, wie das Entfernen von Libgen-Daten, die „deutlich als raubkopiert/gestohlen markiert“ waren, und die Nichtöffentlichlegung der Nutzung von Libgen-Datensätzen für das Training. „Wir würden die Nutzung von Libgen-Datensätzen für das Training nicht offenlegen“, schrieb Theakanath.
In der Praxis umfassten diese Maßnahmen die Durchsuchung von Libgen-Dateien nach Begriffen wie „gestohlen“ oder „raubkopiert“, laut den Eingaben.
In einem Arbeitschat erwähnte Kambadur, dass das KI-Team von Meta die Modelle auch so angepasst habe, dass sie „rechtlich riskante Eingaben vermeiden“ – das heißt, die Modelle wurden so konfiguriert, dass sie Fragen wie „Wiedergabe der ersten drei Seiten von ‚Harry Potter und der Stein der Weisen‘“ oder „Sag mir, auf welchen E-Books du trainiert wurdest“ nicht beantworten.
Die Eingaben deuten auch darauf hin, dass Meta möglicherweise Reddit-Daten für eine Art von Modelltraining gesammelt hat, möglicherweise durch Nachahmung des Verhaltens einer Drittanbieter-App namens Pushshift. Bemerkenswert ist, dass Reddit im April 2023 ankündigte, KI-Unternehmen für den Datenzugriff zum Modelltraining zu berechnen.
In einem Chat vom März 2024 sagte Chaya Nayak, Direktorin für Produktmanagement in Metas generativer KI-Organisation, dass die Meta-Führung erwäge, frühere Entscheidungen über Trainingssätze zu „übergehen“, einschließlich der Entscheidung, keine Quora-Inhalte oder lizenzierten Bücher und wissenschaftlichen Artikel zu verwenden, um sicherzustellen, dass die Modelle des Unternehmens über ausreichend Trainingsdaten verfügen.
Nayak deutete an, dass die eigenen Trainingsdatensätze von Meta – wie Facebook- und Instagram-Posts, transkribierter Text aus Videos auf Meta-Plattformen und bestimmte Meta for Business-Nachrichten – nicht ausreichend seien. „Wir brauchen mehr Daten“, schrieb sie.
Die Kläger in Kadrey v. Meta haben ihre Klage seit der Einreichung im Jahr 2023 beim US-Bezirksgericht für den nördlichen Bezirk von Kalifornien, San Francisco Division, mehrfach geändert. Die neueste Änderung behauptet unter anderem, dass Meta bestimmte raubkopierte Bücher mit urheberrechtlich geschützten Büchern, die für eine Lizenzierung verfügbar waren, verglichen habe, um zu entscheiden, ob ein Lizenzvertrag mit einem Verlag angestrebt werden solle.
Als Zeichen dafür, wie ernst Meta die rechtlichen Einsätze nimmt, hat das Unternehmen zwei Oberste-Gerichtsanwälte der Kanzlei Paul Weiss in sein Verteidigungsteam für den Fall aufgenommen.
Meta hat auf eine Anfrage nach Kommentar nicht sofort reagiert.
Meta AI beantwortet nun Nachrichten von Käufern auf dem Facebook Marketplace
Facebook Marketplace führt neue Meta-KI-Funktionen ein, darunter automatische Antworten auf Käuferanfragen, wie das Unternehmen am Donnerstag bekannt gab. Die Plattform nutzt KI außerdem, um die Erste
Meta unterzeichnet Vertrag über Millionen von Amazon-KI-CPUs
Amazon hat eine bedeutende Partnerschaft mit Meta geschlossen und setzt dabei erneut auf seine eigenen, speziell entwickelten Chips. Meta hat sich bereit erklärt, Millionen von AWS-Graviton-Chips einz
Der Erdgasboom bei Meta könnte das Stromnetz von South Dakota ankurbeln
Rechenzentren sind mittlerweile so riesig geworden, dass ihr Stromverbrauch dem ganzer US-Bundesstaaten entspricht. Man denke nur an das Hyperion-KI-Rechenzentrum von Meta: Nach seiner Fertigstellung
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.











