Meta -Mitarbeiter, die mit der Verwendung von urheberrechtlich geschützten Inhalten für KI -Schulungen diskutiert wurden, enthüllen Gerichtsakten

Heim

Nachricht

10. April 2025

JosephEvans

# meta # Lawsuit

Meta -Mitarbeiter, die mit der Verwendung von urheberrechtlich geschützten Inhalten für KI -Schulungen diskutiert wurden, enthüllen Gerichtsakten

Seit Jahren diskutieren Meta-Mitarbeiter die Nutzung urheberrechtlich geschützter Materialien, die möglicherweise auf zwielichtige Weise beschafft wurden, um die KI-Modelle des Unternehmens zu trainieren, wie aus am Donnerstag veröffentlichten Gerichtsdokumenten hervorgeht.

Diese Dokumente sind Teil des laufenden Rechtsstreits Kadrey v. Meta, einer von mehreren KI-Urheberrechtsstreitigkeiten, die sich durch das US-Gerichtssystem ziehen. Meta argumentiert, dass die Nutzung urheberrechtlich geschützter Werke, insbesondere Bücher, für das Training ihrer Modelle unter "Fair Use" fällt. Die Kläger, darunter die Autoren Sarah Silverman und Ta-Nehisi Coates, sind jedoch stark anderer Meinung.

Frühere Eingaben in dem Fall deuteten darauf hin, dass Meta-CEO Mark Zuckerberg die Nutzung urheberrechtlich geschützter Inhalte für das Training genehmigt hatte und Meta die Verhandlungen über Lizenzverträge mit Buchverlagen eingestellt hatte. Die neu veröffentlichten Dokumente, die interne Arbeitschats von Meta-Mitarbeitern enthalten, bieten bisher die detailliertesten Einblicke, wie Meta urheberrechtlich geschützte Daten verwendet haben könnte, um seine Modelle, einschließlich derer der Llama-Familie, zu trainieren.

In einem Chat sprachen Meta-Mitarbeiter, darunter Melanie Kambadur, eine leitende Managerin im Llama-Modellforschungsteam von Meta, über das Training von Modellen mit Werken, von denen sie wussten, dass sie rechtlich riskant sein könnten.

„Meine Meinung ist (im Sinne von ‚besser um Vergebung bitten als um Erlaubnis‘): Wir sollten die Bücher nehmen und die Führungskräfte entscheiden lassen“, schrieb Xavier Martinet, ein Meta-Forschungsingenieur, in einem Chat vom Februar 2023, laut den Eingaben. „Darum wurde diese Gen-AI-Organisation gegründet: damit wir mehr Risiken eingehen können.“

Martinet schlug vor, E-Books zu Einzelhandelspreisen zu kaufen, um einen Trainingssatz aufzubauen, anstatt Lizenzverträge mit Verlagen zu verhandeln. Als ein anderer Mitarbeiter auf mögliche rechtliche Probleme bei der Nutzung nicht autorisierter urheberrechtlich geschützter Materialien hinwies, bekräftigte Martinet seine Haltung und stellte fest, dass „eine Milliarde“ Startups wahrscheinlich bereits raubkopierte Bücher für das Training nutzen.

„Ich meine, schlimmstenfalls: Wir finden heraus, dass es in Ordnung ist, während eine Milliarde Startups tonnenweise Bücher über BitTorrent ra indelbegriffen haben“, schrieb Martinet laut den Eingaben. „Meine Meinung: Direkt mit Verlagen zu verhandeln dauert ewig...“

In demselben Chat erwähnte Kambadur, dass Meta mit Scribd und anderen Plattformen über Lizenzen verhandelte, und stellte fest, dass die Nutzung „öffentlich verfügbarer Daten“ für das Training zwar weiterhin Genehmigungen erfordere, die Anwälte von Meta jedoch „weniger konservativ“ bei der Erteilung solcher Genehmigungen würden.

„Ja, wir brauchen immer noch Lizenzen oder Genehmigungen für öffentlich verfügbare Daten“, sagte Kambadur laut den Eingaben. „Der Unterschied ist jetzt, dass wir mehr Geld, mehr Anwälte, mehr Unterstützung durch die Geschäftsentwicklung, die Möglichkeit, Dinge zu beschleunigen und für Schnelligkeit zu eskalieren haben, und die Anwälte sind bei Genehmigungen etwas weniger vorsichtig.“

Gespräche über Libgen

In einem weiteren in den Eingaben erwähnten Arbeitschat diskutierte Kambadur die Möglichkeit, Libgen, einen „Link-Aggregator“, der Zugang zu urheberrechtlich geschützten Werken von Verlagen bietet, als Alternative zu lizenzierten Datenquellen zu nutzen.

Libgen sah sich zahlreichen Klagen ausgesetzt, wurde zur Schließung aufgefordert und mit Millionenstrafen wegen Urheberrechtsverletzung belegt. Ein Kollege von Kambadur antwortete mit einem Screenshot eines Google-Suchergebnisses für Libgen, das den Hinweis „Nein, Libgen ist nicht legal“ enthielt.

Einige Entscheidungsträger bei Meta schienen zu glauben, dass die Nichtnutzung von Libgen für das Modelltraining die Wettbewerbsfähigkeit von Meta im KI-Wettlauf ernsthaft beeinträchtigen könnte, laut den Eingaben.

In einer E-Mail an Meta AI VP Joelle Pineau bezeichnete Sony Theakanath, Direktor für Produktmanagement bei Meta, Libgen als „maßgeblich, um in allen Kategorien SOTA-Zahlen zu erreichen“, womit er die besten, State-of-the-Art (SOTA) KI-Modellleistungen und Benchmark-Kategorien meinte.

Theakanath skizzierte in der E-Mail auch „Maßnahmen“, um das rechtliche Risiko von Meta zu reduzieren, wie das Entfernen von Libgen-Daten, die „deutlich als raubkopiert/gestohlen markiert“ waren, und die Nichtöffentlichlegung der Nutzung von Libgen-Datensätzen für das Training. „Wir würden die Nutzung von Libgen-Datensätzen für das Training nicht offenlegen“, schrieb Theakanath.

In der Praxis umfassten diese Maßnahmen die Durchsuchung von Libgen-Dateien nach Begriffen wie „gestohlen“ oder „raubkopiert“, laut den Eingaben.

In einem Arbeitschat erwähnte Kambadur, dass das KI-Team von Meta die Modelle auch so angepasst habe, dass sie „rechtlich riskante Eingaben vermeiden“ – das heißt, die Modelle wurden so konfiguriert, dass sie Fragen wie „Wiedergabe der ersten drei Seiten von ‚Harry Potter und der Stein der Weisen‘“ oder „Sag mir, auf welchen E-Books du trainiert wurdest“ nicht beantworten.

Die Eingaben deuten auch darauf hin, dass Meta möglicherweise Reddit-Daten für eine Art von Modelltraining gesammelt hat, möglicherweise durch Nachahmung des Verhaltens einer Drittanbieter-App namens Pushshift. Bemerkenswert ist, dass Reddit im April 2023 ankündigte, KI-Unternehmen für den Datenzugriff zum Modelltraining zu berechnen.

In einem Chat vom März 2024 sagte Chaya Nayak, Direktorin für Produktmanagement in Metas generativer KI-Organisation, dass die Meta-Führung erwäge, frühere Entscheidungen über Trainingssätze zu „übergehen“, einschließlich der Entscheidung, keine Quora-Inhalte oder lizenzierten Bücher und wissenschaftlichen Artikel zu verwenden, um sicherzustellen, dass die Modelle des Unternehmens über ausreichend Trainingsdaten verfügen.

Nayak deutete an, dass die eigenen Trainingsdatensätze von Meta – wie Facebook- und Instagram-Posts, transkribierter Text aus Videos auf Meta-Plattformen und bestimmte Meta for Business-Nachrichten – nicht ausreichend seien. „Wir brauchen mehr Daten“, schrieb sie.

Die Kläger in Kadrey v. Meta haben ihre Klage seit der Einreichung im Jahr 2023 beim US-Bezirksgericht für den nördlichen Bezirk von Kalifornien, San Francisco Division, mehrfach geändert. Die neueste Änderung behauptet unter anderem, dass Meta bestimmte raubkopierte Bücher mit urheberrechtlich geschützten Büchern, die für eine Lizenzierung verfügbar waren, verglichen habe, um zu entscheiden, ob ein Lizenzvertrag mit einem Verlag angestrebt werden solle.

Als Zeichen dafür, wie ernst Meta die rechtlichen Einsätze nimmt, hat das Unternehmen zwei Oberste-Gerichtsanwälte der Kanzlei Paul Weiss in sein Verteidigungsteam für den Fall aufgenommen.

Meta hat auf eine Anfrage nach Kommentar nicht sofort reagiert.

Verwandter Artikel

Metas Zuckerberg sagt, dass nicht alle KI-"Superintelligenz"-Modelle offen zugänglich sein werden Metas Strategiewechsel hin zu persönlicher SuperintelligenzMeta-CEO Mark Zuckerberg skizzierte diese Woche eine ehrgeizige Vision für "persönliche Superintelligenz" - KI-Systeme, die Einzelpersonen in

Metas KI nimmt die Videovertonung für Instagram-Inhalte in Angriff Meta erweitert den Zugang zu seiner bahnbrechenden KI-gesteuerten Synchronisationstechnologie auf Facebook und Instagram und führt nahtlose Videoübersetzungsfunktionen ein, die Ihre authentische Stimm

Meta AI App führt Premium-Stufe und Werbung ein Die AI-App von Meta könnte bald ein kostenpflichtiges Abonnement einführen, ähnlich den Angeboten von Konkurrenten wie OpenAI, Google und Microsoft. Während eines Q1 2025 Earnings Calls skizzierte Met

Kommentare (30)

0/200

Einreichen

PeterMartinez

24. April 2025 20:59:57 MESZ

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell

24. April 2025 04:42:41 MESZ

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました！🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez

21. April 2025 22:19:31 MESZ

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams

19. April 2025 11:15:40 MESZ

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen

19. April 2025 10:39:52 MESZ

CharlesWhite

12. April 2025 15:05:28 MESZ

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung Die KI von Cambium verwandelt Abfall Holz in Holz OpenAI verbessert den AI -Sprachassistenten für bessere Chats So stellen Sie sicher, dass Ihre Daten für die KI -Integration vertrauenswürdig sind NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten Google nutzt KI, um über 39 Millionen Anzeigenkonten für mutmaßlichen Betrug auszusetzen Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung

Mehr

Vorgestellt