Option
Heim
Nachricht
Meta -Mitarbeiter, die mit der Verwendung von urheberrechtlich geschützten Inhalten für KI -Schulungen diskutiert wurden, enthüllen Gerichtsakten

Meta -Mitarbeiter, die mit der Verwendung von urheberrechtlich geschützten Inhalten für KI -Schulungen diskutiert wurden, enthüllen Gerichtsakten

10. April 2025
86

Meta -Mitarbeiter, die mit der Verwendung von urheberrechtlich geschützten Inhalten für KI -Schulungen diskutiert wurden, enthüllen Gerichtsakten

Seit Jahren diskutieren Meta-Mitarbeiter die Nutzung urheberrechtlich geschützter Materialien, die möglicherweise auf zwielichtige Weise beschafft wurden, um die KI-Modelle des Unternehmens zu trainieren, wie aus am Donnerstag veröffentlichten Gerichtsdokumenten hervorgeht.

Diese Dokumente sind Teil des laufenden Rechtsstreits Kadrey v. Meta, einer von mehreren KI-Urheberrechtsstreitigkeiten, die sich durch das US-Gerichtssystem ziehen. Meta argumentiert, dass die Nutzung urheberrechtlich geschützter Werke, insbesondere Bücher, für das Training ihrer Modelle unter "Fair Use" fällt. Die Kläger, darunter die Autoren Sarah Silverman und Ta-Nehisi Coates, sind jedoch stark anderer Meinung.

Frühere Eingaben in dem Fall deuteten darauf hin, dass Meta-CEO Mark Zuckerberg die Nutzung urheberrechtlich geschützter Inhalte für das Training genehmigt hatte und Meta die Verhandlungen über Lizenzverträge mit Buchverlagen eingestellt hatte. Die neu veröffentlichten Dokumente, die interne Arbeitschats von Meta-Mitarbeitern enthalten, bieten bisher die detailliertesten Einblicke, wie Meta urheberrechtlich geschützte Daten verwendet haben könnte, um seine Modelle, einschließlich derer der Llama-Familie, zu trainieren.

In einem Chat sprachen Meta-Mitarbeiter, darunter Melanie Kambadur, eine leitende Managerin im Llama-Modellforschungsteam von Meta, über das Training von Modellen mit Werken, von denen sie wussten, dass sie rechtlich riskant sein könnten.

„Meine Meinung ist (im Sinne von ‚besser um Vergebung bitten als um Erlaubnis‘): Wir sollten die Bücher nehmen und die Führungskräfte entscheiden lassen“, schrieb Xavier Martinet, ein Meta-Forschungsingenieur, in einem Chat vom Februar 2023, laut den Eingaben. „Darum wurde diese Gen-AI-Organisation gegründet: damit wir mehr Risiken eingehen können.“

Martinet schlug vor, E-Books zu Einzelhandelspreisen zu kaufen, um einen Trainingssatz aufzubauen, anstatt Lizenzverträge mit Verlagen zu verhandeln. Als ein anderer Mitarbeiter auf mögliche rechtliche Probleme bei der Nutzung nicht autorisierter urheberrechtlich geschützter Materialien hinwies, bekräftigte Martinet seine Haltung und stellte fest, dass „eine Milliarde“ Startups wahrscheinlich bereits raubkopierte Bücher für das Training nutzen.

„Ich meine, schlimmstenfalls: Wir finden heraus, dass es in Ordnung ist, während eine Milliarde Startups tonnenweise Bücher über BitTorrent ra indelbegriffen haben“, schrieb Martinet laut den Eingaben. „Meine Meinung: Direkt mit Verlagen zu verhandeln dauert ewig...“

In demselben Chat erwähnte Kambadur, dass Meta mit Scribd und anderen Plattformen über Lizenzen verhandelte, und stellte fest, dass die Nutzung „öffentlich verfügbarer Daten“ für das Training zwar weiterhin Genehmigungen erfordere, die Anwälte von Meta jedoch „weniger konservativ“ bei der Erteilung solcher Genehmigungen würden.

„Ja, wir brauchen immer noch Lizenzen oder Genehmigungen für öffentlich verfügbare Daten“, sagte Kambadur laut den Eingaben. „Der Unterschied ist jetzt, dass wir mehr Geld, mehr Anwälte, mehr Unterstützung durch die Geschäftsentwicklung, die Möglichkeit, Dinge zu beschleunigen und für Schnelligkeit zu eskalieren haben, und die Anwälte sind bei Genehmigungen etwas weniger vorsichtig.“

Gespräche über Libgen

In einem weiteren in den Eingaben erwähnten Arbeitschat diskutierte Kambadur die Möglichkeit, Libgen, einen „Link-Aggregator“, der Zugang zu urheberrechtlich geschützten Werken von Verlagen bietet, als Alternative zu lizenzierten Datenquellen zu nutzen.

Libgen sah sich zahlreichen Klagen ausgesetzt, wurde zur Schließung aufgefordert und mit Millionenstrafen wegen Urheberrechtsverletzung belegt. Ein Kollege von Kambadur antwortete mit einem Screenshot eines Google-Suchergebnisses für Libgen, das den Hinweis „Nein, Libgen ist nicht legal“ enthielt.

Einige Entscheidungsträger bei Meta schienen zu glauben, dass die Nichtnutzung von Libgen für das Modelltraining die Wettbewerbsfähigkeit von Meta im KI-Wettlauf ernsthaft beeinträchtigen könnte, laut den Eingaben.

In einer E-Mail an Meta AI VP Joelle Pineau bezeichnete Sony Theakanath, Direktor für Produktmanagement bei Meta, Libgen als „maßgeblich, um in allen Kategorien SOTA-Zahlen zu erreichen“, womit er die besten, State-of-the-Art (SOTA) KI-Modellleistungen und Benchmark-Kategorien meinte.

Theakanath skizzierte in der E-Mail auch „Maßnahmen“, um das rechtliche Risiko von Meta zu reduzieren, wie das Entfernen von Libgen-Daten, die „deutlich als raubkopiert/gestohlen markiert“ waren, und die Nichtöffentlichlegung der Nutzung von Libgen-Datensätzen für das Training. „Wir würden die Nutzung von Libgen-Datensätzen für das Training nicht offenlegen“, schrieb Theakanath.

In der Praxis umfassten diese Maßnahmen die Durchsuchung von Libgen-Dateien nach Begriffen wie „gestohlen“ oder „raubkopiert“, laut den Eingaben.

In einem Arbeitschat erwähnte Kambadur, dass das KI-Team von Meta die Modelle auch so angepasst habe, dass sie „rechtlich riskante Eingaben vermeiden“ – das heißt, die Modelle wurden so konfiguriert, dass sie Fragen wie „Wiedergabe der ersten drei Seiten von ‚Harry Potter und der Stein der Weisen‘“ oder „Sag mir, auf welchen E-Books du trainiert wurdest“ nicht beantworten.

Die Eingaben deuten auch darauf hin, dass Meta möglicherweise Reddit-Daten für eine Art von Modelltraining gesammelt hat, möglicherweise durch Nachahmung des Verhaltens einer Drittanbieter-App namens Pushshift. Bemerkenswert ist, dass Reddit im April 2023 ankündigte, KI-Unternehmen für den Datenzugriff zum Modelltraining zu berechnen.

In einem Chat vom März 2024 sagte Chaya Nayak, Direktorin für Produktmanagement in Metas generativer KI-Organisation, dass die Meta-Führung erwäge, frühere Entscheidungen über Trainingssätze zu „übergehen“, einschließlich der Entscheidung, keine Quora-Inhalte oder lizenzierten Bücher und wissenschaftlichen Artikel zu verwenden, um sicherzustellen, dass die Modelle des Unternehmens über ausreichend Trainingsdaten verfügen.

Nayak deutete an, dass die eigenen Trainingsdatensätze von Meta – wie Facebook- und Instagram-Posts, transkribierter Text aus Videos auf Meta-Plattformen und bestimmte Meta for Business-Nachrichten – nicht ausreichend seien. „Wir brauchen mehr Daten“, schrieb sie.

Die Kläger in Kadrey v. Meta haben ihre Klage seit der Einreichung im Jahr 2023 beim US-Bezirksgericht für den nördlichen Bezirk von Kalifornien, San Francisco Division, mehrfach geändert. Die neueste Änderung behauptet unter anderem, dass Meta bestimmte raubkopierte Bücher mit urheberrechtlich geschützten Büchern, die für eine Lizenzierung verfügbar waren, verglichen habe, um zu entscheiden, ob ein Lizenzvertrag mit einem Verlag angestrebt werden solle.

Als Zeichen dafür, wie ernst Meta die rechtlichen Einsätze nimmt, hat das Unternehmen zwei Oberste-Gerichtsanwälte der Kanzlei Paul Weiss in sein Verteidigungsteam für den Fall aufgenommen.

Meta hat auf eine Anfrage nach Kommentar nicht sofort reagiert.

Verwandter Artikel
Google verpflichtet sich zum EU-Kodex für KI inmitten von Branchendiskussionen Google verpflichtet sich zum EU-Kodex für KI inmitten von Branchendiskussionen Google hat sich verpflichtet, den freiwilligen KI-Kodex der Europäischen Union zu übernehmen, ein Rahmenwerk, das darauf abzielt, KI-Entwicklern zu helfen, mit dem EU-KI-Gesetz konforme Prozesse und S
Meta bietet hohe Gehälter für KI-Talente, bestreitet 100-Millionen-Dollar-Unterschriftsboni Meta bietet hohe Gehälter für KI-Talente, bestreitet 100-Millionen-Dollar-Unterschriftsboni Meta lockt KI-Forscher in sein neues Superintelligenz-Labor mit beträchtlichen Millionen-Dollar-Vergütungspaketen. Behauptungen über 100-Millionen-Dollar-"Unterschriftsboni" sind jedoch laut einem rek
Meta verbessert KI-Sicherheit mit fortschrittlichen Llama-Tools Meta verbessert KI-Sicherheit mit fortschrittlichen Llama-Tools Meta hat neue Llama-Sicherheitstools veröffentlicht, um die KI-Entwicklung zu stärken und vor neuen Bedrohungen zu schützen.Diese verbesserten Llama-KI-Modell-Sicherheitstools werden mit neuen Ressour
Kommentare (30)
0/200
PeterMartinez
PeterMartinez 24. April 2025 20:59:57 MESZ

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 24. April 2025 04:42:41 MESZ

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 21. April 2025 22:19:31 MESZ

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 19. April 2025 11:15:40 MESZ

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen
StevenAllen 19. April 2025 10:39:52 MESZ

메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.

CharlesWhite
CharlesWhite 12. April 2025 15:05:28 MESZ

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

Zurück nach oben
OR