Option
Heim
Nachricht
Meta -Mitarbeiter, die mit der Verwendung von urheberrechtlich geschützten Inhalten für KI -Schulungen diskutiert wurden, enthüllen Gerichtsakten

Meta -Mitarbeiter, die mit der Verwendung von urheberrechtlich geschützten Inhalten für KI -Schulungen diskutiert wurden, enthüllen Gerichtsakten

10. April 2025
65

Meta -Mitarbeiter, die mit der Verwendung von urheberrechtlich geschützten Inhalten für KI -Schulungen diskutiert wurden, enthüllen Gerichtsakten

Seit Jahren diskutieren Meta -Mitarbeiter die Verwendung von urheberrechtlich geschützten Materialien, die mit potenziell zwielichtigen Mitteln erhalten wurden, um die KI -Modelle des Unternehmens laut Gerichtsdokumenten auszubilden, die am Donnerstag nicht versiegelt wurden.

Diese Dokumente waren Teil der laufenden Klage Kadrey gegen Meta, einer von mehreren AI -Urheberrechtsstreitigkeiten, die sich durch das US -Gerichtssystem bewegten. Meta argumentiert, dass die Verwendung von IP-geschützten Werken, insbesondere Büchern, für das Training ihrer Modelle unter "faire Verwendung" fällt. Die Kläger, darunter die Autoren Sarah Silverman und Ta-Nehisi Coates, sind sich jedoch stark nicht einig.

Frühere Einreichungen in dem Fall deuten darauf hin, dass Meta -CEO Mark Zuckerberg die Verwendung von urheberrechtlich geschützten Inhalten für Schulungen genehmigt hatte und dass Meta die Verhandlung von Lizenzverträgen mit Buchverlagern eingestellt hatte. Die neu nicht versiegelten Dokumente, die interne Arbeitsplätze zwischen Meta -Mitarbeitern enthalten, bieten den detailliertesten Einblick in die Art und Weise, wie Meta möglicherweise urheberrechtlich geschützte Daten verwendet hat, um seine Modelle zu schulen, einschließlich derer in der Lama -Familie.

In einem Chat sprachen Meta -Mitarbeiter, darunter Melanie Kambadur, ein Senior Manager im Lama Model Research Team von Meta, über Schulungsmodelle zu Arbeiten, von denen sie wussten, dass sie rechtlich riskant sein könnten.

"Meine Einstellung ist (im Sinne von 'Affinging, nicht die Erlaubnis'): Wir sollten die Bücher schnappen und die Manager entscheiden lassen", schrieb Xavier Martinet, ein Meta -Forschungsingenieur, in einem Chat im Februar 2023 laut den Einreichungen. "Deshalb haben sie diese Gen Ai Org geschaffen: damit wir mehr Risiken eingehen können."

Martinet schlug vor, E-Books zu Einzelhandelspreisen zu kaufen, um ein Schulungssatz zu erstellen, anstatt Lizenzverträge mit Verlage zu verhandeln. Als ein anderer Mitarbeiter auf die potenziellen rechtlichen Probleme bei der Verwendung von nicht autorisierten urheberrechtlich geschützten Materialien hinwies, verdoppelte sich Martinet und stellte fest, dass "eine Start -ups" -Startups wahrscheinlich bereits Raubbücher für die Ausbildung verwendeten.

"Ich meine, schlimmster Fall: Wir finden "Meine zwei Cents wieder: Der direkte Umgang mit Publishers braucht ewig ..."

Im selben Chat stellte Kambadur, der erwähnte, dass Meta mit Scribd und anderen Plattformen für Lizenzen verhandelte, fest, dass die Anwälte von Meta, obwohl sie "öffentlich verfügbare Daten" für die Schulung für Schulungen benötigten, "weniger konservativ" wurden, um solche Genehmigungen zu gewähren.

"Ja, wir müssen noch Lizenzen oder Genehmigungen für öffentlich verfügbare Daten erhalten", sagte Kambadur laut den Einreichungen. "Der Unterschied besteht nun darin, dass wir mehr Geld, mehr Anwälte, mehr Geschäftsentwicklungshilfe, die Fähigkeit haben, Geschwindigkeit zu fasten und zu eskalieren, und die Anwälte sind mit Genehmigungen etwas weniger vorsichtig."

Gespräche von Libgen

In einem anderen in den Einreichungen erwähnten Arbeitsplatten erörterte Kambadur die Möglichkeit, Libgen, einen "Links -Aggregator", zu verwenden, der Zugriff auf urheberrechtlich geschützte Werke von Publishern als Alternative zu lizenzierten Datenquellen bietet.

Libgen wurde mit zahlreichen Klagen konfrontiert, wurde zur Schließung angewiesen und wurde wegen Urheberrechtsverletzungen mit einer Geldstrafe von Millionen Dollar belegt. Einer von Kambadurs Kollegen antwortete mit einem Screenshot eines Google -Suchergebnisses für Libgen, das den Snippet "Nein, Libgen ist nicht legal" enthielt.

Einige Entscheidungsträger von Meta schienen zu glauben, dass die Nichtverwaltung von Libgen für das Modelltraining laut den Einreichungen die Wettbewerbsfähigkeit von Meta im KI-Rennen ernsthaft beeinflussen könnte.

In einer E-Mail an Meta AI VP Joelle Pineau, Sony Theakanath, Director of Product Management bei Meta, namens Libgen "Essential, um SOTA-Nummern in allen Kategorien zu erfüllen", wobei sie sich auf die Erreichung der besten KI-Modellleistung und Benchmark-Kategorien beziehen.

Theakanath skizzierte auch "Minderungen" in der E -Mail, um die rechtliche Exposition von Meta zu verringern, z. B. das Entfernen von Daten aus Libgen, die "klar als Raubkopie/gestohlen" gekennzeichnet waren und die Verwendung von Libgen -Datensätzen für die Schulung nicht öffentlich offenlegen. "Wir würden die Verwendung von Libgen -Datensätzen, die zum Training verwendet werden, nicht offenlegen", schrieb Theakanath.

In der Praxis beinhalteten diese Minderungen die Suche nach Libgen -Dateien nach Wörtern wie "gestohlen" oder "Raubkopien" gemäß den Einreichungen.

In einem Arbeits-Chat erwähnte Kambadur, dass das KI-Team von Meta auch Modelle anpasste, um "iP-riskante Eingabeaufforderungen zu vermeiden"-dh die Modelle konfigurierten es, Fragen zu beantworten, wie "die ersten drei Seiten von" Harry Potter "und" The Sorcerer's Stone "reproduzieren" oder "Sagen Sie mir, auf welchen E-Books Sie trainiert wurden".

Die Einreichungen legen auch nahe, dass Meta möglicherweise Reddit-Daten für eine Art von Modelltraining abgeschafft hat, möglicherweise indem sie das Verhalten einer Drittanbieter-App namens Pushshift nachahmt. Insbesondere kündigte Reddit im April 2023 an, dass es vorhatte, KI -Unternehmen für den Zugriff auf Daten für die Modelltraining zu berechnen.

In einem Chat im März 2024 sagte Chaya Nayak, Direktorin des Produktmanagements bei META von Generative AI Org, dass die Meta -Führung in Betracht gezogen habe, vergangene Entscheidungen an Schulungssätzen zu "überschrieben", einschließlich der Entscheidung, keine Quora -Inhalte oder lizenzierten Bücher und wissenschaftlichen Artikel zu verwenden, um sicherzustellen, dass die Modelle des Unternehmens genügend Trainingsdaten haben.

Nayak implizierte, dass die Erstanbieter-Schulungsdatensätze von Meta-wie Facebook- und Instagram-Posts, Text aus Videos auf Meta-Plattformen und bestimmte Meta für Geschäftsnachrichten-nicht ausreichend waren. "Wir brauchen mehr Daten", schrieb sie.

Die Kläger in Kadrey gegen Meta haben ihre Beschwerde seit der Einreichung des Falls vor dem US -Bezirksgericht für den Northern District of California, San Francisco, im Jahr 2023 mehrmals geändert. In der jüngsten Änderung wird behauptet, dass Meta unter anderem bestimmte Bevölkerungsbücher mit einem Lizenz zur Entschlossenheit verglichen hat, einen Lizenzvertrag mit einem Publisker zu verfolgen.

In einem Anzeichen dafür, wie ernst die Meta die rechtlichen Anteile ansieht, hat das Unternehmen sein Verteidigungsteam in dem Fall zwei Rechtsstreitiger des Obersten Gerichtshofs von der Anwaltskanzlei Paul Weiss hinzugefügt.

Meta antwortete nicht sofort auf eine Anfrage nach Kommentaren.

Verwandter Artikel
Meta AI在欧盟推出并实施限制 Meta AI在欧盟推出并实施限制 Meta的人工智能虚拟助手Meta AI终于在与欧洲隐私机构的激烈监管斗争中进入了欧盟。该公司周四宣布,这款类似聊天机器人的工具将在其一系列社交平台上集成,不过功能比美国市场上的要少。在另一项发展上,Meta向TechCrunch确认,Meta AI很快将在英国的WhatsApp上可用,从今年十月在Facebook、Instagram和Ray-Ban Met
OpenAI 聘请前Facebook应用负责人 OpenAI 聘请前Facebook应用负责人 菲吉·西莫加入 OpenAI 担任应用业务主管OpenAI 通过聘请现任 Instacart 首席执行官兼前 Facebook 应用负责人菲吉·西莫来领导其应用业务,引起了广泛关注。这一任命直接来自高层,OpenAI 首席执行官山姆·阿尔特曼在 X 上分享称,新职位将使他能够更多地专注于研究、计算和安全性。显然,他们正在为应用领域的一些令人兴奋的发展奠定基础
Meta预测到2035年生成性AI收入将达1.4万亿美元 Meta预测到2035年生成性AI收入将达1.4万亿美元 去年,Meta 大胆预测其生成式 AI 产品到 2025 年将产生 20 亿至 30 亿美元的收入。展望未来,他们预计到 2035 年将增长到惊人的 4600 亿至 1.4 万亿美元之间。这些预测是在周三浮出水面的法庭文件中披露的,当时正值书籍作者对 Meta 提起诉讼。他们指控该公司未经许可就用他们的作品训练 AI。然而,文件并未具体说明 Meta 如何定
Kommentare (30)
0/200
FrankMartínez
FrankMartínez 11. April 2025 00:00:00 GMT

So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?

WilliamYoung
WilliamYoung 11. April 2025 00:00:00 GMT

メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?

HenryJackson
HenryJackson 11. April 2025 00:00:00 GMT

메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?

HarryRoberts
HarryRoberts 11. April 2025 00:00:00 GMT

Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?

JoseJackson
JoseJackson 11. April 2025 00:00:00 GMT

Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?

AlbertHill
AlbertHill 11. April 2025 00:00:00 GMT

So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?

Zurück nach oben
OR