AIトレーニングのために著作権で保護されたコンテンツを使用して議論したメタスタッフ、裁判所の提出は明らかにしました

木曜日に封印された裁判所の文書によると、メタの従業員は長年にわたり、潜在的に怪しげな手段を通じて得られた著作権で保護された資料の使用について議論してきました。
これらの文書は、米国の裁判所制度を通過するいくつかのAI著作権紛争の1つであるKadreyv。Metaの進行中の訴訟の一部でした。メタは、モデルをトレーニングするために、IPで保護された作品、特に本を使用することは「フェアユース」に分類されると主張しています。しかし、著者のサラ・シルバーマンとタネヒシ・コーツを含む原告は、強く反対している。
事件の以前の提出は、Meta CEOのMark Zuckerbergがトレーニングに著作権で保護されたコンテンツの使用を承認し、メタが本出版社とのライセンス取引の交渉を停止したことを示唆しています。メタスタッフ間の内部作業チャットを含む新しく封印されていないドキュメントは、メタがラマファミリーのモデルを含むモデルを含むモデルをトレーニングするために著作権で保護されたデータを使用した可能性について、最も詳細な洞察を提供します。
あるチャットでは、メタのラマモデルリサーチチームのシニアマネージャーであるメラニーカンバドゥールを含むメタの従業員は、法的に危険にさらされる可能性があると知っていた作品に関するトレーニングモデルについて話しました。
「私の見解は(許可ではなく、許可を求める」という精神です):私たちは本をつかみ、幹部に決めさせるべきです」と、2023年2月のチャットでメタ研究エンジニアのザビエル・マルティネットは書いています。 「だから彼らはこのgen ai orgを作成したのです。だから私たちはより多くのリスクを取ることができます。」
Martinetは、出版社とのライセンス取引を交渉する代わりに、トレーニングセットを構築するために小売価格で電子書籍を購入することを提案しました。別のスタッフが許可されていない著作権で保護された資料を使用する際の潜在的な法的問題を指摘したとき、Martinetは倍増し、「数十億」のスタートアップがすでにトレーニングに海賊版の本を使用している可能性が高いと指摘しました。
「つまり、最悪の場合:私たちはそれが大丈夫だと思いますが、膨大な数のスタートアップはBitTorrentに関する本の大量の本を照らしているだけです」とMartinetは書いています。 「再び私の2セント:出版社と直接対処するには永遠に時間がかかります...」
同じチャットで、メタがSCRIBDやライセンスのために他のプラットフォームと交渉していると述べたKambadurは、トレーニングに「公開されているデータ」を使用すると承認が必要であるが、メタの弁護士はそのような承認を付与することについて「保守的ではない」ようになっていると述べた。
「ええ、公的に利用可能なデータのライセンスまたは承認を取得する必要があります」とKambadur氏は述べています。 「今の違いは、より多くのお金、より多くの弁護士、より多くのビジネス開発の助け、スピードのために迅速に追跡してエスカレートする能力があり、弁護士は承認に少し慎重であることです。」
Libgenの話
ファイリングで言及された別の作業チャットで、Kambadurは、ライセンスされたデータソースの代替として、出版社から著作権で保護された作品へのアクセスを提供する「リンクアグリゲーター」であるLibgenを使用する可能性について議論しました。
Libgenは多くの訴訟に直面し、閉鎖するように命じられ、著作権侵害のために数千万ドルの罰金を科されました。 Kambadurの同僚の1人は、「いいえ、Libgenは合法ではない」を含むLibgenのGoogle検索結果のスクリーンショットで応答しました。
Metaの意思決定者の中には、提出によると、モデルトレーニングにLibgenを使用しないとAIレースでのメタの競争力に深刻な影響を与える可能性があると考えている人もいました。
Meta AI VP Joelle Pineauへの電子メールでは、Metaの製品管理部長であるSony Theakanathは、Libgenと呼ばれ、「すべてのカテゴリのSOTA番号を満たすために不可欠」と呼ばれ、最高の最先端の(SOTA)AIモデルのパフォーマンスとベンチマークカテゴリを達成することに言及しています。
Theakanathはまた、「マイテーション」を電子メールで概説し、「海賊版/盗難として明確にマークされた」Libgenからデータを削除し、トレーニングのためにLibgenデータセットの使用を公開していないなど、メタの法的露出を減らしました。 「トレーニングに使用されるLibgenデータセットの使用を開示することはありません」とTheakanathは書いています。
実際には、これらの緩和は、提出によると、「盗まれた」や「海賊版」などの単語をlibgenファイルを検索することを伴いました。
ワークチャットで、Kambadurは、MetaのAIチームも「IPリスクのあるプロンプトを避ける」ためにモデルを調整したことを意味します。つまり、「ハリーポッターと魔術師の石」の最初の3ページの再現を拒否するようにモデルを構成したことを意味します。
また、ファイリングは、MetaがPushshiftと呼ばれるサードパーティアプリの動作を模倣することにより、ある種のモデルトレーニングのためにRedditデータを削り取った可能性があることを示唆しています。特に、Redditは2023年4月に、モデルトレーニングのデータへのアクセスにAI企業に請求を開始することを計画したと発表しました。
2024年3月のチャットで、Metaの生成AI ORGの製品管理部長であるChaya Nayakは、Metaのリーダーシップは、Quoraコンテンツまたはライセンス帳や科学論文を使用しない決定を含むトレーニングセットに関する過去の決定を「オーバーライド」することを検討していると述べました。
Nayakは、FacebookやInstagramの投稿、メタプラットフォーム上のビデオから転写されたテキスト、ビジネスメッセージの特定のメタなど、Metaのファーストパーティトレーニングデータセットが十分ではないことを暗示しています。 「もっとデータが必要だ」と彼女は書いた。
Kadreyv。Metaの原告は、2023年にカリフォルニア州北部地方裁判所のサンフランシスコ部門の米国地方裁判所に訴訟を提起して以来、苦情を数回修正しました。
法的利害関係をメタがどれほど真剣に見ているかの兆候の中で、同社は法律事務所のポール・ワイスから2人の最高裁判所の訴訟者を事件に関する防衛チームに追加しました。
メタはすぐにコメントのリクエストに応答しませんでした。
関連記事
Meta AI在欧盟推出并实施限制
Meta的人工智能虚拟助手Meta AI终于在与欧洲隐私机构的激烈监管斗争中进入了欧盟。该公司周四宣布,这款类似聊天机器人的工具将在其一系列社交平台上集成,不过功能比美国市场上的要少。在另一项发展上,Meta向TechCrunch确认,Meta AI很快将在英国的WhatsApp上可用,从今年十月在Facebook、Instagram和Ray-Ban Met
OpenAI 聘请前Facebook应用负责人
菲吉·西莫加入 OpenAI 担任应用业务主管OpenAI 通过聘请现任 Instacart 首席执行官兼前 Facebook 应用负责人菲吉·西莫来领导其应用业务,引起了广泛关注。这一任命直接来自高层,OpenAI 首席执行官山姆·阿尔特曼在 X 上分享称,新职位将使他能够更多地专注于研究、计算和安全性。显然,他们正在为应用领域的一些令人兴奋的发展奠定基础
Meta预测到2035年生成性AI收入将达1.4万亿美元
去年,Meta 大胆预测其生成式 AI 产品到 2025 年将产生 20 亿至 30 亿美元的收入。展望未来,他们预计到 2035 年将增长到惊人的 4600 亿至 1.4 万亿美元之间。这些预测是在周三浮出水面的法庭文件中披露的,当时正值书籍作者对 Meta 提起诉讼。他们指控该公司未经许可就用他们的作品训练 AI。然而,文件并未具体说明 Meta 如何定
コメント (30)
0/200
FrankMartínez
2025年4月11日 0:00:00 GMT
So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?
0
WilliamYoung
2025年4月11日 0:00:00 GMT
メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?
0
HenryJackson
2025年4月11日 0:00:00 GMT
메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?
0
HarryRoberts
2025年4月11日 0:00:00 GMT
Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?
0
JoseJackson
2025年4月11日 0:00:00 GMT
Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?
0
AlbertHill
2025年4月11日 0:00:00 GMT
So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?
0
木曜日に封印された裁判所の文書によると、メタの従業員は長年にわたり、潜在的に怪しげな手段を通じて得られた著作権で保護された資料の使用について議論してきました。
これらの文書は、米国の裁判所制度を通過するいくつかのAI著作権紛争の1つであるKadreyv。Metaの進行中の訴訟の一部でした。メタは、モデルをトレーニングするために、IPで保護された作品、特に本を使用することは「フェアユース」に分類されると主張しています。しかし、著者のサラ・シルバーマンとタネヒシ・コーツを含む原告は、強く反対している。
事件の以前の提出は、Meta CEOのMark Zuckerbergがトレーニングに著作権で保護されたコンテンツの使用を承認し、メタが本出版社とのライセンス取引の交渉を停止したことを示唆しています。メタスタッフ間の内部作業チャットを含む新しく封印されていないドキュメントは、メタがラマファミリーのモデルを含むモデルを含むモデルをトレーニングするために著作権で保護されたデータを使用した可能性について、最も詳細な洞察を提供します。
あるチャットでは、メタのラマモデルリサーチチームのシニアマネージャーであるメラニーカンバドゥールを含むメタの従業員は、法的に危険にさらされる可能性があると知っていた作品に関するトレーニングモデルについて話しました。
「私の見解は(許可ではなく、許可を求める」という精神です):私たちは本をつかみ、幹部に決めさせるべきです」と、2023年2月のチャットでメタ研究エンジニアのザビエル・マルティネットは書いています。 「だから彼らはこのgen ai orgを作成したのです。だから私たちはより多くのリスクを取ることができます。」
Martinetは、出版社とのライセンス取引を交渉する代わりに、トレーニングセットを構築するために小売価格で電子書籍を購入することを提案しました。別のスタッフが許可されていない著作権で保護された資料を使用する際の潜在的な法的問題を指摘したとき、Martinetは倍増し、「数十億」のスタートアップがすでにトレーニングに海賊版の本を使用している可能性が高いと指摘しました。
「つまり、最悪の場合:私たちはそれが大丈夫だと思いますが、膨大な数のスタートアップはBitTorrentに関する本の大量の本を照らしているだけです」とMartinetは書いています。 「再び私の2セント:出版社と直接対処するには永遠に時間がかかります...」
同じチャットで、メタがSCRIBDやライセンスのために他のプラットフォームと交渉していると述べたKambadurは、トレーニングに「公開されているデータ」を使用すると承認が必要であるが、メタの弁護士はそのような承認を付与することについて「保守的ではない」ようになっていると述べた。
「ええ、公的に利用可能なデータのライセンスまたは承認を取得する必要があります」とKambadur氏は述べています。 「今の違いは、より多くのお金、より多くの弁護士、より多くのビジネス開発の助け、スピードのために迅速に追跡してエスカレートする能力があり、弁護士は承認に少し慎重であることです。」
Libgenの話
ファイリングで言及された別の作業チャットで、Kambadurは、ライセンスされたデータソースの代替として、出版社から著作権で保護された作品へのアクセスを提供する「リンクアグリゲーター」であるLibgenを使用する可能性について議論しました。
Libgenは多くの訴訟に直面し、閉鎖するように命じられ、著作権侵害のために数千万ドルの罰金を科されました。 Kambadurの同僚の1人は、「いいえ、Libgenは合法ではない」を含むLibgenのGoogle検索結果のスクリーンショットで応答しました。
Metaの意思決定者の中には、提出によると、モデルトレーニングにLibgenを使用しないとAIレースでのメタの競争力に深刻な影響を与える可能性があると考えている人もいました。
Meta AI VP Joelle Pineauへの電子メールでは、Metaの製品管理部長であるSony Theakanathは、Libgenと呼ばれ、「すべてのカテゴリのSOTA番号を満たすために不可欠」と呼ばれ、最高の最先端の(SOTA)AIモデルのパフォーマンスとベンチマークカテゴリを達成することに言及しています。
Theakanathはまた、「マイテーション」を電子メールで概説し、「海賊版/盗難として明確にマークされた」Libgenからデータを削除し、トレーニングのためにLibgenデータセットの使用を公開していないなど、メタの法的露出を減らしました。 「トレーニングに使用されるLibgenデータセットの使用を開示することはありません」とTheakanathは書いています。
実際には、これらの緩和は、提出によると、「盗まれた」や「海賊版」などの単語をlibgenファイルを検索することを伴いました。
ワークチャットで、Kambadurは、MetaのAIチームも「IPリスクのあるプロンプトを避ける」ためにモデルを調整したことを意味します。つまり、「ハリーポッターと魔術師の石」の最初の3ページの再現を拒否するようにモデルを構成したことを意味します。
また、ファイリングは、MetaがPushshiftと呼ばれるサードパーティアプリの動作を模倣することにより、ある種のモデルトレーニングのためにRedditデータを削り取った可能性があることを示唆しています。特に、Redditは2023年4月に、モデルトレーニングのデータへのアクセスにAI企業に請求を開始することを計画したと発表しました。
2024年3月のチャットで、Metaの生成AI ORGの製品管理部長であるChaya Nayakは、Metaのリーダーシップは、Quoraコンテンツまたはライセンス帳や科学論文を使用しない決定を含むトレーニングセットに関する過去の決定を「オーバーライド」することを検討していると述べました。
Nayakは、FacebookやInstagramの投稿、メタプラットフォーム上のビデオから転写されたテキスト、ビジネスメッセージの特定のメタなど、Metaのファーストパーティトレーニングデータセットが十分ではないことを暗示しています。 「もっとデータが必要だ」と彼女は書いた。
Kadreyv。Metaの原告は、2023年にカリフォルニア州北部地方裁判所のサンフランシスコ部門の米国地方裁判所に訴訟を提起して以来、苦情を数回修正しました。
法的利害関係をメタがどれほど真剣に見ているかの兆候の中で、同社は法律事務所のポール・ワイスから2人の最高裁判所の訴訟者を事件に関する防衛チームに追加しました。
メタはすぐにコメントのリクエストに応答しませんでした。




So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?




メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?




메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?




Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?




Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?




So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?












