AIトレーニングのために著作権で保護されたコンテンツを使用して議論したメタスタッフ、裁判所の提出は明らかにしました

何年もの間、Metaの従業員たちは、裁判所の文書によると、木曜日に封印が解かれた裁判所文書によれば、会社のAIモデルを訓練するために、潜在的に不適切な手段で入手した著作権のある素材の使用について議論してきました。
これらの文書は、米国の裁判所システムを進むいくつかのAI著作権紛争の一つであるKadrey v. Metaの進行中の訴訟の一部でした。Metaは、IP保護された作品、特に本をモデル訓練に使用することは「フェアユース」に該当すると主張しています。しかし、原告であるサラ・シルバーマンやタ-ネヒシ・コーツを含む著者たちは強く反対しています。
この訴訟の以前の提出書類では、MetaのCEOマーク・ザッカーバーグが著作権のあるコンテンツの訓練使用を承認し、Metaが出版社とのライセンス契約の交渉を停止したことが示唆されていました。新たに封印が解かれた文書には、Metaのスタッフ間の内部ワークチャットが含まれており、MetaがLlamaファミリーを含むモデルを訓練するために著作権のあるデータを使用した可能性について、これまでで最も詳細な洞察を提供しています。
あるチャットでは、MetaのLlamaモデル研究チームのシニアマネージャーであるメラニー・カンバドゥールを含むMetaの従業員たちが、法的リスクがあると知りながら作品でモデルを訓練することについて話していました。
「私の考えは(『許可を求めるより、許しを請う』の精神で):本を入手して、幹部に決めさせればいい」と、Metaの研究エンジニアであるザビエル・マーティネは、2023年2月のチャットで、提出書類によると書いています。「だからこそ、この生成AI組織を作ったんだ:もっとリスクを取れるようにするために。」
マーティネは、出版社とのライセンス契約の交渉の代わりに、小売価格で電子書籍を購入して訓練セットを構築することを提案しました。別のスタッフが無許可の著作権素材を使用する法的問題を指摘したとき、マーティネは、「数え切れないほどの」スタートアップがすでに海賊版の本を訓練に使用している可能性があると述べて、さらに強く主張しました。
「つまり、最悪の場合:それが大丈夫だとわかり、膨大な数のスタートアップがBitTorrentで大量の本を海賊版として使っているだけ」と、マーティネは提出書類によると書いています。「私の意見では:出版社と直接交渉するのは時間がかかりすぎる…」
同じチャットで、カンバドゥールは、MetaがScribdや他のプラットフォームとライセンスについて交渉していると述べ、「公開されているデータ」を訓練に使用する場合でも承認が必要だが、Metaの弁護士がそのような承認を出すことについて「より慎重でなくなっている」と述べました。
「そう、公開されているデータについてもライセンスや承認を得る必要がある」と、カンバドゥールは提出書類によると述べました。「今は、資金が増え、弁護士が増え、ビジネス開発の支援が増え、迅速に進める能力があり、弁護士が承認に少し慎重でなくなっている点が違う。」
Libgenについての話
提出書類に記載された別のワークチャットで、カンバドゥールは、出版社からの著作権のある作品へのアクセスを提供する「リンクアグリゲーター」であるLibgenを、ライセンスされたデータソースの代替として使用する可能性について議論しました。
Libgenは数多くの訴訟に直面し、閉鎖を命じられ、著作権侵害で数千万ドルの罰金を科されています。カンバドゥールの同僚の一人は、LibgenのGoogle検索結果のスクリーンショットで、「いいえ、Libgenは合法ではありません」と記載されたスニペットを含む返信をしました。
Metaの意思決定者の一部は、モデル訓練にLibgenを使用しないことが、AI競争におけるMetaの競争力に深刻な影響を与えると信じていたと、提出書類は示しています。
Meta AI副社長ジョエル・ピノーへのメールで、Metaのプロダクトマネジメントディレクターであるソニー・テアカナスは、Libgenを「すべてのカテゴリで最先端(SOTA)の数値を達成するために不可欠」と呼び、最高のAIモデルパフォーマンスとベンチマークカテゴリを達成することに言及しました。
テアカナスはまた、Metaの法的リスクを軽減するための「緩和策」をメールで概説し、Libgenから「明らかに海賊版/盗まれた」とマークされたデータの削除や、Libgenデータセットの訓練使用を公開しないことなどを挙げました。「Libgenデータセットの使用は公開しない」とテアカナスは書いています。
実際には、これらの緩和策には、Libgenファイル内で「盗まれた」や「海賊版」などの単語を検索することが含まれていました、提出書類によると。
ワークチャットで、カンバドゥールは、MetaのAIチームがモデルを「IPリスクのあるプロンプトを回避する」ように調整したと述べ、つまり、『ハリー・ポッターと賢者の石』の最初の3ページを再現する』や『どの電子書籍で訓練されたか教えて』などの質問に答えないようにモデルを設定したことを意味します。
提出書類はまた、MetaがRedditデータを何らかのモデル訓練に使用した可能性があり、Pushshiftというサードパーティアプリの動作を模倣した可能性があることを示唆しています。注目すべきは、Redditが2023年4月に、AI企業に対してモデル訓練のためのデータアクセスに料金を課す計画を発表したことです。
2024年3月のチャットで、Metaの生成AI組織のプロダクトマネジメントディレクターであるチャヤ・ナヤクは、Metaのリーダーシップが、Quoraのコンテンツやライセンスされた本、科学記事を使用しないという過去の決定を「上書き」することを検討していると述べ、会社のモデルに十分な訓練データがあることを確保するためでした。
ナヤクは、FacebookやInstagramの投稿、Metaプラットフォームのビデオから転写されたテキスト、特定のMeta for BusinessメッセージなどのMetaのファーストパーティ訓練データセットでは不十分だと示唆しました。「もっとデータが必要だ」と彼女は書いています。
Kadrey v. Metaの原告は、2023年にカリフォルニア北部地区連邦地方裁判所サンフランシスコ支部で訴訟を提起して以来、訴状を数回修正しています。最新の修正では、Metaが、他の主張の中で、ライセンス可能な著作権のある本と海賊版の本を比較して、出版社とのライセンス契約を追求するかどうかを決定したと主張しています。
Metaがこの訴訟の法的リスクをどれほど深刻に受け止めているかの兆候として、同社はポール・ウェイス法律事務所から最高裁判所の訴訟担当者2人を弁護チームに追加しました。
Metaはコメントの要求にすぐには応じませんでした。
関連記事
メタのザッカーバーグ、すべてのAI「超知能」モデルをオープンソース化するわけではないと発言
メタ社のパーソナル・スーパーインテリジェンスへの戦略転換メタ社のマーク・ザッカーバーグCEOは今週、"パーソナル・スーパーインテリジェンス"、つまり個人的な目的を達成するために個人に力を与えるAIシステムについての野心的なビジョンを概説し、同社のAI展開戦略に変更の可能性を示唆した。オープンソースのジレンマザッカーバーグの声明は、メタ社が超知能システムを追求する中で、高度なAIモデルをオープンソー
メタのAIがインスタグラム・コンテンツの動画吹き替えに挑戦
Metaは、FacebookとInstagramで画期的なAI吹き替え技術へのアクセスを拡大し、本物の声と自然な唇の動きを維持するシームレスな動画翻訳機能を導入します。異文化コンテンツに革命を起こすMetaの新しいAI翻訳機能は、クリエイターの声の特徴や唇の同期を維持したまま、英語とスペイン語の間でリールを自動的に変換します。この革新的な技術は、昨年のMeta Connectイベントで実証されたも
Meta AIアプリがプレミアム層と広告を導入
MetaのAIアプリは、OpenAI、Google、Microsoftなどの競合他社と同様に、有料サブスクリプションを近日中に導入する可能性があります。2025年第1四半期の決算発表で、MetaのCEOマーク・ザッカーバーグは、プレミアムサービス計画を発表し、ユーザーがMeta AIで強化された計算能力や追加機能にアクセスできるようにすると述べました。ChatGPTに対抗するため、Metaは今週、
コメント (30)
0/200
PeterMartinez
2025年4月25日 3:59:57 JST
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
0
RalphMitchell
2025年4月24日 11:42:41 JST
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
0
AnthonyPerez
2025年4月22日 5:19:31 JST
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.
0
BrianWilliams
2025年4月19日 18:15:40 JST
I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.
0
StevenAllen
2025年4月19日 17:39:52 JST
메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.
0
CharlesWhite
2025年4月12日 22:05:28 JST
Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.
0
何年もの間、Metaの従業員たちは、裁判所の文書によると、木曜日に封印が解かれた裁判所文書によれば、会社のAIモデルを訓練するために、潜在的に不適切な手段で入手した著作権のある素材の使用について議論してきました。
これらの文書は、米国の裁判所システムを進むいくつかのAI著作権紛争の一つであるKadrey v. Metaの進行中の訴訟の一部でした。Metaは、IP保護された作品、特に本をモデル訓練に使用することは「フェアユース」に該当すると主張しています。しかし、原告であるサラ・シルバーマンやタ-ネヒシ・コーツを含む著者たちは強く反対しています。
この訴訟の以前の提出書類では、MetaのCEOマーク・ザッカーバーグが著作権のあるコンテンツの訓練使用を承認し、Metaが出版社とのライセンス契約の交渉を停止したことが示唆されていました。新たに封印が解かれた文書には、Metaのスタッフ間の内部ワークチャットが含まれており、MetaがLlamaファミリーを含むモデルを訓練するために著作権のあるデータを使用した可能性について、これまでで最も詳細な洞察を提供しています。
あるチャットでは、MetaのLlamaモデル研究チームのシニアマネージャーであるメラニー・カンバドゥールを含むMetaの従業員たちが、法的リスクがあると知りながら作品でモデルを訓練することについて話していました。
「私の考えは(『許可を求めるより、許しを請う』の精神で):本を入手して、幹部に決めさせればいい」と、Metaの研究エンジニアであるザビエル・マーティネは、2023年2月のチャットで、提出書類によると書いています。「だからこそ、この生成AI組織を作ったんだ:もっとリスクを取れるようにするために。」
マーティネは、出版社とのライセンス契約の交渉の代わりに、小売価格で電子書籍を購入して訓練セットを構築することを提案しました。別のスタッフが無許可の著作権素材を使用する法的問題を指摘したとき、マーティネは、「数え切れないほどの」スタートアップがすでに海賊版の本を訓練に使用している可能性があると述べて、さらに強く主張しました。
「つまり、最悪の場合:それが大丈夫だとわかり、膨大な数のスタートアップがBitTorrentで大量の本を海賊版として使っているだけ」と、マーティネは提出書類によると書いています。「私の意見では:出版社と直接交渉するのは時間がかかりすぎる…」
同じチャットで、カンバドゥールは、MetaがScribdや他のプラットフォームとライセンスについて交渉していると述べ、「公開されているデータ」を訓練に使用する場合でも承認が必要だが、Metaの弁護士がそのような承認を出すことについて「より慎重でなくなっている」と述べました。
「そう、公開されているデータについてもライセンスや承認を得る必要がある」と、カンバドゥールは提出書類によると述べました。「今は、資金が増え、弁護士が増え、ビジネス開発の支援が増え、迅速に進める能力があり、弁護士が承認に少し慎重でなくなっている点が違う。」
Libgenについての話
提出書類に記載された別のワークチャットで、カンバドゥールは、出版社からの著作権のある作品へのアクセスを提供する「リンクアグリゲーター」であるLibgenを、ライセンスされたデータソースの代替として使用する可能性について議論しました。
Libgenは数多くの訴訟に直面し、閉鎖を命じられ、著作権侵害で数千万ドルの罰金を科されています。カンバドゥールの同僚の一人は、LibgenのGoogle検索結果のスクリーンショットで、「いいえ、Libgenは合法ではありません」と記載されたスニペットを含む返信をしました。
Metaの意思決定者の一部は、モデル訓練にLibgenを使用しないことが、AI競争におけるMetaの競争力に深刻な影響を与えると信じていたと、提出書類は示しています。
Meta AI副社長ジョエル・ピノーへのメールで、Metaのプロダクトマネジメントディレクターであるソニー・テアカナスは、Libgenを「すべてのカテゴリで最先端(SOTA)の数値を達成するために不可欠」と呼び、最高のAIモデルパフォーマンスとベンチマークカテゴリを達成することに言及しました。
テアカナスはまた、Metaの法的リスクを軽減するための「緩和策」をメールで概説し、Libgenから「明らかに海賊版/盗まれた」とマークされたデータの削除や、Libgenデータセットの訓練使用を公開しないことなどを挙げました。「Libgenデータセットの使用は公開しない」とテアカナスは書いています。
実際には、これらの緩和策には、Libgenファイル内で「盗まれた」や「海賊版」などの単語を検索することが含まれていました、提出書類によると。
ワークチャットで、カンバドゥールは、MetaのAIチームがモデルを「IPリスクのあるプロンプトを回避する」ように調整したと述べ、つまり、『ハリー・ポッターと賢者の石』の最初の3ページを再現する』や『どの電子書籍で訓練されたか教えて』などの質問に答えないようにモデルを設定したことを意味します。
提出書類はまた、MetaがRedditデータを何らかのモデル訓練に使用した可能性があり、Pushshiftというサードパーティアプリの動作を模倣した可能性があることを示唆しています。注目すべきは、Redditが2023年4月に、AI企業に対してモデル訓練のためのデータアクセスに料金を課す計画を発表したことです。
2024年3月のチャットで、Metaの生成AI組織のプロダクトマネジメントディレクターであるチャヤ・ナヤクは、Metaのリーダーシップが、Quoraのコンテンツやライセンスされた本、科学記事を使用しないという過去の決定を「上書き」することを検討していると述べ、会社のモデルに十分な訓練データがあることを確保するためでした。
ナヤクは、FacebookやInstagramの投稿、Metaプラットフォームのビデオから転写されたテキスト、特定のMeta for BusinessメッセージなどのMetaのファーストパーティ訓練データセットでは不十分だと示唆しました。「もっとデータが必要だ」と彼女は書いています。
Kadrey v. Metaの原告は、2023年にカリフォルニア北部地区連邦地方裁判所サンフランシスコ支部で訴訟を提起して以来、訴状を数回修正しています。最新の修正では、Metaが、他の主張の中で、ライセンス可能な著作権のある本と海賊版の本を比較して、出版社とのライセンス契約を追求するかどうかを決定したと主張しています。
Metaがこの訴訟の法的リスクをどれほど深刻に受け止めているかの兆候として、同社はポール・ウェイス法律事務所から最高裁判所の訴訟担当者2人を弁護チームに追加しました。
Metaはコメントの要求にすぐには応じませんでした。




Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.




Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。




¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.




I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.




메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.




Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.












