AIトレーニングのために著作権で保護されたコンテンツを使用して議論したメタスタッフ、裁判所の提出は明らかにしました

何年もの間、Metaの従業員たちは、裁判所の文書によると、木曜日に封印が解かれた裁判所文書によれば、会社のAIモデルを訓練するために、潜在的に不適切な手段で入手した著作権のある素材の使用について議論してきました。
これらの文書は、米国の裁判所システムを進むいくつかのAI著作権紛争の一つであるKadrey v. Metaの進行中の訴訟の一部でした。Metaは、IP保護された作品、特に本をモデル訓練に使用することは「フェアユース」に該当すると主張しています。しかし、原告であるサラ・シルバーマンやタ-ネヒシ・コーツを含む著者たちは強く反対しています。
この訴訟の以前の提出書類では、MetaのCEOマーク・ザッカーバーグが著作権のあるコンテンツの訓練使用を承認し、Metaが出版社とのライセンス契約の交渉を停止したことが示唆されていました。新たに封印が解かれた文書には、Metaのスタッフ間の内部ワークチャットが含まれており、MetaがLlamaファミリーを含むモデルを訓練するために著作権のあるデータを使用した可能性について、これまでで最も詳細な洞察を提供しています。
あるチャットでは、MetaのLlamaモデル研究チームのシニアマネージャーであるメラニー・カンバドゥールを含むMetaの従業員たちが、法的リスクがあると知りながら作品でモデルを訓練することについて話していました。
「私の考えは(『許可を求めるより、許しを請う』の精神で):本を入手して、幹部に決めさせればいい」と、Metaの研究エンジニアであるザビエル・マーティネは、2023年2月のチャットで、提出書類によると書いています。「だからこそ、この生成AI組織を作ったんだ:もっとリスクを取れるようにするために。」
マーティネは、出版社とのライセンス契約の交渉の代わりに、小売価格で電子書籍を購入して訓練セットを構築することを提案しました。別のスタッフが無許可の著作権素材を使用する法的問題を指摘したとき、マーティネは、「数え切れないほどの」スタートアップがすでに海賊版の本を訓練に使用している可能性があると述べて、さらに強く主張しました。
「つまり、最悪の場合:それが大丈夫だとわかり、膨大な数のスタートアップがBitTorrentで大量の本を海賊版として使っているだけ」と、マーティネは提出書類によると書いています。「私の意見では:出版社と直接交渉するのは時間がかかりすぎる…」
同じチャットで、カンバドゥールは、MetaがScribdや他のプラットフォームとライセンスについて交渉していると述べ、「公開されているデータ」を訓練に使用する場合でも承認が必要だが、Metaの弁護士がそのような承認を出すことについて「より慎重でなくなっている」と述べました。
「そう、公開されているデータについてもライセンスや承認を得る必要がある」と、カンバドゥールは提出書類によると述べました。「今は、資金が増え、弁護士が増え、ビジネス開発の支援が増え、迅速に進める能力があり、弁護士が承認に少し慎重でなくなっている点が違う。」
Libgenについての話
提出書類に記載された別のワークチャットで、カンバドゥールは、出版社からの著作権のある作品へのアクセスを提供する「リンクアグリゲーター」であるLibgenを、ライセンスされたデータソースの代替として使用する可能性について議論しました。
Libgenは数多くの訴訟に直面し、閉鎖を命じられ、著作権侵害で数千万ドルの罰金を科されています。カンバドゥールの同僚の一人は、LibgenのGoogle検索結果のスクリーンショットで、「いいえ、Libgenは合法ではありません」と記載されたスニペットを含む返信をしました。
Metaの意思決定者の一部は、モデル訓練にLibgenを使用しないことが、AI競争におけるMetaの競争力に深刻な影響を与えると信じていたと、提出書類は示しています。
Meta AI副社長ジョエル・ピノーへのメールで、Metaのプロダクトマネジメントディレクターであるソニー・テアカナスは、Libgenを「すべてのカテゴリで最先端(SOTA)の数値を達成するために不可欠」と呼び、最高のAIモデルパフォーマンスとベンチマークカテゴリを達成することに言及しました。
テアカナスはまた、Metaの法的リスクを軽減するための「緩和策」をメールで概説し、Libgenから「明らかに海賊版/盗まれた」とマークされたデータの削除や、Libgenデータセットの訓練使用を公開しないことなどを挙げました。「Libgenデータセットの使用は公開しない」とテアカナスは書いています。
実際には、これらの緩和策には、Libgenファイル内で「盗まれた」や「海賊版」などの単語を検索することが含まれていました、提出書類によると。
ワークチャットで、カンバドゥールは、MetaのAIチームがモデルを「IPリスクのあるプロンプトを回避する」ように調整したと述べ、つまり、『ハリー・ポッターと賢者の石』の最初の3ページを再現する』や『どの電子書籍で訓練されたか教えて』などの質問に答えないようにモデルを設定したことを意味します。
提出書類はまた、MetaがRedditデータを何らかのモデル訓練に使用した可能性があり、Pushshiftというサードパーティアプリの動作を模倣した可能性があることを示唆しています。注目すべきは、Redditが2023年4月に、AI企業に対してモデル訓練のためのデータアクセスに料金を課す計画を発表したことです。
2024年3月のチャットで、Metaの生成AI組織のプロダクトマネジメントディレクターであるチャヤ・ナヤクは、Metaのリーダーシップが、Quoraのコンテンツやライセンスされた本、科学記事を使用しないという過去の決定を「上書き」することを検討していると述べ、会社のモデルに十分な訓練データがあることを確保するためでした。
ナヤクは、FacebookやInstagramの投稿、Metaプラットフォームのビデオから転写されたテキスト、特定のMeta for BusinessメッセージなどのMetaのファーストパーティ訓練データセットでは不十分だと示唆しました。「もっとデータが必要だ」と彼女は書いています。
Kadrey v. Metaの原告は、2023年にカリフォルニア北部地区連邦地方裁判所サンフランシスコ支部で訴訟を提起して以来、訴状を数回修正しています。最新の修正では、Metaが、他の主張の中で、ライセンス可能な著作権のある本と海賊版の本を比較して、出版社とのライセンス契約を追求するかどうかを決定したと主張しています。
Metaがこの訴訟の法的リスクをどれほど深刻に受け止めているかの兆候として、同社はポール・ウェイス法律事務所から最高裁判所の訴訟担当者2人を弁護チームに追加しました。
Metaはコメントの要求にすぐには応じませんでした。
関連記事
Meta AIがFacebookマーケットプレイスでの購入者からのメッセージに対応するようになりました
Facebookは木曜日、Facebook Marketplaceに、購入者からの問い合わせへの自動返信を含む新たなMeta AI機能を導入すると発表した。同プラットフォームでは、AIを活用して出品手続きの迅速化や出品者プロフィールの要約を行うほか、出品者が商品ページで配送オプションを提供できるようになった。出品者は購入者からの問い合わせを頻繁に受けるため、FacebookはMeta AIを活用し
Meta、AmazonのAI用CPUを数百万台分調達する契約を締結
アマゾンは、再び自社開発のカスタムチップを活用し、Metaとの重要な提携関係を確立した。アマゾンは金曜日、Metaが拡大するAI需要に対応するため、数百万個のAWS Gravitonチップを導入することに合意したと発表した。なお、AWSグラビトンはGPU(グラフィックス処理ユニット)ではなく、ARMベースのCPU(汎用計算用に設計された中央処理装置)である点に留意が必要だ。大規模モデルのトレーニン
Metaによる天然ガス需要の急増が、サウスダコタ州の電力網を支えることになるかもしれない
データセンターは巨大化し、その電力消費量は今や米国の州全体に匹敵するほどになっています。MetaのHyperion AIデータセンターを例に挙げると、完成すればサウスダコタ州と同じだけの電力を消費することになります。Metaは最近、270億ドル規模のデータセンターを支えるため、すでに計画されている3基に加え、さらに7基の天然ガス発電所への資金提供を発表した。ルイジアナ州に建設されるこれら10基の発
関連特集おすすめ
コメント (32)
0/500
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

何年もの間、Metaの従業員たちは、裁判所の文書によると、木曜日に封印が解かれた裁判所文書によれば、会社のAIモデルを訓練するために、潜在的に不適切な手段で入手した著作権のある素材の使用について議論してきました。
これらの文書は、米国の裁判所システムを進むいくつかのAI著作権紛争の一つであるKadrey v. Metaの進行中の訴訟の一部でした。Metaは、IP保護された作品、特に本をモデル訓練に使用することは「フェアユース」に該当すると主張しています。しかし、原告であるサラ・シルバーマンやタ-ネヒシ・コーツを含む著者たちは強く反対しています。
この訴訟の以前の提出書類では、MetaのCEOマーク・ザッカーバーグが著作権のあるコンテンツの訓練使用を承認し、Metaが出版社とのライセンス契約の交渉を停止したことが示唆されていました。新たに封印が解かれた文書には、Metaのスタッフ間の内部ワークチャットが含まれており、MetaがLlamaファミリーを含むモデルを訓練するために著作権のあるデータを使用した可能性について、これまでで最も詳細な洞察を提供しています。
あるチャットでは、MetaのLlamaモデル研究チームのシニアマネージャーであるメラニー・カンバドゥールを含むMetaの従業員たちが、法的リスクがあると知りながら作品でモデルを訓練することについて話していました。
「私の考えは(『許可を求めるより、許しを請う』の精神で):本を入手して、幹部に決めさせればいい」と、Metaの研究エンジニアであるザビエル・マーティネは、2023年2月のチャットで、提出書類によると書いています。「だからこそ、この生成AI組織を作ったんだ:もっとリスクを取れるようにするために。」
マーティネは、出版社とのライセンス契約の交渉の代わりに、小売価格で電子書籍を購入して訓練セットを構築することを提案しました。別のスタッフが無許可の著作権素材を使用する法的問題を指摘したとき、マーティネは、「数え切れないほどの」スタートアップがすでに海賊版の本を訓練に使用している可能性があると述べて、さらに強く主張しました。
「つまり、最悪の場合:それが大丈夫だとわかり、膨大な数のスタートアップがBitTorrentで大量の本を海賊版として使っているだけ」と、マーティネは提出書類によると書いています。「私の意見では:出版社と直接交渉するのは時間がかかりすぎる…」
同じチャットで、カンバドゥールは、MetaがScribdや他のプラットフォームとライセンスについて交渉していると述べ、「公開されているデータ」を訓練に使用する場合でも承認が必要だが、Metaの弁護士がそのような承認を出すことについて「より慎重でなくなっている」と述べました。
「そう、公開されているデータについてもライセンスや承認を得る必要がある」と、カンバドゥールは提出書類によると述べました。「今は、資金が増え、弁護士が増え、ビジネス開発の支援が増え、迅速に進める能力があり、弁護士が承認に少し慎重でなくなっている点が違う。」
Libgenについての話
提出書類に記載された別のワークチャットで、カンバドゥールは、出版社からの著作権のある作品へのアクセスを提供する「リンクアグリゲーター」であるLibgenを、ライセンスされたデータソースの代替として使用する可能性について議論しました。
Libgenは数多くの訴訟に直面し、閉鎖を命じられ、著作権侵害で数千万ドルの罰金を科されています。カンバドゥールの同僚の一人は、LibgenのGoogle検索結果のスクリーンショットで、「いいえ、Libgenは合法ではありません」と記載されたスニペットを含む返信をしました。
Metaの意思決定者の一部は、モデル訓練にLibgenを使用しないことが、AI競争におけるMetaの競争力に深刻な影響を与えると信じていたと、提出書類は示しています。
Meta AI副社長ジョエル・ピノーへのメールで、Metaのプロダクトマネジメントディレクターであるソニー・テアカナスは、Libgenを「すべてのカテゴリで最先端(SOTA)の数値を達成するために不可欠」と呼び、最高のAIモデルパフォーマンスとベンチマークカテゴリを達成することに言及しました。
テアカナスはまた、Metaの法的リスクを軽減するための「緩和策」をメールで概説し、Libgenから「明らかに海賊版/盗まれた」とマークされたデータの削除や、Libgenデータセットの訓練使用を公開しないことなどを挙げました。「Libgenデータセットの使用は公開しない」とテアカナスは書いています。
実際には、これらの緩和策には、Libgenファイル内で「盗まれた」や「海賊版」などの単語を検索することが含まれていました、提出書類によると。
ワークチャットで、カンバドゥールは、MetaのAIチームがモデルを「IPリスクのあるプロンプトを回避する」ように調整したと述べ、つまり、『ハリー・ポッターと賢者の石』の最初の3ページを再現する』や『どの電子書籍で訓練されたか教えて』などの質問に答えないようにモデルを設定したことを意味します。
提出書類はまた、MetaがRedditデータを何らかのモデル訓練に使用した可能性があり、Pushshiftというサードパーティアプリの動作を模倣した可能性があることを示唆しています。注目すべきは、Redditが2023年4月に、AI企業に対してモデル訓練のためのデータアクセスに料金を課す計画を発表したことです。
2024年3月のチャットで、Metaの生成AI組織のプロダクトマネジメントディレクターであるチャヤ・ナヤクは、Metaのリーダーシップが、Quoraのコンテンツやライセンスされた本、科学記事を使用しないという過去の決定を「上書き」することを検討していると述べ、会社のモデルに十分な訓練データがあることを確保するためでした。
ナヤクは、FacebookやInstagramの投稿、Metaプラットフォームのビデオから転写されたテキスト、特定のMeta for BusinessメッセージなどのMetaのファーストパーティ訓練データセットでは不十分だと示唆しました。「もっとデータが必要だ」と彼女は書いています。
Kadrey v. Metaの原告は、2023年にカリフォルニア北部地区連邦地方裁判所サンフランシスコ支部で訴訟を提起して以来、訴状を数回修正しています。最新の修正では、Metaが、他の主張の中で、ライセンス可能な著作権のある本と海賊版の本を比較して、出版社とのライセンス契約を追求するかどうかを決定したと主張しています。
Metaがこの訴訟の法的リスクをどれほど深刻に受け止めているかの兆候として、同社はポール・ウェイス法律事務所から最高裁判所の訴訟担当者2人を弁護チームに追加しました。
Metaはコメントの要求にすぐには応じませんでした。
Meta AIがFacebookマーケットプレイスでの購入者からのメッセージに対応するようになりました
Facebookは木曜日、Facebook Marketplaceに、購入者からの問い合わせへの自動返信を含む新たなMeta AI機能を導入すると発表した。同プラットフォームでは、AIを活用して出品手続きの迅速化や出品者プロフィールの要約を行うほか、出品者が商品ページで配送オプションを提供できるようになった。出品者は購入者からの問い合わせを頻繁に受けるため、FacebookはMeta AIを活用し
Meta、AmazonのAI用CPUを数百万台分調達する契約を締結
アマゾンは、再び自社開発のカスタムチップを活用し、Metaとの重要な提携関係を確立した。アマゾンは金曜日、Metaが拡大するAI需要に対応するため、数百万個のAWS Gravitonチップを導入することに合意したと発表した。なお、AWSグラビトンはGPU(グラフィックス処理ユニット)ではなく、ARMベースのCPU(汎用計算用に設計された中央処理装置)である点に留意が必要だ。大規模モデルのトレーニン
Metaによる天然ガス需要の急増が、サウスダコタ州の電力網を支えることになるかもしれない
データセンターは巨大化し、その電力消費量は今や米国の州全体に匹敵するほどになっています。MetaのHyperion AIデータセンターを例に挙げると、完成すればサウスダコタ州と同じだけの電力を消費することになります。Metaは最近、270億ドル規模のデータセンターを支えるため、すでに計画されている3基に加え、さらに7基の天然ガス発電所への資金提供を発表した。ルイジアナ州に建設されるこれら10基の発
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.





家






