オプション
ニュース
AIトレーニングのために著作権で保護されたコンテンツを使用して議論したメタスタッフ、裁判所の提出は明らかにしました

AIトレーニングのために著作権で保護されたコンテンツを使用して議論したメタスタッフ、裁判所の提出は明らかにしました

2025年4月10日
86

AIトレーニングのために著作権で保護されたコンテンツを使用して議論したメタスタッフ、裁判所の提出は明らかにしました

何年もの間、Metaの従業員たちは、裁判所の文書によると、木曜日に封印が解かれた裁判所文書によれば、会社のAIモデルを訓練するために、潜在的に不適切な手段で入手した著作権のある素材の使用について議論してきました。

これらの文書は、米国の裁判所システムを進むいくつかのAI著作権紛争の一つであるKadrey v. Metaの進行中の訴訟の一部でした。Metaは、IP保護された作品、特に本をモデル訓練に使用することは「フェアユース」に該当すると主張しています。しかし、原告であるサラ・シルバーマンやタ-ネヒシ・コーツを含む著者たちは強く反対しています。

この訴訟の以前の提出書類では、MetaのCEOマーク・ザッカーバーグが著作権のあるコンテンツの訓練使用を承認し、Metaが出版社とのライセンス契約の交渉を停止したことが示唆されていました。新たに封印が解かれた文書には、Metaのスタッフ間の内部ワークチャットが含まれており、MetaがLlamaファミリーを含むモデルを訓練するために著作権のあるデータを使用した可能性について、これまでで最も詳細な洞察を提供しています。

あるチャットでは、MetaのLlamaモデル研究チームのシニアマネージャーであるメラニー・カンバドゥールを含むMetaの従業員たちが、法的リスクがあると知りながら作品でモデルを訓練することについて話していました。

「私の考えは(『許可を求めるより、許しを請う』の精神で):本を入手して、幹部に決めさせればいい」と、Metaの研究エンジニアであるザビエル・マーティネは、2023年2月のチャットで、提出書類によると書いています。「だからこそ、この生成AI組織を作ったんだ:もっとリスクを取れるようにするために。」

マーティネは、出版社とのライセンス契約の交渉の代わりに、小売価格で電子書籍を購入して訓練セットを構築することを提案しました。別のスタッフが無許可の著作権素材を使用する法的問題を指摘したとき、マーティネは、「数え切れないほどの」スタートアップがすでに海賊版の本を訓練に使用している可能性があると述べて、さらに強く主張しました。

「つまり、最悪の場合:それが大丈夫だとわかり、膨大な数のスタートアップがBitTorrentで大量の本を海賊版として使っているだけ」と、マーティネは提出書類によると書いています。「私の意見では:出版社と直接交渉するのは時間がかかりすぎる…」

同じチャットで、カンバドゥールは、MetaがScribdや他のプラットフォームとライセンスについて交渉していると述べ、「公開されているデータ」を訓練に使用する場合でも承認が必要だが、Metaの弁護士がそのような承認を出すことについて「より慎重でなくなっている」と述べました。

「そう、公開されているデータについてもライセンスや承認を得る必要がある」と、カンバドゥールは提出書類によると述べました。「今は、資金が増え、弁護士が増え、ビジネス開発の支援が増え、迅速に進める能力があり、弁護士が承認に少し慎重でなくなっている点が違う。」

Libgenについての話

提出書類に記載された別のワークチャットで、カンバドゥールは、出版社からの著作権のある作品へのアクセスを提供する「リンクアグリゲーター」であるLibgenを、ライセンスされたデータソースの代替として使用する可能性について議論しました。

Libgenは数多くの訴訟に直面し、閉鎖を命じられ、著作権侵害で数千万ドルの罰金を科されています。カンバドゥールの同僚の一人は、LibgenのGoogle検索結果のスクリーンショットで、「いいえ、Libgenは合法ではありません」と記載されたスニペットを含む返信をしました。

Metaの意思決定者の一部は、モデル訓練にLibgenを使用しないことが、AI競争におけるMetaの競争力に深刻な影響を与えると信じていたと、提出書類は示しています。

Meta AI副社長ジョエル・ピノーへのメールで、Metaのプロダクトマネジメントディレクターであるソニー・テアカナスは、Libgenを「すべてのカテゴリで最先端(SOTA)の数値を達成するために不可欠」と呼び、最高のAIモデルパフォーマンスとベンチマークカテゴリを達成することに言及しました。

テアカナスはまた、Metaの法的リスクを軽減するための「緩和策」をメールで概説し、Libgenから「明らかに海賊版/盗まれた」とマークされたデータの削除や、Libgenデータセットの訓練使用を公開しないことなどを挙げました。「Libgenデータセットの使用は公開しない」とテアカナスは書いています。

実際には、これらの緩和策には、Libgenファイル内で「盗まれた」や「海賊版」などの単語を検索することが含まれていました、提出書類によると。

ワークチャットで、カンバドゥールは、MetaのAIチームがモデルを「IPリスクのあるプロンプトを回避する」ように調整したと述べ、つまり、『ハリー・ポッターと賢者の石』の最初の3ページを再現する』や『どの電子書籍で訓練されたか教えて』などの質問に答えないようにモデルを設定したことを意味します。

提出書類はまた、MetaがRedditデータを何らかのモデル訓練に使用した可能性があり、Pushshiftというサードパーティアプリの動作を模倣した可能性があることを示唆しています。注目すべきは、Redditが2023年4月に、AI企業に対してモデル訓練のためのデータアクセスに料金を課す計画を発表したことです。

2024年3月のチャットで、Metaの生成AI組織のプロダクトマネジメントディレクターであるチャヤ・ナヤクは、Metaのリーダーシップが、Quoraのコンテンツやライセンスされた本、科学記事を使用しないという過去の決定を「上書き」することを検討していると述べ、会社のモデルに十分な訓練データがあることを確保するためでした。

ナヤクは、FacebookやInstagramの投稿、Metaプラットフォームのビデオから転写されたテキスト、特定のMeta for BusinessメッセージなどのMetaのファーストパーティ訓練データセットでは不十分だと示唆しました。「もっとデータが必要だ」と彼女は書いています。

Kadrey v. Metaの原告は、2023年にカリフォルニア北部地区連邦地方裁判所サンフランシスコ支部で訴訟を提起して以来、訴状を数回修正しています。最新の修正では、Metaが、他の主張の中で、ライセンス可能な著作権のある本と海賊版の本を比較して、出版社とのライセンス契約を追求するかどうかを決定したと主張しています。

Metaがこの訴訟の法的リスクをどれほど深刻に受け止めているかの兆候として、同社はポール・ウェイス法律事務所から最高裁判所の訴訟担当者2人を弁護チームに追加しました。

Metaはコメントの要求にすぐには応じませんでした。

関連記事
Google、EUのAI行動規範へのコミットメントを表明、業界議論の中で Google、EUのAI行動規範へのコミットメントを表明、業界議論の中で Googleは、EUのAI法に準拠したプロセスとシステムを導入することでAI開発者を支援する枠組みである、欧州連合の自主的なAI行動規範を採用することを約束しました。対照的に、Metaは最近、この規範への署名を拒否し、EUのAI規制が過剰であると批判し、ヨーロッパのアプローチがAIの進歩を妨げる可能性があると警告しました。Googleの決定は、「システムリスクを伴う汎用AIモデル」に対する新しい規
MetaがAI人材に高額報酬を提供、1億ドルのサインオンボーナスは否定 MetaがAI人材に高額報酬を提供、1億ドルのサインオンボーナスは否定 Metaは新しいスーパーインテリジェンスラボにAI研究者を引き付けるため、数百万ドル規模の報酬パッケージを提供しています。しかし、採用された研究者や漏洩した内部会議の発言によると、1億ドルの「サインオンボーナス」という主張は本当ではありません。The Vergeが木曜日に報じた漏洩した全社ミーティングでは、Metaの幹部がOpenAIのCEOサム・アルトマンが主張した、Metaがトップ研究者に提供
Metaが高度なLlamaツールでAIセキュリティを強化 Metaが高度なLlamaツールでAIセキュリティを強化 Metaは、新たなLlamaセキュリティツールをリリースし、AI開発を強化し、新たな脅威から保護します。これらのアップグレードされたLlama AIモデルのセキュリティツールは、Metaの新しいリソースと組み合わされ、サイバーセキュリティチームがAIを防御に活用することを支援し、すべてのAIステークホルダーの安全性を高めることを目指します。Llamaモデルを使用する開発者は、MetaのLlama
コメント (30)
0/200
PeterMartinez
PeterMartinez 2025年4月25日 3:59:57 JST

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 2025年4月24日 11:42:41 JST

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 2025年4月22日 5:19:31 JST

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 2025年4月19日 18:15:40 JST

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen
StevenAllen 2025年4月19日 17:39:52 JST

메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.

CharlesWhite
CharlesWhite 2025年4月12日 22:05:28 JST

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

トップに戻ります
OR