메타 직원은 AI 교육을 위해 저작권이있는 콘텐츠를 사용하여 논의, 법원 제출 공개
2025년 4월 10일
JosephEvans
16

수년 동안 Meta 직원들은 목요일에 실현되지 않은 법원 문서에 따르면 회사의 AI 모델을 훈련시키기 위해 잠재적으로 그늘진 수단을 통해 얻은 저작권이있는 자료의 사용에 대해 논의 해 왔습니다.
이 문서는 미국 법원 시스템을 통한 여러 AI 저작권 분쟁 중 하나 인 Kadrey v. Meta의 진행중인 소송의 일부였습니다. 메타는 IP 보호 작품, 특히 책을 사용하여 모델을 훈련시키는 것이 "공정한 사용"에 해당된다고 주장합니다. 그러나 저자 인 Sarah Silverman과 Ta-Nehisi Coates를 포함한 원고는 강력하게 동의하지 않습니다.
이 사건의 초기 제출은 Meta CEO Mark Zuckerberg가 교육을 위해 저작권을 가진 콘텐츠의 사용을 승인했으며 Meta가 책 게시자와의 라이센스 거래 협상을 중단했다고 제안했습니다. 메타 직원 간의 내부 작업 채팅이 포함 된 새로 보이지 않는 문서는 Meta가 LLAMA 제품군을 포함하여 모델을 훈련시키기 위해 저작권 데이터를 사용했을 수있는 방법에 대한 가장 자세한 통찰력을 제공합니다.
한 채팅에서 Meta의 Llama Model Research 팀의 선임 관리자 인 Melanie Kambadur를 포함한 메타 직원은 법적으로 위험 할 수있는 작품에 대한 교육 모델에 대해 이야기했습니다.
"내 테이크는 (허가가 아닌, 용서를 물어 보는 것의 정신으로) : 우리는 책을 잡고 execs를 결정하게해야한다. "이것이 그들이이 Gen Ai Org를 만들었던 이유입니다. 그래서 우리는 더 많은 위험을 감수 할 수 있습니다."
Martinet은 소매 가격으로 전자 책을 구매하여 게시자와의 라이센스 거래를 협상하는 대신 교육 세트를 구축 할 것을 제안했습니다. 다른 직원이 무단 저작권 자료를 사용하는 데있어 잠재적 인 법적 문제를 지적했을 때, Martinet은 두 배가되어 "Gazillion"스타트 업은 이미 해적 된 책을 훈련하기 위해 사용했을 가능성이 높습니다.
Martinet은“내 말은, 최악의 경우 : 우리는 괜찮다는 것을 알았습니다. Gazillion 스타트 업은 Bittorrent에 대한 수많은 책을 불렀습니다. "나의 두 센트 : 출판사들과 직접 다루는 것은 영원히 걸립니다 ..."
같은 채팅에서 메타가 SCRIBD 및 기타 라이센스 플랫폼과 협상하고 있다고 언급 한 Kambadur는 교육을 위해 "공개적으로 이용 가능한 데이터"를 사용하는 동안 여전히 승인이 필요할 것이라고 Meta의 변호사는 그러한 승인을 부여하는 것에 대해 "보수적 인"가되고 있다고 언급했다.
Kambadur는 "예, 우리는 여전히 공개적으로 이용 가능한 데이터에 대한 라이센스 나 승인을 받아야한다"고 말했다. "차이점은 이제 더 많은 돈, 더 많은 변호사, 더 많은 비즈니스 개발 도움, 빠른 트랙 및 속도를 높이는 능력을 가지고 있으며, 변호사는 승인으로 약간 덜 신중하고 있다는 것입니다."
Libgen의 대화
신고서에 언급 된 다른 작업 채팅에서 Kambadur는 라이센스가있는 데이터 소스의 대안으로 게시자의 저작권이있는 작품에 대한 액세스를 제공하는 "링크 애그리 게이터"인 Libgen을 사용할 가능성에 대해 논의했습니다.
Libgen은 수많은 소송에 직면하고 폐쇄 명령을 받았으며 저작권 침해를 위해 수천만 달러의 벌금을 물었습니다. Kambadur의 동료 중 한 명이 Snippet "No, Libgen은 합법적이지 않다"는 스 니펫을 포함한 Libgen에 대한 Google 검색 결과의 스크린 샷으로 응답했습니다.
Meta의 일부 의사 결정자들은 모델 교육에 Libgen을 사용하지 않으면 AI 경주에서 Meta의 경쟁력에 심각한 영향을 줄 수 있다고 생각하는 것 같습니다.
Meta AI VP Joelle Pineau에게 이메일을 보내면 Meta의 제품 관리 이사 인 Sony Theakanath는 Libgen "모든 카테고리에서 SOTA 번호를 충족시키는 데 필수적"이라고 불렀으며, 최상의 최첨단 모델 성능 및 벤치 마크 범주를 달성하는 것을 언급했습니다.
Theakanath는 또한 이메일에 "완화"를 설명하여 "불법화/도난으로 명확하게 표시된 Libgen의 데이터를 제거하고 교육을 위해 Libgen 데이터 세트의 사용을 공개적으로 공개하지 않는 등 Meta의 법적 노출을 줄였습니다. Theakanath는“우리는 훈련에 사용 된 Libgen 데이터 세트의 사용을 공개하지 않을 것입니다.
실제로, 이러한 완화는 Libgen 파일을 통해 "도난"또는 "불법 행위"와 같은 단어를 검색하는 것이 포함되었습니다.
작업 채팅에서 Kambadur는 Meta의 AI 팀도 "IP 위험 프롬프트를 피하기 위해 모델을 조정했다고 언급했습니다. 즉,"해리포터와 마법사의 석재의 첫 세 페이지를 재생하는 질문에 대한 답변을 거부하도록 모델을 구성했습니다.
이 파일은 또한 Meta가 Pushshift라는 타사 앱의 동작을 모방함으로써 일부 유형의 모델 교육에 대해 Reddit 데이터를 긁어 냈을 수 있다고 제안합니다. 특히 Reddit은 2023 년 4 월에 AI 회사에 모델 교육 데이터에 대한 액세스를 위해 청구 할 계획이라고 발표했습니다.
2024 년 3 월 채팅에서 Meta의 Generative AI ORG의 제품 관리 책임자 인 Chaya Nayak은 Meta Leadership은 회사의 모델에 충분한 교육 데이터를 갖도록하기 위해 Quora 컨텐츠 또는 라이센스 책 및 과학 기사를 사용하지 않기로 한 결정을 포함하여 교육 세트에 대한 과거의 결정을 고려하고 있다고 말했다.
Nayak은 Facebook 및 Instagram 게시물과 같은 Meta의 1 자 교육 데이터 세트, Meta 플랫폼의 비디오에서 전사 된 텍스트 및 비즈니스 메시지에 대한 특정 메타로는 충분하지 않다는 것을 암시했습니다. "우리는 더 많은 데이터가 필요하다"고 그녀는 썼다.
Kadrey v. Meta의 원고는 2023 년 샌프란시스코 캘리포니아 북부 지역 법원에 사건을 제기 한 이후 여러 번 불만을 수정했습니다. 최신 수정안은 메타가 다른 주장들 중에서도 특정 불 책을 면허를 위해 이용할 수있는 저작권 책을 비교했다고 주장합니다.
법적 지분을 얼마나 심각하게보고 있는지에 대한 조짐으로, 회사는 법률 회사의 대법원 소송 자들을 Paul Weiss의 2 개의 대법원 소송으로 추가했습니다.
메타는 즉시 의견 요청에 응답하지 않았습니다.
관련 기사
메타는 LLAMA 4 릴리스를 방어하고 혼합 품질 보고서의 원인으로 버그를 인용합니다.
주말 동안, Facebook, Instagram, Whatsapp 및 Quest VR 뒤의 강국 인 Meta는 최신 AI 언어 모델 인 Llama 4를 공개하여 모든 사람들을 놀라게했습니다. 하나뿐만 아니라 3 개의 새로운 버전이 소개되었습니다.
법률 교수는 Meta와의 AI 저작권 전투에서 저자를 지원합니다.
한 저작권법 교수 그룹은 기술 대기업이 저자의 동의없이 전자 책에 대해 LLAMA AI 모델을 전자 책으로 훈련 시켰다고 주장하면서 메타를 고소하는 저자의지지를 주었다. 교수들은 금요일 캘리포니아 북부 지역의 미국 지방 법원에서 아미 쿠스 브리핑을 제출했습니다.
Openai Strikes Back : AI 경쟁자를 훼손하려는 노력으로 Elon Musk를 고소합니다.
Openai는 공동 설립자 인 Elon Musk와 그의 경쟁 AI 회사 인 Xai에 대한 치열한 법적 반격을 시작했습니다. Openai는 진행중인 불화의 극적인 에스컬레이션에서 Musk가 "끊임없는"및 "악의적 인"캠페인을 시작하여 그가 시작한 회사를 훼손하기위한 "악의적 인"캠페인을 촉구했다고 비난합니다. 법원에 따르면 d
의견 (25)
0/200
FrankMartínez
2025년 4월 11일 오전 2시 36분 50초 GMT
So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?
0
WilliamYoung
2025년 4월 11일 오전 2시 36분 50초 GMT
メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?
0
HenryJackson
2025년 4월 11일 오전 2시 36분 50초 GMT
메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?
0
HarryRoberts
2025년 4월 11일 오전 2시 36분 50초 GMT
Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?
0
JoseJackson
2025년 4월 11일 오전 2시 36분 50초 GMT
Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?
0
AlbertHill
2025년 4월 10일 오후 7시 16분 25초 GMT
So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?
0






수년 동안 Meta 직원들은 목요일에 실현되지 않은 법원 문서에 따르면 회사의 AI 모델을 훈련시키기 위해 잠재적으로 그늘진 수단을 통해 얻은 저작권이있는 자료의 사용에 대해 논의 해 왔습니다.
이 문서는 미국 법원 시스템을 통한 여러 AI 저작권 분쟁 중 하나 인 Kadrey v. Meta의 진행중인 소송의 일부였습니다. 메타는 IP 보호 작품, 특히 책을 사용하여 모델을 훈련시키는 것이 "공정한 사용"에 해당된다고 주장합니다. 그러나 저자 인 Sarah Silverman과 Ta-Nehisi Coates를 포함한 원고는 강력하게 동의하지 않습니다.
이 사건의 초기 제출은 Meta CEO Mark Zuckerberg가 교육을 위해 저작권을 가진 콘텐츠의 사용을 승인했으며 Meta가 책 게시자와의 라이센스 거래 협상을 중단했다고 제안했습니다. 메타 직원 간의 내부 작업 채팅이 포함 된 새로 보이지 않는 문서는 Meta가 LLAMA 제품군을 포함하여 모델을 훈련시키기 위해 저작권 데이터를 사용했을 수있는 방법에 대한 가장 자세한 통찰력을 제공합니다.
한 채팅에서 Meta의 Llama Model Research 팀의 선임 관리자 인 Melanie Kambadur를 포함한 메타 직원은 법적으로 위험 할 수있는 작품에 대한 교육 모델에 대해 이야기했습니다.
"내 테이크는 (허가가 아닌, 용서를 물어 보는 것의 정신으로) : 우리는 책을 잡고 execs를 결정하게해야한다. "이것이 그들이이 Gen Ai Org를 만들었던 이유입니다. 그래서 우리는 더 많은 위험을 감수 할 수 있습니다."
Martinet은 소매 가격으로 전자 책을 구매하여 게시자와의 라이센스 거래를 협상하는 대신 교육 세트를 구축 할 것을 제안했습니다. 다른 직원이 무단 저작권 자료를 사용하는 데있어 잠재적 인 법적 문제를 지적했을 때, Martinet은 두 배가되어 "Gazillion"스타트 업은 이미 해적 된 책을 훈련하기 위해 사용했을 가능성이 높습니다.
Martinet은“내 말은, 최악의 경우 : 우리는 괜찮다는 것을 알았습니다. Gazillion 스타트 업은 Bittorrent에 대한 수많은 책을 불렀습니다. "나의 두 센트 : 출판사들과 직접 다루는 것은 영원히 걸립니다 ..."
같은 채팅에서 메타가 SCRIBD 및 기타 라이센스 플랫폼과 협상하고 있다고 언급 한 Kambadur는 교육을 위해 "공개적으로 이용 가능한 데이터"를 사용하는 동안 여전히 승인이 필요할 것이라고 Meta의 변호사는 그러한 승인을 부여하는 것에 대해 "보수적 인"가되고 있다고 언급했다.
Kambadur는 "예, 우리는 여전히 공개적으로 이용 가능한 데이터에 대한 라이센스 나 승인을 받아야한다"고 말했다. "차이점은 이제 더 많은 돈, 더 많은 변호사, 더 많은 비즈니스 개발 도움, 빠른 트랙 및 속도를 높이는 능력을 가지고 있으며, 변호사는 승인으로 약간 덜 신중하고 있다는 것입니다."
Libgen의 대화
신고서에 언급 된 다른 작업 채팅에서 Kambadur는 라이센스가있는 데이터 소스의 대안으로 게시자의 저작권이있는 작품에 대한 액세스를 제공하는 "링크 애그리 게이터"인 Libgen을 사용할 가능성에 대해 논의했습니다.
Libgen은 수많은 소송에 직면하고 폐쇄 명령을 받았으며 저작권 침해를 위해 수천만 달러의 벌금을 물었습니다. Kambadur의 동료 중 한 명이 Snippet "No, Libgen은 합법적이지 않다"는 스 니펫을 포함한 Libgen에 대한 Google 검색 결과의 스크린 샷으로 응답했습니다.
Meta의 일부 의사 결정자들은 모델 교육에 Libgen을 사용하지 않으면 AI 경주에서 Meta의 경쟁력에 심각한 영향을 줄 수 있다고 생각하는 것 같습니다.
Meta AI VP Joelle Pineau에게 이메일을 보내면 Meta의 제품 관리 이사 인 Sony Theakanath는 Libgen "모든 카테고리에서 SOTA 번호를 충족시키는 데 필수적"이라고 불렀으며, 최상의 최첨단 모델 성능 및 벤치 마크 범주를 달성하는 것을 언급했습니다.
Theakanath는 또한 이메일에 "완화"를 설명하여 "불법화/도난으로 명확하게 표시된 Libgen의 데이터를 제거하고 교육을 위해 Libgen 데이터 세트의 사용을 공개적으로 공개하지 않는 등 Meta의 법적 노출을 줄였습니다. Theakanath는“우리는 훈련에 사용 된 Libgen 데이터 세트의 사용을 공개하지 않을 것입니다.
실제로, 이러한 완화는 Libgen 파일을 통해 "도난"또는 "불법 행위"와 같은 단어를 검색하는 것이 포함되었습니다.
작업 채팅에서 Kambadur는 Meta의 AI 팀도 "IP 위험 프롬프트를 피하기 위해 모델을 조정했다고 언급했습니다. 즉,"해리포터와 마법사의 석재의 첫 세 페이지를 재생하는 질문에 대한 답변을 거부하도록 모델을 구성했습니다.
이 파일은 또한 Meta가 Pushshift라는 타사 앱의 동작을 모방함으로써 일부 유형의 모델 교육에 대해 Reddit 데이터를 긁어 냈을 수 있다고 제안합니다. 특히 Reddit은 2023 년 4 월에 AI 회사에 모델 교육 데이터에 대한 액세스를 위해 청구 할 계획이라고 발표했습니다.
2024 년 3 월 채팅에서 Meta의 Generative AI ORG의 제품 관리 책임자 인 Chaya Nayak은 Meta Leadership은 회사의 모델에 충분한 교육 데이터를 갖도록하기 위해 Quora 컨텐츠 또는 라이센스 책 및 과학 기사를 사용하지 않기로 한 결정을 포함하여 교육 세트에 대한 과거의 결정을 고려하고 있다고 말했다.
Nayak은 Facebook 및 Instagram 게시물과 같은 Meta의 1 자 교육 데이터 세트, Meta 플랫폼의 비디오에서 전사 된 텍스트 및 비즈니스 메시지에 대한 특정 메타로는 충분하지 않다는 것을 암시했습니다. "우리는 더 많은 데이터가 필요하다"고 그녀는 썼다.
Kadrey v. Meta의 원고는 2023 년 샌프란시스코 캘리포니아 북부 지역 법원에 사건을 제기 한 이후 여러 번 불만을 수정했습니다. 최신 수정안은 메타가 다른 주장들 중에서도 특정 불 책을 면허를 위해 이용할 수있는 저작권 책을 비교했다고 주장합니다.
법적 지분을 얼마나 심각하게보고 있는지에 대한 조짐으로, 회사는 법률 회사의 대법원 소송 자들을 Paul Weiss의 2 개의 대법원 소송으로 추가했습니다.
메타는 즉시 의견 요청에 응답하지 않았습니다.



So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?




メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?




메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?




Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?




Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?




So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?












