메타 직원은 AI 교육을 위해 저작권이있는 콘텐츠를 사용하여 논의, 법원 제출 공개

수년간 메타 직원들은 회사의 AI 모델 훈련을 위해 잠재적으로 부적절한 방법으로 얻은 저작권이 있는 자료의 사용에 대해 논의해 왔으며, 이는 목요일에 공개된 법원 문서에 따르면 그렇습니다.
이 문서들은 미국 법원 시스템을 통해 진행 중인 여러 AI 저작권 분쟁 중 하나인 Kadrey v. Meta 소송의 일부였습니다. 메타는 IP로 보호된 작품, 특히 책을 모델 훈련에 사용하는 것이 "공정 사용"에 해당한다고 주장합니다. 그러나 사라 실버먼과 타-네히시 코츠를 포함한 원고들은 이에 강하게 반대합니다.
이 사건의 초기 서류에서는 메타 CEO 마크 저커버그가 저작권이 있는 콘텐츠를 훈련에 사용하는 것을 승인했으며, 메타가 책 출판사들과 라이선스 계약 협상을 중단했다고 제안했습니다. 새로 공개된 문서들은 메타 직원들 간의 내부 업무 채팅을 포함하며, 메타가 Llama 계열을 포함한 모델 훈련에 저작권이 있는 데이터를 어떻게 사용했을지에 대한 가장 상세한 통찰을 제공합니다.
한 채팅에서 메타 직원인 멜라니 캄바두르(Melanie Kambadur), 메타의 Llama 모델 연구 팀의 선임 매니저를 포함한 직원들은 법적으로 위험할 수 있다고 알면서도 작품에 대해 모델을 훈련하는 것에 대해 이야기했습니다.
"제 생각은 ('허락을 구하기보다는 용서를 구하자'는 정신으로): 책을 확보하고 경영진이 결정하게 해야 한다고 봅니다,"라고 메타 연구 엔지니어 자비에 마르티네(Xavier Martinet)가 2023년 2월 채팅에서 썼으며, 이는 서류에 따르면 그렇습니다. "그들이 이 gen AI 조직을 만든 이유가 바로 더 많은 위험을 감수할 수 있게 하기 위함입니다."
마르티네는 출판사들과 라이선스 계약을 협상하는 대신 소매 가격으로 전자책을 구매하여 훈련 세트를 구축하자고 제안했습니다. 다른 직원이 무단 저작권 자료 사용의 잠재적 법적 문제를 지적했을 때, 마르티네는 "수많은" 스타트업들이 이미 불법 복제된 책을 훈련에 사용하고 있을 가능성이 높다고 강조하며 자신의 입장을 고수했습니다.
"제 말은, 최악의 경우: 우리는 괜찮다는 걸 알게 되고, 수많은 스타트업들은 BitTorrent에서 책을 불법 복제했을 뿐입니다,"라고 마르티네는 서류에 따르면 썼습니다. "다시 제 의견: 출판사들과 직접 거래하는 건 너무 오래 걸립니다..."
같은 채팅에서, 캄바두르는 메타가 Scribd 및 다른 플랫폼들과 라이선스 협상을 하고 있다고 언급하며, "공개적으로 사용 가능한 데이터"를 훈련에 사용하는 데 여전히 승인이 필요하지만, 메타의 변호사들이 그러한 승인을 내리는 데 "덜 보수적"으로 변하고 있다고 언급했습니다.
"그래, 우리는 여전히 공개적으로 사용 가능한 데이터에 대해 라이선스나 승인을 받아야 합니다,"라고 캄바두르는 서류에 따르면 말했습니다. "지금 다른 점은 우리가 더 많은 돈, 더 많은 변호사, 더 많은 사업 개발 지원, 속도를 높이고 우선순위를 높일 수 있는 능력이 있으며, 변호사들이 승인에 있어 조금 덜 신중해지고 있다는 점입니다."
Libgen에 대한 논의
서류에 언급된 또 다른 업무 채팅에서, 캄바두르는 라이선스 데이터 소스 대신 출판사들의 저작권이 있는 작품에 접근할 수 있는 "링크 애그리게이터"인 Libgen을 사용할 가능성에 대해 논의했습니다.
Libgen은 수많은 소송에 직면했고, 폐쇄 명령을 받았으며, 저작권 침해로 수천만 달러의 벌금을 부과받았습니다. 캄바두르의 동료 중 한 명은 Libgen에 대한 Google 검색 결과의 스크린샷으로 응답했으며, 그 스크린샷에는 "아니요, Libgen은 합법적이지 않습니다"라는 문구가 포함되어 있었습니다.
메타의 일부 의사결정자들은 Libgen을 모델 훈련에 사용하지 않는 것이 AI 경쟁에서 메타의 경쟁력을 심각하게 저해할 수 있다고 믿었던 것으로 보이며, 이는 서류에 따르면 그렇습니다.
메타 AI 부사장 조엘 피노(Joelle Pineau)에게 보낸 이메일에서, 메타의 제품 관리 디렉터 소니 테아카나트(Sony Theakanath)는 Libgen을 "모든 카테고리에서 SOTA 수치를 달성하는 데 필수적"이라고 불렀으며, 이는 최고의 최신(state-of-the-art, SOTA) AI 모델 성능과 벤치마크 카테고리를 달성하는 것을 의미합니다.
테아카나트는 또한 메타의 법적 노출을 줄이기 위한 "완화 조치"를 이메일에 설명했으며, 예를 들어 "명백히 불법 복제/도난당한" 것으로 표시된 Libgen 데이터를 제거하고 Libgen 데이터셋을 훈련에 사용했다는 사실을 공개적으로 밝히지 않는 것을 포함했습니다. "우리는 Libgen 데이터셋을 훈련에 사용했음을 공개하지 않을 것입니다,"라고 테아카나트는 썼습니다.
실제로 이러한 완화 조치는 Libgen 파일에서 "도난" 또는 "불법 복제"와 같은 단어를 검색하는 것을 포함했다고 서류에 따르면 그렇습니다.
업무 채팅에서 캄바두르는 메타의 AI 팀이 또한 모델을 조정하여 "IP 위험 프롬프트"를 피하도록 했다고 언급했으며, 이는 모델이 "해리 포터와 마법사의 돌의 처음 세 페이지를 재현하라"거나 "당신이 훈련받은 전자책이 무엇인지 말해줘"와 같은 질문에 답변을 거부하도록 설정했다는 것을 의미합니다.
서류는 또한 메타가 Pushshift라는 서드파티 앱의 동작을 모방하여 Reddit 데이터를 일부 유형의 모델 훈련에 스크래핑했을 가능성을 시사합니다. 특히, Reddit은 2023년 4월에 AI 회사들에게 모델 훈련을 위한 데이터 접근에 대해 요금을 부과할 계획이라고 발표했습니다.
2024년 3월 채팅에서, 메타의 생성 AI 조직의 제품 관리 디렉터 차야 나약(Chaya Nayak)은 메타 리더십이 Quora 콘텐츠나 라이선스된 책 및 학술 논문을 사용하지 않기로 한 이전 결정을 포함하여 훈련 세트에 대한 과거 결정을 "무효화"하는 것을 고려하고 있다고 말했습니다. 이는 회사의 모델이 충분한 훈련 데이터를 확보하도록 하기 위함이었습니다.
나약은 메타의 자체 훈련 데이터셋 — 페이스북과 인스타그램 게시물, 메타 플랫폼의 비디오에서 전사된 텍스트, 특정 Meta for Business 메시지 등 — 이 충분하지 않다고 암시했습니다. "우리는 더 많은 데이터가 필요합니다,"라고 그녀는 썼습니다.
Kadrey v. Meta의 원고들은 2023년 캘리포니아 북부 지방 법원 샌프란시스코 분과에서 이 사건을 제기한 이후로 여러 차례 소장을 수정했습니다. 최신 수정은 메타가, 다른 주장들 중에서도, 특정 불법 복제된 책과 라이선스로 제공되는 저작권이 있는 책을 비교하여 출판사와 라이선스 계약을 추진할지 여부를 결정했다고 주장합니다.
메타가 이 사건의 법적 위험을 얼마나 심각하게 보고 있는지를 보여주는 신호로, 회사는 법무법인 Paul Weiss에서 두 명의 대법원 소송 변호사를 방어 팀에 추가했습니다.
메타는 논평 요청에 즉시 응답하지 않았습니다.
관련 기사
메타 AI가 이제 페이스북 마켓플레이스에서 구매자의 메시지에 응답합니다
페이스북 마켓플레이스가 구매자 문의에 대한 자동 응답 기능을 포함한 새로운 메타 AI 기능을 도입한다고 목요일 회사 측이 발표했다. 또한 이 플랫폼은 AI를 활용해 상품 등록을 가속화하고 판매자 프로필을 요약하며, 이제 판매자가 상품 목록에 배송 옵션을 제공할 수 있도록 지원한다.판매자들은 종종 수많은 구매자 문의를 받기 때문에, 페이스북은 메타 AI 기반
메타, 아마존 AI용 CPU 수백만 대 공급 계약 체결
아마존은 자체 설계 칩을 다시 한번 앞세워 메타(Meta)와 중요한 파트너십을 체결했다. 아마존은 금요일, 메타가 확대되는 AI 수요를 충족하기 위해 수백만 개의 AWS 그래비톤(Graviton) 칩을 도입하기로 합의했다고 밝혔다.참고로 AWS 그래비톤은 GPU(그래픽 처리 장치)가 아닌 ARM 기반 CPU(일반 컴퓨팅용으로 설계된 중앙 처리 장치)입니다.
메타의 천연가스 수요 급증으로 사우스다코타주 전력망에 활력을 불어넣을 수 있다
데이터 센터의 규모가 워낙 거대해져서, 현재 그 전력 소비량은 미국 내 한 주 전체의 소비량에 맞먹습니다. 메타(Meta)의 하이페리온(Hyperion) AI 데이터 센터를 예로 들어보겠습니다. 이 시설이 완공되면 사우스다코타주만큼의 전력을 소비하게 될 것입니다.메타는 최근 270억 달러 규모의 데이터 센터 운영을 지원하기 위해, 이미 계획된 3곳 외에도
관련 특별 주제 추천
의견 (32)
0/500
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

수년간 메타 직원들은 회사의 AI 모델 훈련을 위해 잠재적으로 부적절한 방법으로 얻은 저작권이 있는 자료의 사용에 대해 논의해 왔으며, 이는 목요일에 공개된 법원 문서에 따르면 그렇습니다.
이 문서들은 미국 법원 시스템을 통해 진행 중인 여러 AI 저작권 분쟁 중 하나인 Kadrey v. Meta 소송의 일부였습니다. 메타는 IP로 보호된 작품, 특히 책을 모델 훈련에 사용하는 것이 "공정 사용"에 해당한다고 주장합니다. 그러나 사라 실버먼과 타-네히시 코츠를 포함한 원고들은 이에 강하게 반대합니다.
이 사건의 초기 서류에서는 메타 CEO 마크 저커버그가 저작권이 있는 콘텐츠를 훈련에 사용하는 것을 승인했으며, 메타가 책 출판사들과 라이선스 계약 협상을 중단했다고 제안했습니다. 새로 공개된 문서들은 메타 직원들 간의 내부 업무 채팅을 포함하며, 메타가 Llama 계열을 포함한 모델 훈련에 저작권이 있는 데이터를 어떻게 사용했을지에 대한 가장 상세한 통찰을 제공합니다.
한 채팅에서 메타 직원인 멜라니 캄바두르(Melanie Kambadur), 메타의 Llama 모델 연구 팀의 선임 매니저를 포함한 직원들은 법적으로 위험할 수 있다고 알면서도 작품에 대해 모델을 훈련하는 것에 대해 이야기했습니다.
"제 생각은 ('허락을 구하기보다는 용서를 구하자'는 정신으로): 책을 확보하고 경영진이 결정하게 해야 한다고 봅니다,"라고 메타 연구 엔지니어 자비에 마르티네(Xavier Martinet)가 2023년 2월 채팅에서 썼으며, 이는 서류에 따르면 그렇습니다. "그들이 이 gen AI 조직을 만든 이유가 바로 더 많은 위험을 감수할 수 있게 하기 위함입니다."
마르티네는 출판사들과 라이선스 계약을 협상하는 대신 소매 가격으로 전자책을 구매하여 훈련 세트를 구축하자고 제안했습니다. 다른 직원이 무단 저작권 자료 사용의 잠재적 법적 문제를 지적했을 때, 마르티네는 "수많은" 스타트업들이 이미 불법 복제된 책을 훈련에 사용하고 있을 가능성이 높다고 강조하며 자신의 입장을 고수했습니다.
"제 말은, 최악의 경우: 우리는 괜찮다는 걸 알게 되고, 수많은 스타트업들은 BitTorrent에서 책을 불법 복제했을 뿐입니다,"라고 마르티네는 서류에 따르면 썼습니다. "다시 제 의견: 출판사들과 직접 거래하는 건 너무 오래 걸립니다..."
같은 채팅에서, 캄바두르는 메타가 Scribd 및 다른 플랫폼들과 라이선스 협상을 하고 있다고 언급하며, "공개적으로 사용 가능한 데이터"를 훈련에 사용하는 데 여전히 승인이 필요하지만, 메타의 변호사들이 그러한 승인을 내리는 데 "덜 보수적"으로 변하고 있다고 언급했습니다.
"그래, 우리는 여전히 공개적으로 사용 가능한 데이터에 대해 라이선스나 승인을 받아야 합니다,"라고 캄바두르는 서류에 따르면 말했습니다. "지금 다른 점은 우리가 더 많은 돈, 더 많은 변호사, 더 많은 사업 개발 지원, 속도를 높이고 우선순위를 높일 수 있는 능력이 있으며, 변호사들이 승인에 있어 조금 덜 신중해지고 있다는 점입니다."
Libgen에 대한 논의
서류에 언급된 또 다른 업무 채팅에서, 캄바두르는 라이선스 데이터 소스 대신 출판사들의 저작권이 있는 작품에 접근할 수 있는 "링크 애그리게이터"인 Libgen을 사용할 가능성에 대해 논의했습니다.
Libgen은 수많은 소송에 직면했고, 폐쇄 명령을 받았으며, 저작권 침해로 수천만 달러의 벌금을 부과받았습니다. 캄바두르의 동료 중 한 명은 Libgen에 대한 Google 검색 결과의 스크린샷으로 응답했으며, 그 스크린샷에는 "아니요, Libgen은 합법적이지 않습니다"라는 문구가 포함되어 있었습니다.
메타의 일부 의사결정자들은 Libgen을 모델 훈련에 사용하지 않는 것이 AI 경쟁에서 메타의 경쟁력을 심각하게 저해할 수 있다고 믿었던 것으로 보이며, 이는 서류에 따르면 그렇습니다.
메타 AI 부사장 조엘 피노(Joelle Pineau)에게 보낸 이메일에서, 메타의 제품 관리 디렉터 소니 테아카나트(Sony Theakanath)는 Libgen을 "모든 카테고리에서 SOTA 수치를 달성하는 데 필수적"이라고 불렀으며, 이는 최고의 최신(state-of-the-art, SOTA) AI 모델 성능과 벤치마크 카테고리를 달성하는 것을 의미합니다.
테아카나트는 또한 메타의 법적 노출을 줄이기 위한 "완화 조치"를 이메일에 설명했으며, 예를 들어 "명백히 불법 복제/도난당한" 것으로 표시된 Libgen 데이터를 제거하고 Libgen 데이터셋을 훈련에 사용했다는 사실을 공개적으로 밝히지 않는 것을 포함했습니다. "우리는 Libgen 데이터셋을 훈련에 사용했음을 공개하지 않을 것입니다,"라고 테아카나트는 썼습니다.
실제로 이러한 완화 조치는 Libgen 파일에서 "도난" 또는 "불법 복제"와 같은 단어를 검색하는 것을 포함했다고 서류에 따르면 그렇습니다.
업무 채팅에서 캄바두르는 메타의 AI 팀이 또한 모델을 조정하여 "IP 위험 프롬프트"를 피하도록 했다고 언급했으며, 이는 모델이 "해리 포터와 마법사의 돌의 처음 세 페이지를 재현하라"거나 "당신이 훈련받은 전자책이 무엇인지 말해줘"와 같은 질문에 답변을 거부하도록 설정했다는 것을 의미합니다.
서류는 또한 메타가 Pushshift라는 서드파티 앱의 동작을 모방하여 Reddit 데이터를 일부 유형의 모델 훈련에 스크래핑했을 가능성을 시사합니다. 특히, Reddit은 2023년 4월에 AI 회사들에게 모델 훈련을 위한 데이터 접근에 대해 요금을 부과할 계획이라고 발표했습니다.
2024년 3월 채팅에서, 메타의 생성 AI 조직의 제품 관리 디렉터 차야 나약(Chaya Nayak)은 메타 리더십이 Quora 콘텐츠나 라이선스된 책 및 학술 논문을 사용하지 않기로 한 이전 결정을 포함하여 훈련 세트에 대한 과거 결정을 "무효화"하는 것을 고려하고 있다고 말했습니다. 이는 회사의 모델이 충분한 훈련 데이터를 확보하도록 하기 위함이었습니다.
나약은 메타의 자체 훈련 데이터셋 — 페이스북과 인스타그램 게시물, 메타 플랫폼의 비디오에서 전사된 텍스트, 특정 Meta for Business 메시지 등 — 이 충분하지 않다고 암시했습니다. "우리는 더 많은 데이터가 필요합니다,"라고 그녀는 썼습니다.
Kadrey v. Meta의 원고들은 2023년 캘리포니아 북부 지방 법원 샌프란시스코 분과에서 이 사건을 제기한 이후로 여러 차례 소장을 수정했습니다. 최신 수정은 메타가, 다른 주장들 중에서도, 특정 불법 복제된 책과 라이선스로 제공되는 저작권이 있는 책을 비교하여 출판사와 라이선스 계약을 추진할지 여부를 결정했다고 주장합니다.
메타가 이 사건의 법적 위험을 얼마나 심각하게 보고 있는지를 보여주는 신호로, 회사는 법무법인 Paul Weiss에서 두 명의 대법원 소송 변호사를 방어 팀에 추가했습니다.
메타는 논평 요청에 즉시 응답하지 않았습니다.
메타 AI가 이제 페이스북 마켓플레이스에서 구매자의 메시지에 응답합니다
페이스북 마켓플레이스가 구매자 문의에 대한 자동 응답 기능을 포함한 새로운 메타 AI 기능을 도입한다고 목요일 회사 측이 발표했다. 또한 이 플랫폼은 AI를 활용해 상품 등록을 가속화하고 판매자 프로필을 요약하며, 이제 판매자가 상품 목록에 배송 옵션을 제공할 수 있도록 지원한다.판매자들은 종종 수많은 구매자 문의를 받기 때문에, 페이스북은 메타 AI 기반
메타, 아마존 AI용 CPU 수백만 대 공급 계약 체결
아마존은 자체 설계 칩을 다시 한번 앞세워 메타(Meta)와 중요한 파트너십을 체결했다. 아마존은 금요일, 메타가 확대되는 AI 수요를 충족하기 위해 수백만 개의 AWS 그래비톤(Graviton) 칩을 도입하기로 합의했다고 밝혔다.참고로 AWS 그래비톤은 GPU(그래픽 처리 장치)가 아닌 ARM 기반 CPU(일반 컴퓨팅용으로 설계된 중앙 처리 장치)입니다.
메타의 천연가스 수요 급증으로 사우스다코타주 전력망에 활력을 불어넣을 수 있다
데이터 센터의 규모가 워낙 거대해져서, 현재 그 전력 소비량은 미국 내 한 주 전체의 소비량에 맞먹습니다. 메타(Meta)의 하이페리온(Hyperion) AI 데이터 센터를 예로 들어보겠습니다. 이 시설이 완공되면 사우스다코타주만큼의 전력을 소비하게 될 것입니다.메타는 최근 270억 달러 규모의 데이터 센터 운영을 지원하기 위해, 이미 계획된 3곳 외에도
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.





집






