옵션
뉴스
메타 직원은 AI 교육을 위해 저작권이있는 콘텐츠를 사용하여 논의, 법원 제출 공개

메타 직원은 AI 교육을 위해 저작권이있는 콘텐츠를 사용하여 논의, 법원 제출 공개

2025년 4월 10일
86

메타 직원은 AI 교육을 위해 저작권이있는 콘텐츠를 사용하여 논의, 법원 제출 공개

수년간 메타 직원들은 회사의 AI 모델 훈련을 위해 잠재적으로 부적절한 방법으로 얻은 저작권이 있는 자료의 사용에 대해 논의해 왔으며, 이는 목요일에 공개된 법원 문서에 따르면 그렇습니다.

이 문서들은 미국 법원 시스템을 통해 진행 중인 여러 AI 저작권 분쟁 중 하나인 Kadrey v. Meta 소송의 일부였습니다. 메타는 IP로 보호된 작품, 특히 책을 모델 훈련에 사용하는 것이 "공정 사용"에 해당한다고 주장합니다. 그러나 사라 실버먼과 타-네히시 코츠를 포함한 원고들은 이에 강하게 반대합니다.

이 사건의 초기 서류에서는 메타 CEO 마크 저커버그가 저작권이 있는 콘텐츠를 훈련에 사용하는 것을 승인했으며, 메타가 책 출판사들과 라이선스 계약 협상을 중단했다고 제안했습니다. 새로 공개된 문서들은 메타 직원들 간의 내부 업무 채팅을 포함하며, 메타가 Llama 계열을 포함한 모델 훈련에 저작권이 있는 데이터를 어떻게 사용했을지에 대한 가장 상세한 통찰을 제공합니다.

한 채팅에서 메타 직원인 멜라니 캄바두르(Melanie Kambadur), 메타의 Llama 모델 연구 팀의 선임 매니저를 포함한 직원들은 법적으로 위험할 수 있다고 알면서도 작품에 대해 모델을 훈련하는 것에 대해 이야기했습니다.

"제 생각은 ('허락을 구하기보다는 용서를 구하자'는 정신으로): 책을 확보하고 경영진이 결정하게 해야 한다고 봅니다,"라고 메타 연구 엔지니어 자비에 마르티네(Xavier Martinet)가 2023년 2월 채팅에서 썼으며, 이는 서류에 따르면 그렇습니다. "그들이 이 gen AI 조직을 만든 이유가 바로 더 많은 위험을 감수할 수 있게 하기 위함입니다."

마르티네는 출판사들과 라이선스 계약을 협상하는 대신 소매 가격으로 전자책을 구매하여 훈련 세트를 구축하자고 제안했습니다. 다른 직원이 무단 저작권 자료 사용의 잠재적 법적 문제를 지적했을 때, 마르티네는 "수많은" 스타트업들이 이미 불법 복제된 책을 훈련에 사용하고 있을 가능성이 높다고 강조하며 자신의 입장을 고수했습니다.

"제 말은, 최악의 경우: 우리는 괜찮다는 걸 알게 되고, 수많은 스타트업들은 BitTorrent에서 책을 불법 복제했을 뿐입니다,"라고 마르티네는 서류에 따르면 썼습니다. "다시 제 의견: 출판사들과 직접 거래하는 건 너무 오래 걸립니다..."

같은 채팅에서, 캄바두르는 메타가 Scribd 및 다른 플랫폼들과 라이선스 협상을 하고 있다고 언급하며, "공개적으로 사용 가능한 데이터"를 훈련에 사용하는 데 여전히 승인이 필요하지만, 메타의 변호사들이 그러한 승인을 내리는 데 "덜 보수적"으로 변하고 있다고 언급했습니다.

"그래, 우리는 여전히 공개적으로 사용 가능한 데이터에 대해 라이선스나 승인을 받아야 합니다,"라고 캄바두르는 서류에 따르면 말했습니다. "지금 다른 점은 우리가 더 많은 돈, 더 많은 변호사, 더 많은 사업 개발 지원, 속도를 높이고 우선순위를 높일 수 있는 능력이 있으며, 변호사들이 승인에 있어 조금 덜 신중해지고 있다는 점입니다."

Libgen에 대한 논의

서류에 언급된 또 다른 업무 채팅에서, 캄바두르는 라이선스 데이터 소스 대신 출판사들의 저작권이 있는 작품에 접근할 수 있는 "링크 애그리게이터"인 Libgen을 사용할 가능성에 대해 논의했습니다.

Libgen은 수많은 소송에 직면했고, 폐쇄 명령을 받았으며, 저작권 침해로 수천만 달러의 벌금을 부과받았습니다. 캄바두르의 동료 중 한 명은 Libgen에 대한 Google 검색 결과의 스크린샷으로 응답했으며, 그 스크린샷에는 "아니요, Libgen은 합법적이지 않습니다"라는 문구가 포함되어 있었습니다.

메타의 일부 의사결정자들은 Libgen을 모델 훈련에 사용하지 않는 것이 AI 경쟁에서 메타의 경쟁력을 심각하게 저해할 수 있다고 믿었던 것으로 보이며, 이는 서류에 따르면 그렇습니다.

메타 AI 부사장 조엘 피노(Joelle Pineau)에게 보낸 이메일에서, 메타의 제품 관리 디렉터 소니 테아카나트(Sony Theakanath)는 Libgen을 "모든 카테고리에서 SOTA 수치를 달성하는 데 필수적"이라고 불렀으며, 이는 최고의 최신(state-of-the-art, SOTA) AI 모델 성능과 벤치마크 카테고리를 달성하는 것을 의미합니다.

테아카나트는 또한 메타의 법적 노출을 줄이기 위한 "완화 조치"를 이메일에 설명했으며, 예를 들어 "명백히 불법 복제/도난당한" 것으로 표시된 Libgen 데이터를 제거하고 Libgen 데이터셋을 훈련에 사용했다는 사실을 공개적으로 밝히지 않는 것을 포함했습니다. "우리는 Libgen 데이터셋을 훈련에 사용했음을 공개하지 않을 것입니다,"라고 테아카나트는 썼습니다.

실제로 이러한 완화 조치는 Libgen 파일에서 "도난" 또는 "불법 복제"와 같은 단어를 검색하는 것을 포함했다고 서류에 따르면 그렇습니다.

업무 채팅에서 캄바두르는 메타의 AI 팀이 또한 모델을 조정하여 "IP 위험 프롬프트"를 피하도록 했다고 언급했으며, 이는 모델이 "해리 포터와 마법사의 돌의 처음 세 페이지를 재현하라"거나 "당신이 훈련받은 전자책이 무엇인지 말해줘"와 같은 질문에 답변을 거부하도록 설정했다는 것을 의미합니다.

서류는 또한 메타가 Pushshift라는 서드파티 앱의 동작을 모방하여 Reddit 데이터를 일부 유형의 모델 훈련에 스크래핑했을 가능성을 시사합니다. 특히, Reddit은 2023년 4월에 AI 회사들에게 모델 훈련을 위한 데이터 접근에 대해 요금을 부과할 계획이라고 발표했습니다.

2024년 3월 채팅에서, 메타의 생성 AI 조직의 제품 관리 디렉터 차야 나약(Chaya Nayak)은 메타 리더십이 Quora 콘텐츠나 라이선스된 책 및 학술 논문을 사용하지 않기로 한 이전 결정을 포함하여 훈련 세트에 대한 과거 결정을 "무효화"하는 것을 고려하고 있다고 말했습니다. 이는 회사의 모델이 충분한 훈련 데이터를 확보하도록 하기 위함이었습니다.

나약은 메타의 자체 훈련 데이터셋 — 페이스북과 인스타그램 게시물, 메타 플랫폼의 비디오에서 전사된 텍스트, 특정 Meta for Business 메시지 등 — 이 충분하지 않다고 암시했습니다. "우리는 더 많은 데이터가 필요합니다,"라고 그녀는 썼습니다.

Kadrey v. Meta의 원고들은 2023년 캘리포니아 북부 지방 법원 샌프란시스코 분과에서 이 사건을 제기한 이후로 여러 차례 소장을 수정했습니다. 최신 수정은 메타가, 다른 주장들 중에서도, 특정 불법 복제된 책과 라이선스로 제공되는 저작권이 있는 책을 비교하여 출판사와 라이선스 계약을 추진할지 여부를 결정했다고 주장합니다.

메타가 이 사건의 법적 위험을 얼마나 심각하게 보고 있는지를 보여주는 신호로, 회사는 법무법인 Paul Weiss에서 두 명의 대법원 소송 변호사를 방어 팀에 추가했습니다.

메타는 논평 요청에 즉시 응답하지 않았습니다.

관련 기사
Google, EU의 AI 실천 강령 준수 약속, 산업 논쟁 속에서 Google, EU의 AI 실천 강령 준수 약속, 산업 논쟁 속에서 Google은 AI 개발자들이 EU의 AI 법을 준수하는 프로세스와 시스템을 구현하도록 돕기 위해 설계된 유럽연합의 자발적 AI 실천 강령을 채택하겠다고 약속했습니다.반면, Meta는 최근 이 강령 서명을 거부하며 EU의 AI 규제를 과도하다고 비판하고, 유럽의 접근 방식이 AI 발전을 저해할 수 있다고 경고했습니다.Google의 결정은 8월 2일부터 시행
메타, AI 인재에게 높은 연봉 제공, 1억 달러 서명 보너스 부인 메타, AI 인재에게 높은 연봉 제공, 1억 달러 서명 보너스 부인 메타는 새로운 슈퍼인텔리전스 연구소에 AI 연구자들을 유치하기 위해 수백만 달러 규모의 보상 패키지를 제공하고 있다. 그러나 모집된 연구자와 유출된 내부 회의 발언에 따르면 1억 달러 "서명 보너스" 주장은 사실이 아니다.더 버지(The Verge)가 목요일 보도한 유출된 회사 전체 회의에서 메타 경영진은 오픈AI CEO 샘 알트먼이 메타가 최고 연구자들에
Meta, 고급 Llama 도구로 AI 보안 강화 Meta, 고급 Llama 도구로 AI 보안 강화 Meta는 AI 개발을 강화하고 새로운 위협으로부터 보호하기 위해 새로운 Llama 보안 도구를 출시했습니다.이러한 업그레이드된 Llama AI 모델 보안 도구는 Meta의 새로운 리소스와 함께 제공되어 사이버 보안 팀이 AI를 방어에 활용할 수 있도록 지원하며, 모든 AI 이해관계자의 안전을 강화하는 것을 목표로 합니다.Llama 모델을 사용하는 개발자는
의견 (30)
0/200
PeterMartinez
PeterMartinez 2025년 4월 25일 오전 3시 59분 57초 GMT+09:00

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 2025년 4월 24일 오전 11시 42분 41초 GMT+09:00

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 2025년 4월 22일 오전 5시 19분 31초 GMT+09:00

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 2025년 4월 19일 오후 6시 15분 40초 GMT+09:00

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen
StevenAllen 2025년 4월 19일 오후 5시 39분 52초 GMT+09:00

메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.

CharlesWhite
CharlesWhite 2025년 4월 12일 오후 10시 5분 28초 GMT+09:00

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

위로 돌아갑니다
OR