옵션
뉴스
연구 : OpenAI 모델은 저작권이있는 컨텐츠를 암기합니다

연구 : OpenAI 모델은 저작권이있는 컨텐츠를 암기합니다

2025년 4월 10일
192

최근 연구에 따르면 OpenAI가 일부 AI 모델 훈련에 저작권이 있는 자료를 실제로 사용했을 가능성이 있으며, 이는 회사가 직면한 지속적인 법적 분쟁에 불을 붙이고 있습니다. 작가, 프로그래머, 기타 콘텐츠 제작자들은 OpenAI가 책과 코드와 같은 그들의 작품을 허가 없이 AI 모델 개발에 사용했다고 비난해 왔습니다. OpenAI는 공정 사용(fair use)을 주장하며 스스로를 방어했지만, 원고들은 미국 저작권법이 훈련 데이터에 대한 예외를 제공하지 않는다고 주장합니다.

워싱턴 대학교, 코펜하겐 대학교, 스탠포드 대학교의 연구자들 간의 협력으로 진행된 이 연구는 OpenAI와 같은 API를 통해 접근 가능한 모델에서 "기억된" 훈련 데이터를 탐지하는 새로운 기술을 소개합니다. AI 모델은 방대한 데이터에서 패턴을 인식하도록 학습하여 에세이, 이미지 등을 생성할 수 있습니다. 대부분의 출력은 훈련 데이터의 직접적인 복사본이 아니지만, 학습 과정으로 인해 일부는 필연적으로 그러합니다. 예를 들어, 이미지 모델은 영화 스크린샷을 재현하는 것으로 알려져 있으며, 언어 모델은 뉴스 기사를 사실상 표절한 것으로 적발되었습니다.

연구에서 설명된 방법은 "고-놀람(high-surprisal)" 단어, 즉 주어진 문맥에서 드문 단어에 초점을 맞춥니다. 예를 들어, "Jack과 내가 레이더가 윙윙거리며 완벽히 가만히 앉아 있었다"라는 문장에서 "레이더"는 "엔진"이나 "라디오" 같은 단어보다 "윙윙거리다" 앞에 나올 가능성이 낮아 고-놀람 단어로 간주됩니다.

연구자들은 GPT-4와 GPT-3.5를 포함한 여러 OpenAI 모델을 테스트했으며, 소설 책과 뉴욕 타임스 기사 발췌문에서 고-놀람 단어를 제거한 후 모델이 이 누락된 단어를 예측하도록 요청했습니다. 모델이 단어를 정확히 맞췄다면, 이는 훈련 중 해당 텍스트를 기억했을 가능성을 시사합니다.

OpenAI 저작권 연구

모델이 고-놀람 단어를 "추측"하는 예시. 이미지 제공: OpenAI
결과는 GPT-4가 BookMIA 데이터셋의 저작권이 있는 전자책을 포함한 인기 소설 책의 일부를 기억했을 가능성이 높음을 나타냈습니다. 또한 뉴욕 타임스 기사의 일부도 기억했을 가능성이 있지만, 그 빈도는 더 낮았습니다.

워싱턴 대학교 박사 과정 학생이자 연구 공동 저자인 Abhilasha Ravichander는 TechCrunch에 이러한 결과가 모델 훈련에 사용되었을 가능성이 있는 "논란이 되는 데이터"를 강조한다고 말했습니다. "신뢰할 수 있는 대규모 언어 모델을 가지려면, 우리가 과학적으로 조사하고 감사하며 검토할 수 있는 모델이 필요합니다,"라고 Ravichander는 전했습니다. "우리의 작업은 대규모 언어 모델을 조사할 도구를 제공하는 것을 목표로 하지만, 전체 생태계에서 데이터 투명성이 더 필요합니다."

OpenAI는 AI 모델 개발에 저작권이 있는 데이터를 사용하는 데 있어 보다 완화된 규칙을 추진해 왔습니다. 회사는 일부 콘텐츠 라이선스 계약을 체결하고 저작권 소유자에게 옵트아웃 옵션을 제공했지만, AI 훈련에 특화된 "공정 사용" 규칙을 제정하도록 여러 정부에 로비해 왔습니다.

관련 기사
AI 에이전트를 활용하여 자선 기금 모금 활동을 강화하는 비영리 단체 AI 에이전트를 활용하여 자선 기금 모금 활동을 강화하는 비영리 단체 주요 기술 기업들이 AI '에이전트'를 기업의 생산성을 높여주는 도구로 홍보하는 가운데, 한 비영리 단체는 사회적 공익을 위한 AI의 잠재력을 입증하고 있습니다. 오픈 필란트로피의 지원을 받는 자선 연구 단체인 세이지 퓨처는 최근 AI 모델이 자선 기금 모금에 어떻게 협력할 수 있는지 보여주는 혁신적인 실험을 진행했습니다.이 비영리 단체는 자선 단체를
최고의 AI 연구소, 인류가 AI 시스템에 대한 이해력을 잃어가고 있다고 경고하다 최고의 AI 연구소, 인류가 AI 시스템에 대한 이해력을 잃어가고 있다고 경고하다 전례 없는 단결력을 보여준 OpenAI, Google DeepMind, Anthropic, Meta의 연구원들은 경쟁적 차이를 제쳐두고 책임감 있는 AI 개발에 대한 공동의 경고를 발표했습니다. 일반적으로 라이벌 관계에 있는 이들 조직의 40여 명의 선도적인 과학자들은 AI 의사결정 과정의 투명성을 보장하기 위해 빠르게 닫혀가는 창을 강조하는 획기적인 연구
파일 액세스를 위한 Google 드라이브 및 Dropbox 통합 기능을 추가한 ChatGPT 파일 액세스를 위한 Google 드라이브 및 Dropbox 통합 기능을 추가한 ChatGPT 새로운 엔터프라이즈 기능으로 생산성을 향상시키는 ChatGPTOpenAI는 자동화된 회의 문서화 및 원활한 클라우드 스토리지 통합이라는 두 가지 강력한 새 기능을 통해 ChatGPT를 종합적인 비즈니스 생산성 도구로 탈바꿈시켰습니다.혁신적인 녹음 기능새로 도입된 '녹음 모드'를 통해 다음과 같은 중요한 비즈니스 미팅을 자동으로 녹음하고 분석할 수
의견 (32)
0/200
WilliamGonzalez
WilliamGonzalez 2025년 8월 25일 오후 6시 1분 6초 GMT+09:00

This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤

GregoryBaker
GregoryBaker 2025년 8월 23일 오후 8시 1분 18초 GMT+09:00

This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.

JohnGarcia
JohnGarcia 2025년 4월 24일 오전 12시 10분 14초 GMT+09:00

Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?

TimothyMitchell
TimothyMitchell 2025년 4월 22일 오전 9시 12분 42초 GMT+09:00

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔

WillLopez
WillLopez 2025년 4월 21일 오후 8시 49분 5초 GMT+09:00

오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔

WillMitchell
WillMitchell 2025년 4월 21일 오후 12시 30분 11초 GMT+09:00

Este estudio sobre los modelos de OpenAI usando contenido con derechos de autor es bastante aterrador! 😱 Está genial que la IA se esté volviendo más inteligente, pero usar libros y códigos sin permiso no parece correcto. ¡Espero que lo resuelvan pronto! 🤞

위로 돌아갑니다
OR