연구 : OpenAI 모델은 저작권이있는 컨텐츠를 암기합니다

집

뉴스

2025년 4월 10일

RonaldHernández

265

# openai # Study

최근 연구에 따르면 OpenAI가 일부 AI 모델 훈련에 저작권이 있는 자료를 실제로 사용했을 가능성이 있으며, 이는 회사가 직면한 지속적인 법적 분쟁에 불을 붙이고 있습니다. 작가, 프로그래머, 기타 콘텐츠 제작자들은 OpenAI가 책과 코드와 같은 그들의 작품을 허가 없이 AI 모델 개발에 사용했다고 비난해 왔습니다. OpenAI는 공정 사용(fair use)을 주장하며 스스로를 방어했지만, 원고들은 미국 저작권법이 훈련 데이터에 대한 예외를 제공하지 않는다고 주장합니다.

워싱턴 대학교, 코펜하겐 대학교, 스탠포드 대학교의 연구자들 간의 협력으로 진행된 이 연구는 OpenAI와 같은 API를 통해 접근 가능한 모델에서 "기억된" 훈련 데이터를 탐지하는 새로운 기술을 소개합니다. AI 모델은 방대한 데이터에서 패턴을 인식하도록 학습하여 에세이, 이미지 등을 생성할 수 있습니다. 대부분의 출력은 훈련 데이터의 직접적인 복사본이 아니지만, 학습 과정으로 인해 일부는 필연적으로 그러합니다. 예를 들어, 이미지 모델은 영화 스크린샷을 재현하는 것으로 알려져 있으며, 언어 모델은 뉴스 기사를 사실상 표절한 것으로 적발되었습니다.

연구에서 설명된 방법은 "고-놀람(high-surprisal)" 단어, 즉 주어진 문맥에서 드문 단어에 초점을 맞춥니다. 예를 들어, "Jack과 내가 레이더가 윙윙거리며 완벽히 가만히 앉아 있었다"라는 문장에서 "레이더"는 "엔진"이나 "라디오" 같은 단어보다 "윙윙거리다" 앞에 나올 가능성이 낮아 고-놀람 단어로 간주됩니다.

연구자들은 GPT-4와 GPT-3.5를 포함한 여러 OpenAI 모델을 테스트했으며, 소설 책과 뉴욕 타임스 기사 발췌문에서 고-놀람 단어를 제거한 후 모델이 이 누락된 단어를 예측하도록 요청했습니다. 모델이 단어를 정확히 맞췄다면, 이는 훈련 중 해당 텍스트를 기억했을 가능성을 시사합니다.

OpenAI 저작권 연구

모델이 고-놀람 단어를 "추측"하는 예시. 이미지 제공: OpenAI

결과는 GPT-4가 BookMIA 데이터셋의 저작권이 있는 전자책을 포함한 인기 소설 책의 일부를 기억했을 가능성이 높음을 나타냈습니다. 또한 뉴욕 타임스 기사의 일부도 기억했을 가능성이 있지만, 그 빈도는 더 낮았습니다.

워싱턴 대학교 박사 과정 학생이자 연구 공동 저자인 Abhilasha Ravichander는 TechCrunch에 이러한 결과가 모델 훈련에 사용되었을 가능성이 있는 "논란이 되는 데이터"를 강조한다고 말했습니다. "신뢰할 수 있는 대규모 언어 모델을 가지려면, 우리가 과학적으로 조사하고 감사하며 검토할 수 있는 모델이 필요합니다,"라고 Ravichander는 전했습니다. "우리의 작업은 대규모 언어 모델을 조사할 도구를 제공하는 것을 목표로 하지만, 전체 생태계에서 데이터 투명성이 더 필요합니다."

OpenAI는 AI 모델 개발에 저작권이 있는 데이터를 사용하는 데 있어 보다 완화된 규칙을 추진해 왔습니다. 회사는 일부 콘텐츠 라이선스 계약을 체결하고 저작권 소유자에게 옵트아웃 옵션을 제공했지만, AI 훈련에 특화된 "공정 사용" 규칙을 제정하도록 여러 정부에 로비해 왔습니다.

관련 특별 주제 추천

사업

최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요

2026년 최신 최고의 AI 경비 관리 도구: 영수증을 스캔하고 기업 경비를 자동으로 분류해 주는 최고 평점의 도구들. 손쉬운 경비 관리, 정확한 재무 추적, 효율적인 규정 준수를 위한 강력하고 혁신적인 솔루션을 만나보세요. 무료 및 유료 옵션을 엄선하여 매주 업데이트되는 비교 자료를 통해 귀사에 딱 맞는 도구를 찾으실 수 있습니다. XIX.AI의 전문가 추천 목록으로 AI의 장점을 최대한 활용하세요.

10 도구

xix.ai

사업

최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구

xix.ai

생산력

AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구

xix.ai

챗봇

최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구

xix.ai

교육 및 학습

최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구

xix.ai

챗봇

최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요

XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.

10 도구

xix.ai

의견 (33)

0/500

먼저 로그인하십시오

JackAllen

2025년 12월 30일 오후 11시 30분 40초 GMT+09:00

这篇文章提到的版权问题确实让人担忧，以后AI生成的内容会不会都带着'侵权'的标签？想想就觉得挺讽刺的，毕竟这些模型训练数据不透明，普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。

WilliamGonzalez

2025년 8월 25일 오후 6시 1분 6초 GMT+09:00

This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤

GregoryBaker

2025년 8월 23일 오후 8시 1분 18초 GMT+09:00

This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.

JohnGarcia

2025년 4월 24일 오전 12시 10분 14초 GMT+09:00

Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?

TimothyMitchell

2025년 4월 22일 오전 9시 12분 42초 GMT+09:00

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね！クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね？🤔

WillLopez

2025년 4월 21일 오후 8시 49분 5초 GMT+09:00

최고의 뉴스

AI Builder와 Power Automate가 문서 요약을 혁신하다 AI Notebooklm Podcast의 AI 호스트는 이제 인터뷰에 참여할 수 있습니다 중국, 국가 휴머노이드 로봇 및 구현 지능 표준 공개 기업 AI 도입 정체기, 램프 데이터에 따르면 Bing 이미지 크리에이터 튜토리얼: AI 아트 생성 가이드 당신의 목소리를 사용하여 AI 음악 만들기 배우기 : 단계별 Suno 튜토리얼 iMyFone MagicMic: 실시간 AI 음성 변환기 리뷰 및 튜토리얼 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 딥시크 V4, 다중 모달 AI의 판도를 바꾸는 혁신으로 부상하다 엠보디드 인텔리전스, 무분별한 확장을 억제하기 위한 업계 최초의 표준을 발표하다

더