옵션
뉴스
연구 : OpenAI 모델은 저작권이있는 컨텐츠를 암기합니다

연구 : OpenAI 모델은 저작권이있는 컨텐츠를 암기합니다

2025년 4월 10일
265

최근 연구에 따르면 OpenAI가 일부 AI 모델 훈련에 저작권이 있는 자료를 실제로 사용했을 가능성이 있으며, 이는 회사가 직면한 지속적인 법적 분쟁에 불을 붙이고 있습니다. 작가, 프로그래머, 기타 콘텐츠 제작자들은 OpenAI가 책과 코드와 같은 그들의 작품을 허가 없이 AI 모델 개발에 사용했다고 비난해 왔습니다. OpenAI는 공정 사용(fair use)을 주장하며 스스로를 방어했지만, 원고들은 미국 저작권법이 훈련 데이터에 대한 예외를 제공하지 않는다고 주장합니다.

워싱턴 대학교, 코펜하겐 대학교, 스탠포드 대학교의 연구자들 간의 협력으로 진행된 이 연구는 OpenAI와 같은 API를 통해 접근 가능한 모델에서 "기억된" 훈련 데이터를 탐지하는 새로운 기술을 소개합니다. AI 모델은 방대한 데이터에서 패턴을 인식하도록 학습하여 에세이, 이미지 등을 생성할 수 있습니다. 대부분의 출력은 훈련 데이터의 직접적인 복사본이 아니지만, 학습 과정으로 인해 일부는 필연적으로 그러합니다. 예를 들어, 이미지 모델은 영화 스크린샷을 재현하는 것으로 알려져 있으며, 언어 모델은 뉴스 기사를 사실상 표절한 것으로 적발되었습니다.

연구에서 설명된 방법은 "고-놀람(high-surprisal)" 단어, 즉 주어진 문맥에서 드문 단어에 초점을 맞춥니다. 예를 들어, "Jack과 내가 레이더가 윙윙거리며 완벽히 가만히 앉아 있었다"라는 문장에서 "레이더"는 "엔진"이나 "라디오" 같은 단어보다 "윙윙거리다" 앞에 나올 가능성이 낮아 고-놀람 단어로 간주됩니다.

연구자들은 GPT-4와 GPT-3.5를 포함한 여러 OpenAI 모델을 테스트했으며, 소설 책과 뉴욕 타임스 기사 발췌문에서 고-놀람 단어를 제거한 후 모델이 이 누락된 단어를 예측하도록 요청했습니다. 모델이 단어를 정확히 맞췄다면, 이는 훈련 중 해당 텍스트를 기억했을 가능성을 시사합니다.

OpenAI 저작권 연구

모델이 고-놀람 단어를 "추측"하는 예시. 이미지 제공: OpenAI
결과는 GPT-4가 BookMIA 데이터셋의 저작권이 있는 전자책을 포함한 인기 소설 책의 일부를 기억했을 가능성이 높음을 나타냈습니다. 또한 뉴욕 타임스 기사의 일부도 기억했을 가능성이 있지만, 그 빈도는 더 낮았습니다.

워싱턴 대학교 박사 과정 학생이자 연구 공동 저자인 Abhilasha Ravichander는 TechCrunch에 이러한 결과가 모델 훈련에 사용되었을 가능성이 있는 "논란이 되는 데이터"를 강조한다고 말했습니다. "신뢰할 수 있는 대규모 언어 모델을 가지려면, 우리가 과학적으로 조사하고 감사하며 검토할 수 있는 모델이 필요합니다,"라고 Ravichander는 전했습니다. "우리의 작업은 대규모 언어 모델을 조사할 도구를 제공하는 것을 목표로 하지만, 전체 생태계에서 데이터 투명성이 더 필요합니다."

OpenAI는 AI 모델 개발에 저작권이 있는 데이터를 사용하는 데 있어 보다 완화된 규칙을 추진해 왔습니다. 회사는 일부 콘텐츠 라이선스 계약을 체결하고 저작권 소유자에게 옵트아웃 옵션을 제공했지만, AI 훈련에 특화된 "공정 사용" 규칙을 제정하도록 여러 정부에 로비해 왔습니다.

관련 기사
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시 오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시 각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
그렉 브록맨이 일론 머스크가 오픈AI를 떠난 경위를 밝힌다 그렉 브록맨이 일론 머스크가 오픈AI를 떠난 경위를 밝힌다 2017년 8월 말, 당시 소규모 비영리 연구소였던 OpenAI의 주요 인사들은 기술을 상용화하고 AGI 달성에 필요한 자금을 조달하기 위해 영리 법인을 설립하는 방안을 논의하기 위해 모였다.일론 머스크는 회사에 대한 전적인 통제권을 요구하고 있었으며, 막 공동 창업자 각자에게 테슬라 모델 3를 선물한 참이었다. 그렉 브록맨 최고기술책임자(CTO)는 머스크
미 국방부, 엔비디아, 마이크로소프트, AWS와 계약을 체결하여 기밀 네트워크에 인공지능 기술을 도입하기로 함 미 국방부, 엔비디아, 마이크로소프트, AWS와 계약을 체결하여 기밀 네트워크에 인공지능 기술을 도입하기로 함 이전에 구글, 스페이스X, 오픈AI와 합의를 이룬 데 이어, 미국 국방부는 금요일에 엔비디아, 마이크로소프트, 아마존 웹 서비스, 리플렉션 AI와도 계약을 체결했다고 발표했습니다. 이를 통해 해당 기업들의 AI 기술과 모델을 기밀 네트워크에 도입하여 “합법적인 운용 목적”으로 활용할 예정입니다.성명에서는 “이러한 계약들은 미군을 AI 중심의 전투력으로 전환하는 과정을 가속화하며, 모든 전쟁 분야에서 우리 군인들이 의사결정 우위를 유지할 수 있
관련 특별 주제 추천
사업 최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화
최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구
xix.ai
생산력 AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상
AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구
xix.ai
챗봇 최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요
최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구
xix.ai
교육 및 학습 최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기
최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구
xix.ai
챗봇 최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요
최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요

XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.

10 도구
xix.ai
암호 자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.
자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.

2026년에 출시된 최신이자 가장 높은 평가를 받는 AI 도구들을 만나보세요. 저희가 엄선한 이 도구들은 Jest, PyTest, JUnit 테스트 케이스를 즉시 생성할 수 있게 해주는 강력하고 혁신적인 솔루션들을 제공합니다. XIX.AI에서 무료 옵션과 유료 옵션을 실제 테스트 결과와 함께 비교해보시고, 매주 업데이트되는 순위를 확인해보세요. 지금 바로 AI의 장점을 활용하여 개발 생산성을 높이세요.

10 도구
xix.ai
의견 (33)
0/500
JackAllen
JackAllen 2025년 12월 30일 오후 11시 30분 40초 GMT+09:00

这篇文章提到的版权问题确实让人担忧,以后AI生成的内容会不会都带着'侵权'的标签?想想就觉得挺讽刺的,毕竟这些模型训练数据不透明,普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。

WilliamGonzalez
WilliamGonzalez 2025년 8월 25일 오후 6시 1분 6초 GMT+09:00

This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤

GregoryBaker
GregoryBaker 2025년 8월 23일 오후 8시 1분 18초 GMT+09:00

This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.

JohnGarcia
JohnGarcia 2025년 4월 24일 오전 12시 10분 14초 GMT+09:00

Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?

TimothyMitchell
TimothyMitchell 2025년 4월 22일 오전 9시 12분 42초 GMT+09:00

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔

WillLopez
WillLopez 2025년 4월 21일 오후 8시 49분 5초 GMT+09:00

오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔

OR