연구 : OpenAI 모델은 저작권이있는 컨텐츠를 암기합니다
최근 연구에 따르면 OpenAI가 일부 AI 모델 훈련에 저작권이 있는 자료를 실제로 사용했을 가능성이 있으며, 이는 회사가 직면한 지속적인 법적 분쟁에 불을 붙이고 있습니다. 작가, 프로그래머, 기타 콘텐츠 제작자들은 OpenAI가 책과 코드와 같은 그들의 작품을 허가 없이 AI 모델 개발에 사용했다고 비난해 왔습니다. OpenAI는 공정 사용(fair use)을 주장하며 스스로를 방어했지만, 원고들은 미국 저작권법이 훈련 데이터에 대한 예외를 제공하지 않는다고 주장합니다.
워싱턴 대학교, 코펜하겐 대학교, 스탠포드 대학교의 연구자들 간의 협력으로 진행된 이 연구는 OpenAI와 같은 API를 통해 접근 가능한 모델에서 "기억된" 훈련 데이터를 탐지하는 새로운 기술을 소개합니다. AI 모델은 방대한 데이터에서 패턴을 인식하도록 학습하여 에세이, 이미지 등을 생성할 수 있습니다. 대부분의 출력은 훈련 데이터의 직접적인 복사본이 아니지만, 학습 과정으로 인해 일부는 필연적으로 그러합니다. 예를 들어, 이미지 모델은 영화 스크린샷을 재현하는 것으로 알려져 있으며, 언어 모델은 뉴스 기사를 사실상 표절한 것으로 적발되었습니다.
연구에서 설명된 방법은 "고-놀람(high-surprisal)" 단어, 즉 주어진 문맥에서 드문 단어에 초점을 맞춥니다. 예를 들어, "Jack과 내가 레이더가 윙윙거리며 완벽히 가만히 앉아 있었다"라는 문장에서 "레이더"는 "엔진"이나 "라디오" 같은 단어보다 "윙윙거리다" 앞에 나올 가능성이 낮아 고-놀람 단어로 간주됩니다.
연구자들은 GPT-4와 GPT-3.5를 포함한 여러 OpenAI 모델을 테스트했으며, 소설 책과 뉴욕 타임스 기사 발췌문에서 고-놀람 단어를 제거한 후 모델이 이 누락된 단어를 예측하도록 요청했습니다. 모델이 단어를 정확히 맞췄다면, 이는 훈련 중 해당 텍스트를 기억했을 가능성을 시사합니다.

모델이 고-놀람 단어를 "추측"하는 예시. 이미지 제공: OpenAI 결과는 GPT-4가 BookMIA 데이터셋의 저작권이 있는 전자책을 포함한 인기 소설 책의 일부를 기억했을 가능성이 높음을 나타냈습니다. 또한 뉴욕 타임스 기사의 일부도 기억했을 가능성이 있지만, 그 빈도는 더 낮았습니다.워싱턴 대학교 박사 과정 학생이자 연구 공동 저자인 Abhilasha Ravichander는 TechCrunch에 이러한 결과가 모델 훈련에 사용되었을 가능성이 있는 "논란이 되는 데이터"를 강조한다고 말했습니다. "신뢰할 수 있는 대규모 언어 모델을 가지려면, 우리가 과학적으로 조사하고 감사하며 검토할 수 있는 모델이 필요합니다,"라고 Ravichander는 전했습니다. "우리의 작업은 대규모 언어 모델을 조사할 도구를 제공하는 것을 목표로 하지만, 전체 생태계에서 데이터 투명성이 더 필요합니다."
OpenAI는 AI 모델 개발에 저작권이 있는 데이터를 사용하는 데 있어 보다 완화된 규칙을 추진해 왔습니다. 회사는 일부 콘텐츠 라이선스 계약을 체결하고 저작권 소유자에게 옵트아웃 옵션을 제공했지만, AI 훈련에 특화된 "공정 사용" 규칙을 제정하도록 여러 정부에 로비해 왔습니다.
관련 기사
사티야 나델라, 새로운 오픈AI 협력을 활용할 준비가 되었다
수요일에 월스트리트의 한 애널리스트가 마이크로소프트의 사티야 나델라 CEO에게 개정된 오픈AI와의 파트너십이 회사의 재무 상황에 어떤 영향을 미칠지 직접 물었습니다.나델라는 이 새로운 협약이 모든 당사자에게 이익이 된다고 설명했습니다. “오픈AI와의 파트너십에 대해 우리는 만족하고 있습니다. 저는 언제나 모든 파트너십에서 상호 이익이 되도록 하는 데 집중합니다. 그렇게 해야만 좋은 파트너로 남을 수 있기 때문입니다.”그는 마이크로소프트가 여
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시
각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
그렉 브록맨이 일론 머스크가 오픈AI를 떠난 경위를 밝힌다
2017년 8월 말, 당시 소규모 비영리 연구소였던 OpenAI의 주요 인사들은 기술을 상용화하고 AGI 달성에 필요한 자금을 조달하기 위해 영리 법인을 설립하는 방안을 논의하기 위해 모였다.일론 머스크는 회사에 대한 전적인 통제권을 요구하고 있었으며, 막 공동 창업자 각자에게 테슬라 모델 3를 선물한 참이었다. 그렉 브록맨 최고기술책임자(CTO)는 머스크
관련 특별 주제 추천
의견 (33)
0/500
这篇文章提到的版权问题确实让人担忧,以后AI生成的内容会不会都带着'侵权'的标签?想想就觉得挺讽刺的,毕竟这些模型训练数据不透明,普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。
This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤
This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.
Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
최근 연구에 따르면 OpenAI가 일부 AI 모델 훈련에 저작권이 있는 자료를 실제로 사용했을 가능성이 있으며, 이는 회사가 직면한 지속적인 법적 분쟁에 불을 붙이고 있습니다. 작가, 프로그래머, 기타 콘텐츠 제작자들은 OpenAI가 책과 코드와 같은 그들의 작품을 허가 없이 AI 모델 개발에 사용했다고 비난해 왔습니다. OpenAI는 공정 사용(fair use)을 주장하며 스스로를 방어했지만, 원고들은 미국 저작권법이 훈련 데이터에 대한 예외를 제공하지 않는다고 주장합니다.
워싱턴 대학교, 코펜하겐 대학교, 스탠포드 대학교의 연구자들 간의 협력으로 진행된 이 연구는 OpenAI와 같은 API를 통해 접근 가능한 모델에서 "기억된" 훈련 데이터를 탐지하는 새로운 기술을 소개합니다. AI 모델은 방대한 데이터에서 패턴을 인식하도록 학습하여 에세이, 이미지 등을 생성할 수 있습니다. 대부분의 출력은 훈련 데이터의 직접적인 복사본이 아니지만, 학습 과정으로 인해 일부는 필연적으로 그러합니다. 예를 들어, 이미지 모델은 영화 스크린샷을 재현하는 것으로 알려져 있으며, 언어 모델은 뉴스 기사를 사실상 표절한 것으로 적발되었습니다.
연구에서 설명된 방법은 "고-놀람(high-surprisal)" 단어, 즉 주어진 문맥에서 드문 단어에 초점을 맞춥니다. 예를 들어, "Jack과 내가 레이더가 윙윙거리며 완벽히 가만히 앉아 있었다"라는 문장에서 "레이더"는 "엔진"이나 "라디오" 같은 단어보다 "윙윙거리다" 앞에 나올 가능성이 낮아 고-놀람 단어로 간주됩니다.
연구자들은 GPT-4와 GPT-3.5를 포함한 여러 OpenAI 모델을 테스트했으며, 소설 책과 뉴욕 타임스 기사 발췌문에서 고-놀람 단어를 제거한 후 모델이 이 누락된 단어를 예측하도록 요청했습니다. 모델이 단어를 정확히 맞췄다면, 이는 훈련 중 해당 텍스트를 기억했을 가능성을 시사합니다.

워싱턴 대학교 박사 과정 학생이자 연구 공동 저자인 Abhilasha Ravichander는 TechCrunch에 이러한 결과가 모델 훈련에 사용되었을 가능성이 있는 "논란이 되는 데이터"를 강조한다고 말했습니다. "신뢰할 수 있는 대규모 언어 모델을 가지려면, 우리가 과학적으로 조사하고 감사하며 검토할 수 있는 모델이 필요합니다,"라고 Ravichander는 전했습니다. "우리의 작업은 대규모 언어 모델을 조사할 도구를 제공하는 것을 목표로 하지만, 전체 생태계에서 데이터 투명성이 더 필요합니다."
OpenAI는 AI 모델 개발에 저작권이 있는 데이터를 사용하는 데 있어 보다 완화된 규칙을 추진해 왔습니다. 회사는 일부 콘텐츠 라이선스 계약을 체결하고 저작권 소유자에게 옵트아웃 옵션을 제공했지만, AI 훈련에 특화된 "공정 사용" 규칙을 제정하도록 여러 정부에 로비해 왔습니다.
사티야 나델라, 새로운 오픈AI 협력을 활용할 준비가 되었다
수요일에 월스트리트의 한 애널리스트가 마이크로소프트의 사티야 나델라 CEO에게 개정된 오픈AI와의 파트너십이 회사의 재무 상황에 어떤 영향을 미칠지 직접 물었습니다.나델라는 이 새로운 협약이 모든 당사자에게 이익이 된다고 설명했습니다. “오픈AI와의 파트너십에 대해 우리는 만족하고 있습니다. 저는 언제나 모든 파트너십에서 상호 이익이 되도록 하는 데 집중합니다. 그렇게 해야만 좋은 파트너로 남을 수 있기 때문입니다.”그는 마이크로소프트가 여
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시
각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
그렉 브록맨이 일론 머스크가 오픈AI를 떠난 경위를 밝힌다
2017년 8월 말, 당시 소규모 비영리 연구소였던 OpenAI의 주요 인사들은 기술을 상용화하고 AGI 달성에 필요한 자금을 조달하기 위해 영리 법인을 설립하는 방안을 논의하기 위해 모였다.일론 머스크는 회사에 대한 전적인 통제권을 요구하고 있었으며, 막 공동 창업자 각자에게 테슬라 모델 3를 선물한 참이었다. 그렉 브록맨 최고기술책임자(CTO)는 머스크
这篇文章提到的版权问题确实让人担忧,以后AI生成的内容会不会都带着'侵权'的标签?想想就觉得挺讽刺的,毕竟这些模型训练数据不透明,普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。
This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤
This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.
Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔





집






