옵션
소식
연구 : OpenAI 모델은 저작권이있는 컨텐츠를 암기합니다

연구 : OpenAI 모델은 저작권이있는 컨텐츠를 암기합니다

2025년 4월 10일
147

최근의 연구에 따르면 OpenAi는 실제로 AI 모델 중 일부를 훈련시키기 위해 저작권이있는 자료를 사용하여 회사가 직면 한 진행중인 법적 전투에 연료를 추가했을 수 있습니다. 저자, 프로그래머 및 기타 컨텐츠 제작자는 AI 모델을 개발할 수있는 권한없이 OpenAi가 책과 코드와 같은 작품을 사용했다고 비난했습니다. OpenAi는 공정한 사용을 주장함으로써 스스로 방어했지만 원고는 미국 저작권법이 교육 데이터에 대한 예외를 제공하지 않는다고 주장합니다.

이 연구는 워싱턴 대학교, 코펜하겐 대학교 (University of Copenhagen)와 스탠포드 (Stanford)의 연구원들 사이의 협력에 대한이 연구는 OpenAI의 API와 같은 API를 통해 액세스 한 모델에서 "암기 된"훈련 데이터를 감지하는 새로운 기술을 소개합니다. AI 모델은 본질적으로 방대한 양의 데이터로부터 패턴을 인식하여 에세이, 이미지 등을 생성 할 수 있도록합니다. 대부분의 출력은 교육 데이터의 직접 사본이 아니지만 일부는 학습 과정에 기인합니다. 예를 들어, 이미지 모델은 영화 스크린 샷을 재현하는 것으로 알려져 있으며 언어 모델은 본질적으로 뉴스 기사를 표절했습니다.

이 연구에 설명 된 방법은 "고생기"단어, 즉 주어진 맥락에서 특이한 단어에 중점을 둡니다. 예를 들어, "Jack과 나는 레이더 허밍과 함께 완벽하게 앉아 있었고" "레이더"는 "엔진"또는 "무선"과 같은 단어보다 "허밍"보다 우선하기 때문에 높은 수면 단어가 될 것입니다.

연구원들은 소설 책과 뉴욕 타임즈 기사의 발췌문에서 높은 수면 단어를 제거하고 모델에 이러한 누락 된 단어를 예측하도록 요청함으로써 GPT-4 및 GPT-3.5를 포함한 몇 가지 OpenAI 모델을 테스트했습니다. 모델이 단어를 정확하게 추측했다면, 훈련 중에 텍스트를 외우 었다고 제안했습니다.

Openai 저작권 연구

모델을 "추측"하는 예의 예를 들면 고등적인 단어. 이미지 크레딧 : OpenAi
결과는 GPT-4가 저작권이있는 eBook의 BookMia 데이터 세트를 포함하여 인기있는 소설 책의 일부를 암기했을 가능성이 있음을 나타냅니다. 또한 뉴욕 타임즈 기사를 더 낮은 빈도로 암기 한 것으로 보입니다.

워싱턴 대학교의 박사 과정 학생 이자이 연구의 공동 저자 인 Abhilasha Ravichander는 이러한 결과가 이러한 모델을 훈련시키는 데 사용될 수있는 "논쟁적인 데이터"를 강조했다고 TechCrunch에 강조했다. Ravichander는“신뢰할 수있는 큰 언어 모델을 갖기 위해서는 과학적으로 조사하고 감사하고 조사 할 수있는 모델이 필요합니다. "우리의 작업은 대형 언어 모델을 조사하는 도구를 제공하는 것을 목표로하지만 전체 생태계에서 더 큰 데이터 투명성이 필요합니다."

OpenAI는 저작권이있는 데이터를 사용하여 AI 모델을 개발하는 데있어보다 편안한 규칙을 추진했습니다. 회사는 콘텐츠 라이센스 계약을 맺고 있으며 저작권 보유자를위한 옵트 아웃 옵션을 제공하지만 AI 교육을위한 "공정 사용"규칙을 수립하기 위해 다양한 정부를 로비했습니다.

관련 기사
OpenAI升級其Operator Agent的AI模型 OpenAI升級其Operator Agent的AI模型 OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
의견 (30)
0/200
AlbertHernández
AlbertHernández 2025년 4월 15일 오전 12시 0분 0초 GMT

This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔

TimothyMitchell
TimothyMitchell 2025년 4월 22일 오전 12시 0분 0초 GMT

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔

WillLopez
WillLopez 2025년 4월 21일 오전 12시 0분 0초 GMT

오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔

JamesMiller
JamesMiller 2025년 4월 11일 오전 12시 0분 0초 GMT

Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔

BruceSmith
BruceSmith 2025년 4월 13일 오전 12시 0분 0초 GMT

Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔

JohnWilson
JohnWilson 2025년 4월 18일 오전 12시 0분 0초 GMT

This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞

위로 돌아갑니다
OR