Исследование: модели OpenAI запомнили контент, защищенные авторским правом
Недавнее исследование предполагает, что OpenAI действительно могла использовать материалы, защищенные авторским правом, для обучения некоторых своих моделей ИИ, что подогревает продолжающиеся судебные тяжбы, с которыми сталкивается компания. Авторы, программисты и другие создатели контента обвиняют OpenAI в использовании их произведений — таких как книги и код — без разрешения для разработки своих моделей ИИ. Хотя OpenAI защищается, ссылаясь на добросовестное использование, истцы утверждают, что закон США об авторском праве не предусматривает исключений для обучающих данных.
Исследование, проведенное в сотрудничестве между исследователями из Вашингтонского университета, Копенгагенского университета и Стэнфорда, представляет новую технику для обнаружения «запомненных» обучающих данных в моделях, доступных через API, таких как модели от OpenAI. Модели ИИ по сути обучаются на огромных объемах данных, чтобы распознавать шаблоны, что позволяет им создавать эссе, изображения и многое другое. Хотя большинство выходных данных не являются прямыми копиями обучающих данных, некоторые неизбежно оказываются таковыми из-за процесса обучения. Например, известно, что модели изображений воспроизводят скриншоты из фильмов, а языковые модели уличены в практически плагиате новостных статей.
Метод, описанный в исследовании, фокусируется на «высокоудивительных» словах — словах, которые необычны в данном контексте. Например, в предложении «Джек и я сидели совершенно неподвижно, пока радар гудел», слово «радар» будет высокоудивительным, поскольку оно менее ожидаемо, чем слова вроде «двигатель» или «радио» перед словом «гудел».
Исследователи протестировали несколько моделей OpenAI, включая GPT-4 и GPT-3.5, удаляя высокоудивительные слова из отрывков художественных книг и статей New York Times и прося модели предсказать эти пропущенные слова. Если модели точно угадывали слова, это указывало на то, что они запомнили текст во время обучения.

Пример того, как модель «угадывает» высокоудивительное слово. Источник изображения: OpenAI Результаты показали, что GPT-4, вероятно, запомнила части популярных художественных книг, включая те, что находятся в наборе данных BookMIA с защищенными авторским правом электронными книгами. Также оказалось, что она запомнила некоторые статьи New York Times, хотя и с меньшей частотой.Абилаша Равичандер, докторант Вашингтонского университета и соавтор исследования, подчеркнула в беседе с TechCrunch, что эти результаты подчеркивают «спорные данные», которые могли быть использованы для обучения этих моделей. «Чтобы иметь большие языковые модели, которым можно доверять, нам нужны модели, которые мы можем исследовать, проверять и изучать научно», — заявила Равичандер. «Наша работа направлена на предоставление инструмента для исследования больших языковых моделей, но существует реальная потребность в большей прозрачности данных во всей экосистеме».
OpenAI настаивает на более мягких правилах использования данных, защищенных авторским правом, для разработки моделей ИИ. Хотя у компании есть некоторые соглашения о лицензировании контента и она предлагает варианты отказа для правообладателей, она лоббировала различные правительства, чтобы установить правила «добросовестного использования» специально для обучения ИИ.
Связанная статья
Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность
В то время как крупные технологические корпорации продвигают "агентов" искусственного интеллекта как средства повышения производительности бизнеса, одна некоммерческая организация демонстрирует их пот
Ведущие лаборатории искусственного интеллекта предупреждают, что человечество теряет понимание систем ИИ
В беспрецедентной демонстрации единства исследователи из OpenAI, Google DeepMind, Anthropic и Meta отложили в сторону конкурентные разногласия, чтобы выступить с коллективным предупреждением об ответс
ChatGPT добавляет интеграцию с Google Drive и Dropbox для доступа к файлам
ChatGPT повышает продуктивность благодаря новым корпоративным функциямКомпания OpenAI представила две новые мощные функции, превращающие ChatGPT в комплексный инструмент повышения производительности
Комментарии (32)
WilliamGonzalez
25 августа 2025 г., 12:01:06 GMT+03:00
This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤
0
GregoryBaker
23 августа 2025 г., 14:01:18 GMT+03:00
This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.
0
JohnGarcia
23 апреля 2025 г., 18:10:14 GMT+03:00
Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?
0
TimothyMitchell
22 апреля 2025 г., 3:12:42 GMT+03:00
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
0
WillLopez
21 апреля 2025 г., 14:49:05 GMT+03:00
오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔
0
WillMitchell
21 апреля 2025 г., 6:30:11 GMT+03:00
Este estudio sobre los modelos de OpenAI usando contenido con derechos de autor es bastante aterrador! 😱 Está genial que la IA se esté volviendo más inteligente, pero usar libros y códigos sin permiso no parece correcto. ¡Espero que lo resuelvan pronto! 🤞
0
Недавнее исследование предполагает, что OpenAI действительно могла использовать материалы, защищенные авторским правом, для обучения некоторых своих моделей ИИ, что подогревает продолжающиеся судебные тяжбы, с которыми сталкивается компания. Авторы, программисты и другие создатели контента обвиняют OpenAI в использовании их произведений — таких как книги и код — без разрешения для разработки своих моделей ИИ. Хотя OpenAI защищается, ссылаясь на добросовестное использование, истцы утверждают, что закон США об авторском праве не предусматривает исключений для обучающих данных.
Исследование, проведенное в сотрудничестве между исследователями из Вашингтонского университета, Копенгагенского университета и Стэнфорда, представляет новую технику для обнаружения «запомненных» обучающих данных в моделях, доступных через API, таких как модели от OpenAI. Модели ИИ по сути обучаются на огромных объемах данных, чтобы распознавать шаблоны, что позволяет им создавать эссе, изображения и многое другое. Хотя большинство выходных данных не являются прямыми копиями обучающих данных, некоторые неизбежно оказываются таковыми из-за процесса обучения. Например, известно, что модели изображений воспроизводят скриншоты из фильмов, а языковые модели уличены в практически плагиате новостных статей.
Метод, описанный в исследовании, фокусируется на «высокоудивительных» словах — словах, которые необычны в данном контексте. Например, в предложении «Джек и я сидели совершенно неподвижно, пока радар гудел», слово «радар» будет высокоудивительным, поскольку оно менее ожидаемо, чем слова вроде «двигатель» или «радио» перед словом «гудел».
Исследователи протестировали несколько моделей OpenAI, включая GPT-4 и GPT-3.5, удаляя высокоудивительные слова из отрывков художественных книг и статей New York Times и прося модели предсказать эти пропущенные слова. Если модели точно угадывали слова, это указывало на то, что они запомнили текст во время обучения.
Абилаша Равичандер, докторант Вашингтонского университета и соавтор исследования, подчеркнула в беседе с TechCrunch, что эти результаты подчеркивают «спорные данные», которые могли быть использованы для обучения этих моделей. «Чтобы иметь большие языковые модели, которым можно доверять, нам нужны модели, которые мы можем исследовать, проверять и изучать научно», — заявила Равичандер. «Наша работа направлена на предоставление инструмента для исследования больших языковых моделей, но существует реальная потребность в большей прозрачности данных во всей экосистеме».
OpenAI настаивает на более мягких правилах использования данных, защищенных авторским правом, для разработки моделей ИИ. Хотя у компании есть некоторые соглашения о лицензировании контента и она предлагает варианты отказа для правообладателей, она лоббировала различные правительства, чтобы установить правила «добросовестного использования» специально для обучения ИИ.




This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤




This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.




Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?




OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔




오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔




Este estudio sobre los modelos de OpenAI usando contenido con derechos de autor es bastante aterrador! 😱 Está genial que la IA se esté volviendo más inteligente, pero usar libros y códigos sin permiso no parece correcto. ¡Espero que lo resuelvan pronto! 🤞












