вариант
Дом
Новости
Исследование: модели OpenAI запомнили контент, защищенные авторским правом

Исследование: модели OpenAI запомнили контент, защищенные авторским правом

10 апреля 2025 г.
265

Недавнее исследование предполагает, что OpenAI действительно могла использовать материалы, защищенные авторским правом, для обучения некоторых своих моделей ИИ, что подогревает продолжающиеся судебные тяжбы, с которыми сталкивается компания. Авторы, программисты и другие создатели контента обвиняют OpenAI в использовании их произведений — таких как книги и код — без разрешения для разработки своих моделей ИИ. Хотя OpenAI защищается, ссылаясь на добросовестное использование, истцы утверждают, что закон США об авторском праве не предусматривает исключений для обучающих данных.

Исследование, проведенное в сотрудничестве между исследователями из Вашингтонского университета, Копенгагенского университета и Стэнфорда, представляет новую технику для обнаружения «запомненных» обучающих данных в моделях, доступных через API, таких как модели от OpenAI. Модели ИИ по сути обучаются на огромных объемах данных, чтобы распознавать шаблоны, что позволяет им создавать эссе, изображения и многое другое. Хотя большинство выходных данных не являются прямыми копиями обучающих данных, некоторые неизбежно оказываются таковыми из-за процесса обучения. Например, известно, что модели изображений воспроизводят скриншоты из фильмов, а языковые модели уличены в практически плагиате новостных статей.

Метод, описанный в исследовании, фокусируется на «высокоудивительных» словах — словах, которые необычны в данном контексте. Например, в предложении «Джек и я сидели совершенно неподвижно, пока радар гудел», слово «радар» будет высокоудивительным, поскольку оно менее ожидаемо, чем слова вроде «двигатель» или «радио» перед словом «гудел».

Исследователи протестировали несколько моделей OpenAI, включая GPT-4 и GPT-3.5, удаляя высокоудивительные слова из отрывков художественных книг и статей New York Times и прося модели предсказать эти пропущенные слова. Если модели точно угадывали слова, это указывало на то, что они запомнили текст во время обучения.

Исследование об авторском праве OpenAI

Пример того, как модель «угадывает» высокоудивительное слово. Источник изображения: OpenAI
Результаты показали, что GPT-4, вероятно, запомнила части популярных художественных книг, включая те, что находятся в наборе данных BookMIA с защищенными авторским правом электронными книгами. Также оказалось, что она запомнила некоторые статьи New York Times, хотя и с меньшей частотой.

Абилаша Равичандер, докторант Вашингтонского университета и соавтор исследования, подчеркнула в беседе с TechCrunch, что эти результаты подчеркивают «спорные данные», которые могли быть использованы для обучения этих моделей. «Чтобы иметь большие языковые модели, которым можно доверять, нам нужны модели, которые мы можем исследовать, проверять и изучать научно», — заявила Равичандер. «Наша работа направлена на предоставление инструмента для исследования больших языковых моделей, но существует реальная потребность в большей прозрачности данных во всей экосистеме».

OpenAI настаивает на более мягких правилах использования данных, защищенных авторским правом, для разработки моделей ИИ. Хотя у компании есть некоторые соглашения о лицензировании контента и она предлагает варианты отказа для правообладателей, она лоббировала различные правительства, чтобы установить правила «добросовестного использования» специально для обучения ИИ.

Связанная статья
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI Грег Брокман рассказывает, как Илон Маск покинул OpenAI В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
Пентагон заключил соглашения с Nvidia, Microsoft и AWS о внедрении технологий искусственного интеллекта в секретные сети. Пентагон заключил соглашения с Nvidia, Microsoft и AWS о внедрении технологий искусственного интеллекта в секретные сети. После предыдущих соглашений с Google, SpaceX и OpenAI, Министерство обороны США в пятницу объявило о подписании договоров с Nvidia, Microsoft, Amazon Web Services и Reflection AI о использовании их технологий и моделей искусственного интеллекта в сек
Рекомендации по связанным специальным темам
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
код Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом
Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов
xix.ai
Анализ данных Лучшие инструменты для визуализации данных с помощью ИИ: автоматическое создание интерактивных панелей BI на основе исходных файлов
Лучшие инструменты для визуализации данных с помощью ИИ: автоматическое создание интерактивных панелей BI на основе исходных файлов

Откройте для себя лучшие инструменты визуализации данных на базе ИИ 2026 года на сайте XIX.AI. Наша тщательно отобранная подборка лидеров рейтинга поможет вам мгновенно создавать мощные интерактивные информационные панели BI на основе необработанных файлов. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемых рейтингов. Раскройте потенциал ваших данных уже сегодня.

10 инструментов
xix.ai
Комментарии (33)
0/500
JackAllen
JackAllen 30 декабря 2025 г., 17:30:40 GMT+03:00

这篇文章提到的版权问题确实让人担忧,以后AI生成的内容会不会都带着'侵权'的标签?想想就觉得挺讽刺的,毕竟这些模型训练数据不透明,普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。

WilliamGonzalez
WilliamGonzalez 25 августа 2025 г., 12:01:06 GMT+03:00

This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤

GregoryBaker
GregoryBaker 23 августа 2025 г., 14:01:18 GMT+03:00

This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.

JohnGarcia
JohnGarcia 23 апреля 2025 г., 18:10:14 GMT+03:00

Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?

TimothyMitchell
TimothyMitchell 22 апреля 2025 г., 3:12:42 GMT+03:00

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔

WillLopez
WillLopez 21 апреля 2025 г., 14:49:05 GMT+03:00

오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔

OR