Исследователи утверждают, что ИИ Openai обучался на платежных книгах О'Рейли

OpenAI столкнулся с многочисленными обвинениями в использовании защищенных авторским правом материала без разрешения на обучение моделей ИИ. Недавнее исследование, проведенное проектом по раскрытию информации AI, некоммерческой организации, созданная в 2024 году медиа-магнатом Тимом О'Рейли и экономистом Илан Штраусом, предполагает, что OpenAI, возможно, использовал непубличные книги из O'Reilly Media для обучения своей более продвинутой модели GPT-4O. Модели ИИ, по существу сложные двигатели прогнозирования, обучены обширным наборам данных, включая книги, фильмы и телешоу. Они изучают шаблоны и генерируют ответы на основе этих моделей, не создают что -то действительно новое, а скорее приближаются к их обширной базе знаний. По мере того, как реальные источники данных, такие как публичная сеть, исчерпаны, некоторые лаборатории искусственного интеллекта, включая OpenAI, начали использовать сгенерированные AI данных для обучения, хотя немногие полностью отказались от реальных данных из-за риска снижения производительности модели. В документе проекта AI раскрытия утверждается, что модель GPT-4O OpenAI, которая является по умолчанию в CHATGPT, показывает сильное распознавание контента из книг «О'Рейли», в отличие от более ранней модели Turbo GPT-3.5. В документе предполагается, что GPT-4O, вероятно, обучался этим непубличным книгам, несмотря на то, что O'Reilly Media не имел лицензионного соглашения с OpenAI. В исследовании использовался метод, называемый DE-COP, введенный в 2024 году, для обнаружения защищенного авторским правом контента в данных обучения искусственного интеллекта. Эта «атака по выводу членства» проверяет, может ли модель различать тексты, авторизованные человеком и парафразы, сгенерированные AI, что указывает на предварительное знание текста, если он может сделать это надежно. Исследователи протестировали модели GPT-4O, GPT-3.5 Turbo и другие модели OpenAI, используя 13 962 выдержки абзаца из 34 книг O'Reilly, обнаружив, что GPT-4O обнаружил значительно больше контента с платной, чем более старые модели. В то время как авторы признают, что их метод не является надежным, и что контент с платной, возможно, был представлен пользователями, копирующими и вставленными в CHATGPT, результаты поднимают вопросы о практике данных OpenAI. Исследование не оценило последние модели OpenAI, такие как модели GPT-4.5 и рассуждения, такие как O3-Mini и O1, оставив открыть возможность того, что они, возможно, не были обучены тем же данным. OpenAI стремится к более расслабленным законам об авторском праве, касающихся данных обучения ИИ и ищет более качественные источники данных. Компания даже наняла журналистов, чтобы усовершенствовать результаты своих моделей, практику, которую можно увидеть в отрасли искусственного интеллекта, где эксперты в различных областях набираются для улучшения систем ИИ. OpenAI платит за некоторые из своих учебных данных, имея лицензионные соглашения с различными поставщиками контента и предлагая механизмы отказа для владельцев авторских прав. Однако, поскольку компания сталкивается с юридическими проблемами в отношении своей практики данных, результаты бумаги O'Reilly отдают тень на свою деятельность. OpenAI не ответил на запросы о прокомментировании исследования.
Связанная статья
OpenAI приобрела стартап Hiro, занимающийся разработкой решений для управления личными финансами на базе искусственного интеллекта
OpenAI приобрела стартап Hiro Finance, занимающийся управлением личными финансами, о чем в понедельник сообщил его основатель Итан Блок; компания OpenAI подтвердила эту сделку изданию TechCrunch. Инве
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Рекомендации по связанным специальным темам
Комментарии (42)
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

OpenAI приобрела стартап Hiro, занимающийся разработкой решений для управления личными финансами на базе искусственного интеллекта
OpenAI приобрела стартап Hiro Finance, занимающийся управлением личными финансами, о чем в понедельник сообщил его основатель Итан Блок; компания OpenAI подтвердила эту сделку изданию TechCrunch. Инве
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅





Дом






