вариант
Дом
Новости
Исследователи утверждают, что ИИ Openai обучался на платежных книгах О'Рейли

Исследователи утверждают, что ИИ Openai обучался на платежных книгах О'Рейли

7 апреля 2025 г.
169

Исследователи утверждают, что ИИ Openai обучался на платежных книгах О'Рейли

OpenAI столкнулся с многочисленными обвинениями в использовании защищенных авторским правом материала без разрешения на обучение моделей ИИ. Недавнее исследование, проведенное проектом по раскрытию информации AI, некоммерческой организации, созданная в 2024 году медиа-магнатом Тимом О'Рейли и экономистом Илан Штраусом, предполагает, что OpenAI, возможно, использовал непубличные книги из O'Reilly Media для обучения своей более продвинутой модели GPT-4O. Модели ИИ, по существу сложные двигатели прогнозирования, обучены обширным наборам данных, включая книги, фильмы и телешоу. Они изучают шаблоны и генерируют ответы на основе этих моделей, не создают что -то действительно новое, а скорее приближаются к их обширной базе знаний. По мере того, как реальные источники данных, такие как публичная сеть, исчерпаны, некоторые лаборатории искусственного интеллекта, включая OpenAI, начали использовать сгенерированные AI данных для обучения, хотя немногие полностью отказались от реальных данных из-за риска снижения производительности модели. В документе проекта AI раскрытия утверждается, что модель GPT-4O OpenAI, которая является по умолчанию в CHATGPT, показывает сильное распознавание контента из книг «О'Рейли», в отличие от более ранней модели Turbo GPT-3.5. В документе предполагается, что GPT-4O, вероятно, обучался этим непубличным книгам, несмотря на то, что O'Reilly Media не имел лицензионного соглашения с OpenAI. В исследовании использовался метод, называемый DE-COP, введенный в 2024 году, для обнаружения защищенного авторским правом контента в данных обучения искусственного интеллекта. Эта «атака по выводу членства» проверяет, может ли модель различать тексты, авторизованные человеком и парафразы, сгенерированные AI, что указывает на предварительное знание текста, если он может сделать это надежно. Исследователи протестировали модели GPT-4O, GPT-3.5 Turbo и другие модели OpenAI, используя 13 962 выдержки абзаца из 34 книг O'Reilly, обнаружив, что GPT-4O обнаружил значительно больше контента с платной, чем более старые модели. В то время как авторы признают, что их метод не является надежным, и что контент с платной, возможно, был представлен пользователями, копирующими и вставленными в CHATGPT, результаты поднимают вопросы о практике данных OpenAI. Исследование не оценило последние модели OpenAI, такие как модели GPT-4.5 и рассуждения, такие как O3-Mini и O1, оставив открыть возможность того, что они, возможно, не были обучены тем же данным. OpenAI стремится к более расслабленным законам об авторском праве, касающихся данных обучения ИИ и ищет более качественные источники данных. Компания даже наняла журналистов, чтобы усовершенствовать результаты своих моделей, практику, которую можно увидеть в отрасли искусственного интеллекта, где эксперты в различных областях набираются для улучшения систем ИИ. OpenAI платит за некоторые из своих учебных данных, имея лицензионные соглашения с различными поставщиками контента и предлагая механизмы отказа для владельцев авторских прав. Однако, поскольку компания сталкивается с юридическими проблемами в отношении своей практики данных, результаты бумаги O'Reilly отдают тень на свою деятельность. OpenAI не ответил на запросы о прокомментировании исследования.
Связанная статья
ИИ-гиперы Nvidia столкнулись с реальностью: 70-процентная маржа вызывает сомнения на фоне битв за умозаключения ИИ-гиперы Nvidia столкнулись с реальностью: 70-процентная маржа вызывает сомнения на фоне битв за умозаключения Войны за чипы искусственного интеллекта разгораются на VB Transform 2025Линии сражения были очерчены во время жаркой панельной дискуссии на VB Transform 2025, где растущие претенденты взяли под прице
OpenAI обновляет ChatGPT Pro до версии o3, повышая ценность ежемесячной подписки стоимостью $200 OpenAI обновляет ChatGPT Pro до версии o3, повышая ценность ежемесячной подписки стоимостью $200 На этой неделе технологические гиганты, включая Microsoft, Google и Anthropic, представили значительные разработки в области ИИ. OpenAI завершает шквал анонсов собственными революционными обновлениями
Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность В то время как крупные технологические корпорации продвигают "агентов" искусственного интеллекта как средства повышения производительности бизнеса, одна некоммерческая организация демонстрирует их пот
Комментарии (41)
PeterNelson
PeterNelson 31 июля 2025 г., 14:35:39 GMT+03:00

This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

HarperJones
HarperJones 23 апреля 2025 г., 5:24:27 GMT+03:00

OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔

WalterWhite
WalterWhite 18 апреля 2025 г., 22:33:48 GMT+03:00

OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔

BruceClark
BruceClark 18 апреля 2025 г., 5:02:34 GMT+03:00

OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔

DennisGarcia
DennisGarcia 18 апреля 2025 г., 4:58:35 GMT+03:00

I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔

AvaHill
AvaHill 16 апреля 2025 г., 21:00:26 GMT+03:00

Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔

Вернуться к вершине
OR