вариант
Дом
Новости
Исследователи утверждают, что ИИ Openai обучался на платежных книгах О'Рейли

Исследователи утверждают, что ИИ Openai обучался на платежных книгах О'Рейли

7 апреля 2025 г.
161

Исследователи утверждают, что ИИ Openai обучался на платежных книгах О'Рейли

OpenAI столкнулся с многочисленными обвинениями в использовании защищенных авторским правом материала без разрешения на обучение моделей ИИ. Недавнее исследование, проведенное проектом по раскрытию информации AI, некоммерческой организации, созданная в 2024 году медиа-магнатом Тимом О'Рейли и экономистом Илан Штраусом, предполагает, что OpenAI, возможно, использовал непубличные книги из O'Reilly Media для обучения своей более продвинутой модели GPT-4O. Модели ИИ, по существу сложные двигатели прогнозирования, обучены обширным наборам данных, включая книги, фильмы и телешоу. Они изучают шаблоны и генерируют ответы на основе этих моделей, не создают что -то действительно новое, а скорее приближаются к их обширной базе знаний. По мере того, как реальные источники данных, такие как публичная сеть, исчерпаны, некоторые лаборатории искусственного интеллекта, включая OpenAI, начали использовать сгенерированные AI данных для обучения, хотя немногие полностью отказались от реальных данных из-за риска снижения производительности модели. В документе проекта AI раскрытия утверждается, что модель GPT-4O OpenAI, которая является по умолчанию в CHATGPT, показывает сильное распознавание контента из книг «О'Рейли», в отличие от более ранней модели Turbo GPT-3.5. В документе предполагается, что GPT-4O, вероятно, обучался этим непубличным книгам, несмотря на то, что O'Reilly Media не имел лицензионного соглашения с OpenAI. В исследовании использовался метод, называемый DE-COP, введенный в 2024 году, для обнаружения защищенного авторским правом контента в данных обучения искусственного интеллекта. Эта «атака по выводу членства» проверяет, может ли модель различать тексты, авторизованные человеком и парафразы, сгенерированные AI, что указывает на предварительное знание текста, если он может сделать это надежно. Исследователи протестировали модели GPT-4O, GPT-3.5 Turbo и другие модели OpenAI, используя 13 962 выдержки абзаца из 34 книг O'Reilly, обнаружив, что GPT-4O обнаружил значительно больше контента с платной, чем более старые модели. В то время как авторы признают, что их метод не является надежным, и что контент с платной, возможно, был представлен пользователями, копирующими и вставленными в CHATGPT, результаты поднимают вопросы о практике данных OpenAI. Исследование не оценило последние модели OpenAI, такие как модели GPT-4.5 и рассуждения, такие как O3-Mini и O1, оставив открыть возможность того, что они, возможно, не были обучены тем же данным. OpenAI стремится к более расслабленным законам об авторском праве, касающихся данных обучения ИИ и ищет более качественные источники данных. Компания даже наняла журналистов, чтобы усовершенствовать результаты своих моделей, практику, которую можно увидеть в отрасли искусственного интеллекта, где эксперты в различных областях набираются для улучшения систем ИИ. OpenAI платит за некоторые из своих учебных данных, имея лицензионные соглашения с различными поставщиками контента и предлагая механизмы отказа для владельцев авторских прав. Однако, поскольку компания сталкивается с юридическими проблемами в отношении своей практики данных, результаты бумаги O'Reilly отдают тень на свою деятельность. OpenAI не ответил на запросы о прокомментировании исследования.
Связанная статья
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
SoftBank приобретает завод Sharp за $676 млн для центра данных ИИ в Японии SoftBank приобретает завод Sharp за $676 млн для центра данных ИИ в Японии SoftBank продвигает свою цель создания крупного центра ИИ в Японии, как самостоятельно, так и через партнерства, такие как OpenAI. Технический гигант подтвердил в пятницу, что инвестирует $676 миллион
Adobe и Figma интегрируют продвинутую модель генерации изображений OpenAI Adobe и Figma интегрируют продвинутую модель генерации изображений OpenAI Улучшенная генерация изображений в ChatGPT от OpenAI вызвала всплеск интереса пользователей благодаря способности создавать визуальные образы в стиле Studio Ghibli и уникальные дизайны, и теперь эта ф
Комментарии (41)
PeterNelson
PeterNelson 31 июля 2025 г., 14:35:39 GMT+03:00

This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

HarperJones
HarperJones 23 апреля 2025 г., 5:24:27 GMT+03:00

OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔

WalterWhite
WalterWhite 18 апреля 2025 г., 22:33:48 GMT+03:00

OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔

BruceClark
BruceClark 18 апреля 2025 г., 5:02:34 GMT+03:00

OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔

DennisGarcia
DennisGarcia 18 апреля 2025 г., 4:58:35 GMT+03:00

I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔

AvaHill
AvaHill 16 апреля 2025 г., 21:00:26 GMT+03:00

Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔

Вернуться к вершине
OR