研究人员声称

Openai未经允许培训其AI模型,面临着众多使用受版权保护的材料的指控。 AI披露项目的最新研究是由媒体大亨蒂姆·奥莱利(Tim O'Reilly)和经济学家伊兰·斯特劳斯(Ilan Strauss)于2024年成立的非营利组织,这表明Openai可能使用O'Reilly Media的非公开书籍来培训其更高级的模型GPT-4O。 AI模型,本质上是复杂的预测引擎,在包括书籍,电影和电视节目在内的大量数据集上进行了培训。他们学习模式并根据这些模式产生响应,而不是创造任何真正的新事物,而是从他们广泛的知识库中近似。随着像公共网络这样的现实数据源变得筋疲力尽,包括OpenAI在内的一些AI实验室已经开始使用AI生成的数据进行培训,尽管由于降低模型性能的风险,很少有人完全放弃了现实世界中的数据。 AI披露项目的论文声称,与较早的GPT-3.5 Turbo Model不同,OpenAI的GPT-4O模型是CHATGPT中的默认模型,显示了对Paywalled O'Reilly Books的内容的强烈认可。该论文表明,尽管O'Reilly Media没有与OpenAI达成许可协议,但GPT-4O可能接受了这些非公共书籍的培训。该研究采用了一种名为DE-COP的方法,该方法于2024年引入,以检测AI培训数据中受版权保护的内容。这种“成员推理攻击”测试了模型是否可以区分人类作者的文本和AI生成的释义,这表明文本可靠地了解文本。研究人员使用34本O'Reilly书籍中的13,962段摘录测试了GPT-4O,GPT-3.5 Turbo和其他OpenAI模型,发现GPT-4O与较旧模型相比,GPT-4O认识到的收费内容要多得多。虽然作者承认他们的方法不是万无一失,并且用户复制并粘贴到chatgpt中可能引入了付费内容,但这些发现引发了有关OpenAI数据实践的疑问。该研究没有评估OpenAI的最新模型,例如GPT-4.5和O3-Mini和O1等推理模型,因此打开了可能未接受相同数据培训的可能性。 Openai一直在推动有关AI培训数据的更轻松的版权法,并一直在寻求更高质量的数据源。该公司甚至雇用了记者来完善其模型的产出,这是在AI行业看到的这种做法,在该行业中,招募了各个领域的专家以增强AI系统。 OpenAI确实为其某些培训数据付费,与各种内容提供商达成许可协议,并为版权所有者提供退出机制。但是,由于该公司在其数据实践方面面临法律挑战,因此O'Reilly Paper的发现对其运营产生了阴影。 Openai没有回应对该研究发表评论的请求。
相关文章
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心
据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
软银以6.76亿美元收购夏普工厂用于日本AI数据中心
软银正推进其在日本建立主要AI中心的计划,采取独立及与OpenAI等合作的方式。这家科技巨头周五确认,将投资6.76亿美元收购原夏普LCD面板工厂,将其改造成AI数据中心。软银与夏普的交易包括大阪堺工厂的土地和建筑,收购价为1000亿日元(6.76亿美元)。此次收购对软银至关重要,因为数据中心是生成式AI革命的关键,需要大量容量来训练模型并支持持续服务。当被问及该工厂是否支持OpenAI模型在日本
Adobe和Figma整合OpenAI的先进图像生成模型
OpenAI在ChatGPT中增强的图像生成功能引发了用户激增,这得益于其生成吉卜力工作室风格视觉效果和独特设计的能力,现已扩展到其他平台。该公司在一篇博客文章中宣布,驱动此功能的“原生多模态模型”将通过其API作为“gpt-image-1”提供,主要公司已开始采用。“该模型的灵活性使其能够生成多样化风格的图像,遵循自定义指南,利用广泛的世界知识,并准确渲染文本——为各行业开辟了广泛的实际应用,”
评论 (41)
0/200
PeterNelson
2025-07-31 19:35:39
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅
0
HarperJones
2025-04-23 10:24:27
OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔
0
WalterWhite
2025-04-19 03:33:48
OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔
0
BruceClark
2025-04-18 10:02:34
OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔
0
DennisGarcia
2025-04-18 09:58:35
I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔
0
AvaHill
2025-04-17 02:00:26
Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔
0


This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅




OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔




OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔




OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔




I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔




Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔












