研究人員聲稱

Openai未經允許培訓其AI模型,面臨著眾多使用受版權保護的材料的指控。 AI披露項目的最新研究是由媒體大亨蒂姆·奧萊利(Tim O'Reilly)和經濟學家伊蘭·斯特勞斯(Ilan Strauss)於2024年成立的非營利組織,這表明Openai可能使用O'Reilly Media的非公開書籍來培訓其更高級的模型GPT-4O。 AI模型,本質上是複雜的預測引擎,在包括書籍,電影和電視節目在內的大量數據集上進行了培訓。他們學習模式並根據這些模式產生響應,而不是創造任何真正的新事物,而是從他們廣泛的知識庫中近似。隨著像公共網絡這樣的現實數據源變得筋疲力盡,包括OpenAI在內的一些AI實驗室已經開始使用AI生成的數據進行培訓,儘管由於降低模型性能的風險,很少有人完全放棄了現實世界中的數據。 AI披露項目的論文聲稱,與較早的GPT-3.5 Turbo Model不同,OpenAI的GPT-4O模型是CHATGPT中的默認模型,顯示了對Paywalled O'Reilly Books的內容的強烈認可。該論文表明,儘管O'Reilly Media沒有與OpenAI達成許可協議,但GPT-4O可能接受了這些非公共書籍的培訓。該研究採用了一種名為DE-COP的方法,該方法於2024年引入,以檢測AI培訓數據中受版權保護的內容。這種“成員推理攻擊”測試了模型是否可以區分人類作者的文本和AI生成的釋義,這表明文本可靠地了解文本。研究人員使用34本O'Reilly書籍中的13,962段摘錄測試了GPT-4O,GPT-3.5 Turbo和其他OpenAI模型,發現GPT-4O與較舊模型相比,GPT-4O認識到的收費內容要多得多。雖然作者承認他們的方法不是萬無一失,並且用戶複製並粘貼到chatgpt中可能引入了付費內容,但這些發現引發了有關OpenAI數據實踐的疑問。該研究沒有評估OpenAI的最新模型,例如GPT-4.5和O3-Mini和O1等推理模型,因此打開了可能未接受相同數據培訓的可能性。 Openai一直在推動有關AI培訓數據的更輕鬆的版權法,並一直在尋求更高質量的數據源。該公司甚至僱用了記者來完善其模型的產出,這是在AI行業看到的這種做法,在該行業中,招募了各個領域的專家以增強AI系統。 OpenAI確實為其某些培訓數據付費,與各種內容提供商達成許可協議,並為版權所有者提供退出機制。但是,由於該公司在其數據實踐方面面臨法律挑戰,因此O'Reilly Paper的發現對其運營產生了陰影。 Openai沒有回應對該研究發表評論的請求。
相關文章
Nvidia 的人工智慧炒作遭遇現實,70% 的邊際利潤在推理戰中備受審查
人工智慧晶片大戰在 VB Transform 2025 上爆發在 VB Transform 2025 的一場火熱的專題討論中,戰線已經劃下,崛起的挑戰者直接針對 Nvidia 的市場主導地位。中心問題暴露了一個明顯的矛盾:AI 推理如何能同時被形容為商品化的「工廠」,同時又能提供 70% 的龐大毛利率?挑戰者發聲Groq 執行長 Jonathan Ross 一語道破業界的玄機:"「AI工廠
OpenAI 將 ChatGPT Pro 升級至 o3,提升每月 200 美元訂閱的價值
本週,包括 Microsoft、Google 和 Anthropic 在內的科技巨擘都發表了重要的 AI 發展。OpenAI 以自己的突破性更新結束了這一連串的公告 - 除了高調地以 65 億美元收購 Jony Ive 的設計公司,推出代號為「io」的雄心勃勃的硬體計畫之外。該公司已大幅強化 ChatGPT 內的 Operator 自主網頁導覽系統,從先前的 GPT-4o 架構過渡到先進的 o3
非營利組織利用 AI 代理提升慈善募款工作
當各大科技公司將人工智慧「代理」推廣為企業生產力的助推器時,一家非營利組織正在展示人工智慧在社會公益方面的潛力。由 Open Philanthropy 支持的慈善研究組織 Sage Future 最近進行了一項創新實驗,展示 AI 模型如何協同進行慈善募款。該非營利組織將 OpenAI 的 GPT-4o 與 o1,以及 Anthropic 的 Claude 3.6 與 3.7 Sonnet 等
評論 (41)
0/200
PeterNelson
2025-07-31 19:35:39
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅
0
HarperJones
2025-04-23 10:24:27
OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔
0
WalterWhite
2025-04-19 03:33:48
OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔
0
BruceClark
2025-04-18 10:02:34
OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔
0
DennisGarcia
2025-04-18 09:58:35
I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔
0
AvaHill
2025-04-17 02:00:26
Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔
0




This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅




OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔




OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔




OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔




I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔




Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔












