研究者は、Paywalled O'Reillyの本で訓練されたOpenaiのAIが主張しています

Openaiは、AIモデルを訓練する許可なしに、著作権で保護された資料を使用しているという多くの告発に直面しています。 2024年にメディアの大御所ティムオライリーとエコノミストのイランストラウスによって設立された非営利団体であるAI Disclosures Projectによる最近の研究は、OpenaiがO'Reilly Mediaの非公開の本を使用してより高度なモデルであるGPT-4Oを訓練した可能性があることを示唆しています。基本的に洗練された予測エンジン、AIモデルは、本、映画、テレビ番組などの広大なデータセットでトレーニングされています。彼らはこれらのパターンに基づいてパターンを学び、応答を生成します。本当に新しいものを作成するのではなく、広範な知識ベースから近似しています。パブリックウェブのような実際のデータソースが使い果たされると、OpenaIを含む一部のAIラボは、モデルのパフォーマンスの低下のリスクのために実際のデータを完全に放棄したものはほとんどありませんが、トレーニングにAIに生成されたデータの使用を開始しました。 AI開示プロジェクトの論文は、CHATGPTのデフォルトであるOpenAIのGPT-4Oモデルは、以前のGPT-3.5ターボモデルとは異なり、Paywalled O'Reillyの本からのコンテンツの強力な認識を示していると主張しています。この論文は、O'Reilly MediaがOpenaiとライセンス契約を結んでいないにもかかわらず、GPT-4oがこれらの非公開の本で訓練された可能性が高いことを示唆しています。この調査では、2024年に導入されたDE-COPと呼ばれる方法を採用して、AIトレーニングデータの著作権で保護されたコンテンツを検出しました。この「メンバーシップ推論攻撃」は、モデルがヒト著作テキストとAI生成された言い換えを区別できるかどうかをテストし、テキストが確実に行うことができるかどうかを示しています。研究者は、34 O'Reillyの本からの13,962段落の抜粋を使用して、GPT-4O、GPT-3.5ターボ、およびその他のOpenAIモデルをテストし、GPT-4Oが古いモデルよりも有意にペイウォールコンテンツを認識したことを発見しました。著者は、自分の方法が絶対確実ではなく、ペイウォールされたコンテンツがChatGPTにコピーして貼り付けることによって導入された可能性があることを認めていますが、調査結果はOpenaiのデータプラクティスに関する疑問を提起します。この研究では、GPT-4.5やO3-MiniやO1などの推論モデルなどのOpenAIの最新モデルは評価されておらず、これらが同じデータで訓練されていない可能性を明らかにしています。 Openaiは、AIトレーニングデータに関するよりリラックスした著作権法を推進しており、高品質のデータソースを求めています。同社はジャーナリストを雇ってモデルの出力を改良しました。これは、AIシステムを強化するためにさまざまな分野の専門家が募集されるAI業界全体で見られる慣行です。 Openaiは、さまざまなコンテンツプロバイダーとライセンス契約を結び、著作権所有者にオプトアウトメカニズムを提供し、トレーニングデータの一部を支払います。ただし、会社がデータプラクティスをめぐる法的課題に直面しているため、O'Reilly Paperの調査結果はその運用に影を落としました。 Openaiは、調査に関するコメントの要求に応じませんでした。
関連記事
エヌビディアのAIハイプが現実のものとなる。
VB Transform 2025で勃発したAIチップ戦争VB Transform 2025の激しいパネルディスカッションでは、戦線が引かれ、台頭する挑戦者たちがNvidiaの支配的な市場ポジションに直接狙いを定めた。中心的な質問は、明白な矛盾を露呈した:AIによる推論は、70%という巨大な粗利率を実現しながら、同時にコモディティ化した「工場」と言えるのか?挑戦者が語るGroqのジョナサン
OpenAIがChatGPT Proをo3にアップグレード。
今週は、マイクロソフト、グーグル、Anthropicを含むハイテク大手から重要なAIの開発が目撃された。OpenAIは、コードネーム "io "と呼ばれる野心的なハードウェア構想のために、注目されたジョニー・アイブのデザイン会社を65億ドルで買収したことにとどまらず、独自の画期的なアップデートで発表の慌ただしさを締めくくった。同社は、ChatGPT内のOperator自律ウェブ・ナビゲーション・シ
非営利団体、AIエージェントを活用してチャリティ募金活動を強化
大手テック企業がAIの "エージェント "をビジネスの生産性向上剤として推進する一方で、ある非営利団体はAIが社会的利益に貢献する可能性を実証している。オープン・フィランソロピーが支援する慈善研究グループ、セージ・フューチャーは最近、AIモデルが慈善活動の資金調達にどのように協力できるかを示す革新的な実験を行った。この非営利団体は、OpenAIのGPT-4oとo1、AnthropicのClau
コメント (41)
0/200
PeterNelson
2025年7月31日 20:35:39 JST
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅
0
HarperJones
2025年4月23日 11:24:27 JST
OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔
0
WalterWhite
2025年4月19日 4:33:48 JST
OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔
0
BruceClark
2025年4月18日 11:02:34 JST
OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔
0
DennisGarcia
2025年4月18日 10:58:35 JST
I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔
0
AvaHill
2025年4月17日 3:00:26 JST
Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔
0




This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅




OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔




OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔




OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔




I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔




Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔












