研究者は、Paywalled O'Reillyの本で訓練されたOpenaiのAIが主張しています

Openaiは、AIモデルを訓練する許可なしに、著作権で保護された資料を使用しているという多くの告発に直面しています。 2024年にメディアの大御所ティムオライリーとエコノミストのイランストラウスによって設立された非営利団体であるAI Disclosures Projectによる最近の研究は、OpenaiがO'Reilly Mediaの非公開の本を使用してより高度なモデルであるGPT-4Oを訓練した可能性があることを示唆しています。基本的に洗練された予測エンジン、AIモデルは、本、映画、テレビ番組などの広大なデータセットでトレーニングされています。彼らはこれらのパターンに基づいてパターンを学び、応答を生成します。本当に新しいものを作成するのではなく、広範な知識ベースから近似しています。パブリックウェブのような実際のデータソースが使い果たされると、OpenaIを含む一部のAIラボは、モデルのパフォーマンスの低下のリスクのために実際のデータを完全に放棄したものはほとんどありませんが、トレーニングにAIに生成されたデータの使用を開始しました。 AI開示プロジェクトの論文は、CHATGPTのデフォルトであるOpenAIのGPT-4Oモデルは、以前のGPT-3.5ターボモデルとは異なり、Paywalled O'Reillyの本からのコンテンツの強力な認識を示していると主張しています。この論文は、O'Reilly MediaがOpenaiとライセンス契約を結んでいないにもかかわらず、GPT-4oがこれらの非公開の本で訓練された可能性が高いことを示唆しています。この調査では、2024年に導入されたDE-COPと呼ばれる方法を採用して、AIトレーニングデータの著作権で保護されたコンテンツを検出しました。この「メンバーシップ推論攻撃」は、モデルがヒト著作テキストとAI生成された言い換えを区別できるかどうかをテストし、テキストが確実に行うことができるかどうかを示しています。研究者は、34 O'Reillyの本からの13,962段落の抜粋を使用して、GPT-4O、GPT-3.5ターボ、およびその他のOpenAIモデルをテストし、GPT-4Oが古いモデルよりも有意にペイウォールコンテンツを認識したことを発見しました。著者は、自分の方法が絶対確実ではなく、ペイウォールされたコンテンツがChatGPTにコピーして貼り付けることによって導入された可能性があることを認めていますが、調査結果はOpenaiのデータプラクティスに関する疑問を提起します。この研究では、GPT-4.5やO3-MiniやO1などの推論モデルなどのOpenAIの最新モデルは評価されておらず、これらが同じデータで訓練されていない可能性を明らかにしています。 Openaiは、AIトレーニングデータに関するよりリラックスした著作権法を推進しており、高品質のデータソースを求めています。同社はジャーナリストを雇ってモデルの出力を改良しました。これは、AIシステムを強化するためにさまざまな分野の専門家が募集されるAI業界全体で見られる慣行です。 Openaiは、さまざまなコンテンツプロバイダーとライセンス契約を結び、著作権所有者にオプトアウトメカニズムを提供し、トレーニングデータの一部を支払います。ただし、会社がデータプラクティスをめぐる法的課題に直面しているため、O'Reilly Paperの調査結果はその運用に影を落としました。 Openaiは、調査に関するコメントの要求に応じませんでした。
関連記事
Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化
Oracleは、Financial Timesが報じたところによると、OpenAIが開発するテキサスの主要な新データセンターを動かすために、約40億ドルのNvidiaチップに投資する予定です。この取引は、これまでで最大規模のチップ取得の一つであり、AIコンピューティングリソースに対する急増する需要を強調しています。テキサス州アビリーンに位置するこの施設は、米国初の「Stargate」データセンター
ソフトバンクが日本でAIデータセンターのために676百万ドルのシャープ工場を取得
ソフトバンクは、単独およびOpenAIとのパートナーシップを通じて、日本に主要なAIハブを設立するという目標を進めています。この技術大手は金曜日に、676百万ドルを投じてシャープの元LCDパネル工場を取得し、それをAIデータセンターに変換することを確認しました。ソフトバンクとシャープの取引には、大阪の堺工場の土地と建物が含まれており、1000億円(676百万ドル)で購入されました。この買収は、生成
AdobeとFigmaがOpenAIの高度な画像生成モデルを統合
OpenAIのChatGPTにおける強化された画像生成機能は、スタジオジブリ風のビジュアルやユニークなデザインを生み出す能力によりユーザー急増を牽引し、他のプラットフォームにも拡大しています。同社はブログ投稿で、この機能を支える「ネイティブにマルチモーダルなモデル」がAPIを通じて「gpt-image-1」として利用可能になると発表し、主要企業がすでに採用しています。「このモデルの柔軟性により、多
コメント (41)
0/200
PeterNelson
2025年7月31日 20:35:39 JST
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅
0
HarperJones
2025年4月23日 11:24:27 JST
OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔
0
WalterWhite
2025年4月19日 4:33:48 JST
OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔
0
BruceClark
2025年4月18日 11:02:34 JST
OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔
0
DennisGarcia
2025年4月18日 10:58:35 JST
I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔
0
AvaHill
2025年4月17日 3:00:26 JST
Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔
0


This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅




OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔




OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔




OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔




I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔




Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔












