研究者は、Paywalled O'Reillyの本で訓練されたOpenaiのAIが主張しています

Openaiは、AIモデルを訓練する許可なしに、著作権で保護された資料を使用しているという多くの告発に直面しています。 2024年にメディアの大御所ティムオライリーとエコノミストのイランストラウスによって設立された非営利団体であるAI Disclosures Projectによる最近の研究は、OpenaiがO'Reilly Mediaの非公開の本を使用してより高度なモデルであるGPT-4Oを訓練した可能性があることを示唆しています。基本的に洗練された予測エンジン、AIモデルは、本、映画、テレビ番組などの広大なデータセットでトレーニングされています。彼らはこれらのパターンに基づいてパターンを学び、応答を生成します。本当に新しいものを作成するのではなく、広範な知識ベースから近似しています。パブリックウェブのような実際のデータソースが使い果たされると、OpenaIを含む一部のAIラボは、モデルのパフォーマンスの低下のリスクのために実際のデータを完全に放棄したものはほとんどありませんが、トレーニングにAIに生成されたデータの使用を開始しました。 AI開示プロジェクトの論文は、CHATGPTのデフォルトであるOpenAIのGPT-4Oモデルは、以前のGPT-3.5ターボモデルとは異なり、Paywalled O'Reillyの本からのコンテンツの強力な認識を示していると主張しています。この論文は、O'Reilly MediaがOpenaiとライセンス契約を結んでいないにもかかわらず、GPT-4oがこれらの非公開の本で訓練された可能性が高いことを示唆しています。この調査では、2024年に導入されたDE-COPと呼ばれる方法を採用して、AIトレーニングデータの著作権で保護されたコンテンツを検出しました。この「メンバーシップ推論攻撃」は、モデルがヒト著作テキストとAI生成された言い換えを区別できるかどうかをテストし、テキストが確実に行うことができるかどうかを示しています。研究者は、34 O'Reillyの本からの13,962段落の抜粋を使用して、GPT-4O、GPT-3.5ターボ、およびその他のOpenAIモデルをテストし、GPT-4Oが古いモデルよりも有意にペイウォールコンテンツを認識したことを発見しました。著者は、自分の方法が絶対確実ではなく、ペイウォールされたコンテンツがChatGPTにコピーして貼り付けることによって導入された可能性があることを認めていますが、調査結果はOpenaiのデータプラクティスに関する疑問を提起します。この研究では、GPT-4.5やO3-MiniやO1などの推論モデルなどのOpenAIの最新モデルは評価されておらず、これらが同じデータで訓練されていない可能性を明らかにしています。 Openaiは、AIトレーニングデータに関するよりリラックスした著作権法を推進しており、高品質のデータソースを求めています。同社はジャーナリストを雇ってモデルの出力を改良しました。これは、AIシステムを強化するためにさまざまな分野の専門家が募集されるAI業界全体で見られる慣行です。 Openaiは、さまざまなコンテンツプロバイダーとライセンス契約を結び、著作権所有者にオプトアウトメカニズムを提供し、トレーニングデータの一部を支払います。ただし、会社がデータプラクティスをめぐる法的課題に直面しているため、O'Reilly Paperの調査結果はその運用に影を落としました。 Openaiは、調査に関するコメントの要求に応じませんでした。
関連記事
OpenAI、AIを活用した個人向け金融スタートアップのHiroを買収
OpenAIが個人向け金融スタートアップのHiro Financeを買収したと、創業者のイーサン・ブロック氏が月曜日に発表し、OpenAIもTechCrunchに対してこの取引を確認した。同スタートアップは、大手フィンテック系ベンチャーキャピタルのRibbitに加え、General CatalystやRestiveからも出資を受けていた。買収条件は明らかにされておらず、Hiroも調達額を公表したこ
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
関連特集おすすめ
コメント (42)
0/500
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

OpenAI、AIを活用した個人向け金融スタートアップのHiroを買収
OpenAIが個人向け金融スタートアップのHiro Financeを買収したと、創業者のイーサン・ブロック氏が月曜日に発表し、OpenAIもTechCrunchに対してこの取引を確認した。同スタートアップは、大手フィンテック系ベンチャーキャピタルのRibbitに加え、General CatalystやRestiveからも出資を受けていた。買収条件は明らかにされておらず、Hiroも調達額を公表したこ
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅





家






