オプション
ニュース 調査:Openaiモデルは著作権で保護されたコンテンツを記憶しました

調査:Openaiモデルは著作権で保護されたコンテンツを記憶しました

発売日 発売日 2025年4月10日
著者 著者 RonaldHernández
ビュー ビュー 44

最近の研究では、Openaiが実際に著作権で保護された材料を使用してAIモデルの一部を訓練し、会社が直面している継続的な法的戦いに燃料を追加した可能性があることが示唆されています。著者、プログラマー、およびその他のコンテンツクリエイターは、AIモデルを開発する許可なしに、本やコードなどの作品を使用しているとOpenaiを非難しています。 Openaiは公正使用を主張することで自らを擁護しているが、原告は、米国の著作権法がデータのトレーニングに例外を提供していないと主張している。

この研究は、ワシントン大学、コペンハーゲン大学、およびスタンフォード大学の研究者とのコラボレーションであり、OpenaiのようなAPIを介してアクセスされたモデルで「記憶された」トレーニングデータを検出するための新しいテクニックを紹介しています。 AIモデルは、基本的に膨大な量のデータから学習してパターンを認識し、エッセイ、画像などを作成できるようにします。ほとんどの出力はトレーニングデータの直接コピーではありませんが、必然的に学習プロセスによるものもあります。たとえば、画像モデルは映画のスクリーンショットを再現することが知られていますが、言語モデルは本質的に盗用されたニュース記事を捉えています。

この研究で説明されている方法は、「高度な」単語、つまり特定のコンテキストでは珍しいワードに焦点を当てています。たとえば、「ジャックと私はレーダーハミングと完全にじっと座っていました」という文では、「レーダー」は「エンジン」や「ラジオ」などの「ハミング」の前にある言葉よりも期待されていないため、高度な言葉になります。

研究者たちは、GPT-4やGPT-3.5を含むいくつかのOpenaiモデルをテストしました。モデルが単語を正確に推測した場合、トレーニング中にテキストを記憶したことを示唆しました。

Openai Copyright Study

モデルが「推測」を持っている例High-Surprisal Word.imageクレジット:Openai
結果は、GPT-4が、著作権で保護された電子書籍のBookmia Datasetにあるものを含む、人気のあるフィクションの本の一部を暗記している可能性が高いことを示しています。また、より低い頻度ではあるが、いくつかのニューヨークタイムズの記事を記憶したようにも見えた。

ワシントン大学の博士課程の学生であり、研究の共著者であるAbhilasha Ravichanderは、これらの調査結果がこれらのモデルのトレーニングに使用された可能性のある「論争のあるデータ」を強調していることをTechCrunchに強調しました。 「信頼できる大きな言語モデルを作成するには、科学的に調査および監査し、検査できるモデルが必要です」とラビチャンダーは述べました。 「私たちの仕事は、大規模な言語モデルを調査するためのツールを提供することを目的としていますが、エコシステム全体でより大きなデータ透明性が必要です。」

Openaiは、著作権で保護されたデータを使用してAIモデルを開発するためのよりリラックスしたルールを求めています。同社にはいくつかのコンテンツライセンス契約があり、著作権所有者にオプトアウトオプションを提供していますが、AIトレーニング専用に「フェアユース」規則を確立するためにさまざまな政府にロビー活動を行っています。

関連記事
Google搜索引入了複雜的多部分查詢的“ AI模式” Google搜索引入了複雜的多部分查詢的“ AI模式” Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話 Openai增強了Chatgpt,以回憶以前的對話 Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
コメント (20)
0/200
AlbertHernández
AlbertHernández 2025年4月14日 21:39:34 GMT

This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔

TimothyMitchell
TimothyMitchell 2025年4月22日 0:12:42 GMT

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔

WillLopez
WillLopez 2025年4月21日 11:49:05 GMT

오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔

JamesMiller
JamesMiller 2025年4月10日 18:07:57 GMT

Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔

BruceSmith
BruceSmith 2025年4月13日 1:01:58 GMT

Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔

JohnWilson
JohnWilson 2025年4月17日 17:16:23 GMT

This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞

トップに戻ります
OR