オプション
ニュース 研究者は、Paywalled O'Reillyの本で訓練されたOpenaiのAIが主張しています

研究者は、Paywalled O'Reillyの本で訓練されたOpenaiのAIが主張しています

発売日 発売日 2025年4月7日
著者 著者 JuanThomas
ビュー ビュー 94

研究者は、Paywalled O'Reillyの本で訓練されたOpenaiのAIが主張しています

Openaiは、AIモデルを訓練する許可なしに、著作権で保護された資料を使用しているという多くの告発に直面しています。 2024年にメディアの大御所ティムオライリーとエコノミストのイランストラウスによって設立された非営利団体であるAI Disclosures Projectによる最近の研究は、OpenaiがO'Reilly Mediaの非公開の本を使用してより高度なモデルであるGPT-4Oを訓練した可能性があることを示唆しています。基本的に洗練された予測エンジン、AIモデルは、本、映画、テレビ番組などの広大なデータセットでトレーニングされています。彼らはこれらのパターンに基づいてパターンを学び、応答を生成します。本当に新しいものを作成するのではなく、広範な知識ベースから近似しています。パブリックウェブのような実際のデータソースが使い果たされると、OpenaIを含む一部のAIラボは、モデルのパフォーマンスの低下のリスクのために実際のデータを完全に放棄したものはほとんどありませんが、トレーニングにAIに生成されたデータの使用を開始しました。 AI開示プロジェクトの論文は、CHATGPTのデフォルトであるOpenAIのGPT-4Oモデルは、以前のGPT-3.5ターボモデルとは異なり、Paywalled O'Reillyの本からのコンテンツの強力な認識を示していると主張しています。この論文は、O'Reilly MediaがOpenaiとライセンス契約を結んでいないにもかかわらず、GPT-4oがこれらの非公開の本で訓練された可能性が高いことを示唆しています。この調査では、2024年に導入されたDE-COPと呼ばれる方法を採用して、AIトレーニングデータの著作権で保護されたコンテンツを検出しました。この「メンバーシップ推論攻撃」は、モデルがヒト著作テキストとAI生成された言い換えを区別できるかどうかをテストし、テキストが確実に行うことができるかどうかを示しています。研究者は、34 O'Reillyの本からの13,962段落の抜粋を使用して、GPT-4O、GPT-3.5ターボ、およびその他のOpenAIモデルをテストし、GPT-4Oが古いモデルよりも有意にペイウォールコンテンツを認識したことを発見しました。著者は、自分の方法が絶対確実ではなく、ペイウォールされたコンテンツがChatGPTにコピーして貼り付けることによって導入された可能性があることを認めていますが、調査結果はOpenaiのデータプラクティスに関する疑問を提起します。この研究では、GPT-4.5やO3-MiniやO1などの推論モデルなどのOpenAIの最新モデルは評価されておらず、これらが同じデータで訓練されていない可能性を明らかにしています。 Openaiは、AIトレーニングデータに関するよりリラックスした著作権法を推進しており、高品質のデータソースを求めています。同社はジャーナリストを雇ってモデルの出力を改良しました。これは、AIシステムを強化するためにさまざまな分野の専門家が募集されるAI業界全体で見られる慣行です。 Openaiは、さまざまなコンテンツプロバイダーとライセンス契約を結び、著作権所有者にオプトアウトメカニズムを提供し、トレーニングデータの一部を支払います。ただし、会社がデータプラクティスをめぐる法的課題に直面しているため、O'Reilly Paperの調査結果はその運用に影を落としました。 Openaiは、調査に関するコメントの要求に応じませんでした。
関連記事
Google検索では、複雑なマルチパートクエリ用に「AIモード」が導入されています Google検索では、複雑なマルチパートクエリ用に「AIモード」が導入されています Googleは「AIモード」を検索して、Prplexity AIとChatGptgoogleに対抗し、AIアリーナでゲームを強化し、検索エンジンで実験的な「AIモード」機能を開始します。 Perplexity AIやOpenaiのChatGPT検索などを引き受けることを目的としたこの新しいモードは、水で発表されました
chatgptのユーザー名の未承諾の使用は、一部の人の間で「不気味な」懸念を引き起こします chatgptのユーザー名の未承諾の使用は、一部の人の間で「不気味な」懸念を引き起こします ChatGPTの一部のユーザーは最近、奇妙な新機能に遭遇しました。チャットボットは、問題を乗り越えながら名前を使用することがあります。これは以前の通常の動作の一部ではなく、多くのユーザーがChatGptが何を呼ぶかを言わずに自分の名前に言及すると報告しています。意見
OpenaiはChatGptを強化して、以前の会話を思い出します OpenaiはChatGptを強化して、以前の会話を思い出します Openaiは木曜日に、「Memory」と呼ばれるChatGptの新鮮な機能を展開することについて大きな発表を行いました。この気の利いたツールは、以前に話したことを思い出すことにより、AIとのチャットをよりパーソナライズするように設計されています。あなたが新しい詐欺を始めるたびに自分自身を繰り返す必要がないと想像してください
コメント (40)
0/200
RoyPerez
RoyPerez 2025年4月11日 4:31:26 GMT

So, OpenAI's AI got trained on paywalled books? That's a bit shady, isn't it? I mean, I love the tech, but using copyrighted material without permission? Come on, OpenAI, you can do better than that. Maybe they should focus on creating their own content instead.

KeithGonzález
KeithGonzález 2025年4月10日 19:27:39 GMT

オープンAIのAIが有料の本で訓練されたって?ちょっと怪しいよね?技術は好きだけど、許可なく著作権物を使うなんて。オープンAI、もっとできるはずだよ。自分のコンテンツを作ることに集中すべきだね。

MatthewHill
MatthewHill 2025年4月7日 19:28:56 GMT

오픈AI의 AI가 유료 책으로 훈련되었다고요? 좀 수상하죠? 기술은 좋아하지만, 허락 없이 저작권이 있는 자료를 사용하다니요. 오픈AI, 더 잘할 수 있어요. 자신의 콘텐츠를 만드는 데 집중해야 해요.

BenWalker
BenWalker 2025年4月9日 13:31:14 GMT

Então, a IA da OpenAI foi treinada com livros pagos? Isso é um pouco suspeito, não é? Eu gosto da tecnologia, mas usar material com direitos autorais sem permissão? Vamos, OpenAI, você pode fazer melhor do que isso. Talvez eles deveriam se concentrar em criar seu próprio conteúdo.

FrankMartínez
FrankMartínez 2025年4月9日 10:03:15 GMT

¿Así que la IA de OpenAI fue entrenada con libros de pago? Eso es un poco sospechoso, ¿no? Me gusta la tecnología, pero usar material con derechos de autor sin permiso... Vamos, OpenAI, puedes hacerlo mejor. Tal vez deberían centrarse en crear su propio contenido.

LarryHernández
LarryHernández 2025年4月10日 6:32:40 GMT

I'm torn about OpenAI using O’Reilly books to train their AI. On one hand, it's impressive how advanced their models are getting. On the other, it feels a bit shady to use paywalled content. I guess innovation sometimes walks a fine line, huh? Maybe they should just pay for the books next time!

トップに戻ります
OR