Studie: OpenAI -Modelle merkten aus dem urheberrechtlich geschützten Inhalt aus
Eine kürzlich durchgeführte Studie legt nahe, dass OpenAI tatsächlich urheberrechtlich geschütztes Material verwendet hat, um einige seiner KI -Modelle auszubilden, und die laufenden Rechtsstreitigkeiten, mit denen das Unternehmen konfrontiert ist, Kraftstoff verleiht. Autoren, Programmierer und andere Inhaltsersteller haben Openai beschuldigt, ihre Werke - wie Bücher und Code - ohne Erlaubnis zur Entwicklung seiner KI -Modelle zu verwenden. Während Openai sich durch den fairen Gebrauch verteidigt hat, argumentieren die Kläger, dass das US -Urheberrechtsgesetz keine Ausnahme für Schulungsdaten darstellt.
Die Studie, eine Zusammenarbeit zwischen Forschern der University of Washington, der University of Copenhagen und Stanford, führt eine neue Technik zum Erkennen von "auswendig gelernten" Trainingsdaten in Modellen vor, auf die über eine API zugegriffen wird, wie die von OpenAI. KI -Modelle lernen im Wesentlichen aus großen Mengen an Daten, um Muster zu erkennen, sodass sie Aufsätze, Bilder und mehr erstellen können. Obwohl die meisten Ausgaben keine direkten Kopien der Trainingsdaten sind, sind einige unweigerlich auf den Lernprozess zurückzuführen. Zum Beispiel sind Bezeichnungsmodelle bekannt, dass sie Filmscreenshots reproduzieren, während Sprachmodelle im Wesentlichen Nachrichtenartikel plagiieren.
Die in der Studie beschriebene Methode konzentriert sich auf "hochübergreifende" Wörter-Wörter, die in einem bestimmten Kontext ungewöhnlich sind. In dem Satz "Jack und ich saßen zum Beispiel mit dem Radar-Summen perfekt still", wäre "Radar" ein hochübergreifendes Wort, weil es weniger erwartet wird als Wörter wie "Engine" oder "Radio", um "Summing" vorauszugehen.
Die Forscher testeten mehrere OpenAI-Modelle, darunter GPT-4 und GPT-3,5, indem sie hochübergreifende Wörter von Auszügen von Fiction-Büchern und Artikeln der New York Times entfernen und die Modelle bitten, diese fehlenden Wörter vorherzusagen. Wenn die Modelle die Wörter genau erraten haben, schlug dies vor, dass sie den Text während des Trainings auswendig gelernt hatten.

Ein Beispiel für ein Modell „Raten“ ein hochübergreifendes Wort. Image Credits: OpenAI Die Ergebnisse zeigten, dass GPT-4 wahrscheinlich Teile populärer Fiktionsbücher auswendig gelernt hatte, einschließlich derjenigen im Bookmia-Datensatz von urheberrechtlich geschützten eBooks. Es schien auch einige Artikel von New York Times auswendig gelernt zu haben, obwohl es bei einer geringeren Frequenz.
Abhilasha Ravichander, Doktorand an der Universität von Washington und Co-Autor der Studie, betonte TechCrunch, dass diese Ergebnisse die "umstrittenen Daten" hervorheben, die möglicherweise zur Ausbildung dieser Modelle verwendet wurden. "Um große Sprachmodelle zu haben, die vertrauenswürdig sind, müssen wir Modelle haben, die wir untersuchen und prüfen und wissenschaftlich prüfen können", erklärte Ravichander. "Unsere Arbeit zielt darauf ab, ein Instrument zur Prüfung von großartigen Modellen zu liefern, aber es besteht ein echter Bedarf an mehr Datentransparenz im gesamten Ökosystem."
OpenAI hat nach entspannteren Regeln für die Verwendung von urheberrechtlich geschützten Daten zur Entwicklung von KI -Modellen gedrängt. Obwohl das Unternehmen über einige Inhaltslizenzvereinbarungen verfügt und Opt-out-Optionen für Urheberrechtsinhaber anbietet, hat es verschiedene Regierungen dafür eingesetzt, Regeln für die "faire Nutzung" speziell für die KI-Schulung festzulegen.
Verwandter Artikel
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準
為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
Kommentare (30)
0/200
AlbertHernández
15. April 2025 00:00:00 GMT
This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔
0
TimothyMitchell
22. April 2025 00:00:00 GMT
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
0
WillLopez
21. April 2025 00:00:00 GMT
오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔
0
JamesMiller
11. April 2025 00:00:00 GMT
Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔
0
BruceSmith
13. April 2025 00:00:00 GMT
Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔
0
JohnWilson
18. April 2025 00:00:00 GMT
This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞
0
Eine kürzlich durchgeführte Studie legt nahe, dass OpenAI tatsächlich urheberrechtlich geschütztes Material verwendet hat, um einige seiner KI -Modelle auszubilden, und die laufenden Rechtsstreitigkeiten, mit denen das Unternehmen konfrontiert ist, Kraftstoff verleiht. Autoren, Programmierer und andere Inhaltsersteller haben Openai beschuldigt, ihre Werke - wie Bücher und Code - ohne Erlaubnis zur Entwicklung seiner KI -Modelle zu verwenden. Während Openai sich durch den fairen Gebrauch verteidigt hat, argumentieren die Kläger, dass das US -Urheberrechtsgesetz keine Ausnahme für Schulungsdaten darstellt.
Die Studie, eine Zusammenarbeit zwischen Forschern der University of Washington, der University of Copenhagen und Stanford, führt eine neue Technik zum Erkennen von "auswendig gelernten" Trainingsdaten in Modellen vor, auf die über eine API zugegriffen wird, wie die von OpenAI. KI -Modelle lernen im Wesentlichen aus großen Mengen an Daten, um Muster zu erkennen, sodass sie Aufsätze, Bilder und mehr erstellen können. Obwohl die meisten Ausgaben keine direkten Kopien der Trainingsdaten sind, sind einige unweigerlich auf den Lernprozess zurückzuführen. Zum Beispiel sind Bezeichnungsmodelle bekannt, dass sie Filmscreenshots reproduzieren, während Sprachmodelle im Wesentlichen Nachrichtenartikel plagiieren.
Die in der Studie beschriebene Methode konzentriert sich auf "hochübergreifende" Wörter-Wörter, die in einem bestimmten Kontext ungewöhnlich sind. In dem Satz "Jack und ich saßen zum Beispiel mit dem Radar-Summen perfekt still", wäre "Radar" ein hochübergreifendes Wort, weil es weniger erwartet wird als Wörter wie "Engine" oder "Radio", um "Summing" vorauszugehen.
Die Forscher testeten mehrere OpenAI-Modelle, darunter GPT-4 und GPT-3,5, indem sie hochübergreifende Wörter von Auszügen von Fiction-Büchern und Artikeln der New York Times entfernen und die Modelle bitten, diese fehlenden Wörter vorherzusagen. Wenn die Modelle die Wörter genau erraten haben, schlug dies vor, dass sie den Text während des Trainings auswendig gelernt hatten.
Abhilasha Ravichander, Doktorand an der Universität von Washington und Co-Autor der Studie, betonte TechCrunch, dass diese Ergebnisse die "umstrittenen Daten" hervorheben, die möglicherweise zur Ausbildung dieser Modelle verwendet wurden. "Um große Sprachmodelle zu haben, die vertrauenswürdig sind, müssen wir Modelle haben, die wir untersuchen und prüfen und wissenschaftlich prüfen können", erklärte Ravichander. "Unsere Arbeit zielt darauf ab, ein Instrument zur Prüfung von großartigen Modellen zu liefern, aber es besteht ein echter Bedarf an mehr Datentransparenz im gesamten Ökosystem."
OpenAI hat nach entspannteren Regeln für die Verwendung von urheberrechtlich geschützten Daten zur Entwicklung von KI -Modellen gedrängt. Obwohl das Unternehmen über einige Inhaltslizenzvereinbarungen verfügt und Opt-out-Optionen für Urheberrechtsinhaber anbietet, hat es verschiedene Regierungen dafür eingesetzt, Regeln für die "faire Nutzung" speziell für die KI-Schulung festzulegen.




This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔




OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔




오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔




Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔




Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔




This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞












