OpenAIs KI, die auf Paywalled O'Reilly -Büchern ausgebildet ist, behaupten Forscher

OpenAI hat zahlreiche Anschuldigungen vorgenommen Eine aktuelle Studie des AI Offenlegungsprojekts, eine gemeinnützige Organisation, die 2024 vom Medienmogul Tim O'Reilly und Ilan Strauss gegründet wurde, legt nahe, dass Openai möglicherweise nicht öffentliche Bücher von O'Reilly Media verwendet hat, um sein fortgeschritteneres Modell GPT-4O auszubilden. KI -Modelle, im Wesentlichen anspruchsvolle Vorhersage -Motoren, werden in riesigen Datensätzen wie Büchern, Filmen und Fernsehsendungen geschult. Sie lernen Muster und erzeugen Reaktionen, die auf diesen Mustern basieren, ohne etwas Neues zu schaffen, sondern sich von ihrer umfangreichen Wissensbasis nähern. Da reale Datenquellen wie das öffentliche Web erschöpft werden, haben einige KI-Labors, einschließlich OpenAI, mit A-generierte Daten für das Training begonnen, obwohl nur wenige aufgrund der Risiken der Abbaumodellleistung die Daten der realen Welt vollständig aufgegeben haben. Das Papier des AI Offenlegungsprojekts behauptet, dass das GPT-4O-Modell von OpenAI, das in Chatgpt standardmäßig ist, eine starke Anerkennung von Inhalten aus Paywalled O'Reilly-Büchern zeigt, im Gegensatz zum früheren GPT-3,5-Turbo-Modell. Das Papier deutet darauf hin, dass GPT-4O wahrscheinlich in diesen nicht öffentlichen Büchern geschult wurde, obwohl O'Reilly Media keine Lizenzvereinbarung mit OpenAI hatte. Die Studie verwendete eine Methode namens DE-COP, die 2024 eingeführt wurde, um urheberrechtlich geschützte Inhalte in KI-Schulungsdaten zu erkennen. In diesem "Mitgliedschaftsschließanfall" testet ein Modell, ob ein Modell zwischen menschlich verfassten Texten und AI-generierten Paraphrasen unterscheiden kann, was auf Vorkenntnisse des Textes hinweist, wenn dies zuverlässig dies kann. Die Forscher testeten GPT-4O, GPT-3,5-Turbo und andere OpenAI-Modelle mit 13.962 Absatzauszügen aus 34 O'Reilly-Büchern und stellten fest, dass GPT-4O deutlich mehr Pay-aus-Inhalt erkannte als die älteren Modelle. Während die Autoren anerkennen, dass ihre Methode nicht narrensicher ist und dass der Paywalled -Inhalt möglicherweise von Benutzern eingeführt wurde, die in ChatGPT kopieren und einfügen, werfen die Ergebnisse Fragen zu den Datenpraktiken von OpenAI auf. In der Studie wurden OpenAIs neueste Modelle wie GPT-4,5 und Argumentationsmodelle wie O3-Mini und O1 nicht bewertet, wodurch die Möglichkeit offen wurde, dass diese möglicherweise nicht an denselben Daten geschult wurden. OpenAI hat nach entspannteren Urheberrechtsgesetzen in Bezug auf KI-Schulungsdaten gedrängt und nach Datenquellen von höherer Qualität gesucht. Das Unternehmen hat sogar Journalisten beauftragt, die Ergebnisse seiner Modelle zu verfeinern, eine Praxis in der KI -Branche, in der Experten in verschiedenen Bereichen zur Verbesserung der KI -Systeme eingestellt werden. OpenAI zahlt einige seiner Schulungsdaten, hat Lizenzvereinbarungen mit verschiedenen Inhaltsanbietern und bietet Opt-out-Mechanismen für Urheberrechtseigentümer an. Da das Unternehmen jedoch rechtliche Herausforderungen gegenüber seinen Datenpraktiken hat, haben die Ergebnisse des O'Reilly -Papiers einen Schatten über seine Operationen geworfen. OpenAI antwortete nicht auf Anfragen nach Kommentaren zur Studie.
Verwandter Artikel
Oracles 40-Mrd.-Nvidia-Chip-Investition stärkt Texas AI-Rechenzentrum
Oracle plant, etwa 40 Milliarden Dollar in Nvidia-Chips zu investieren, um ein großes neues Rechenzentrum in Texas zu betreiben, das von OpenAI entwickelt wird, wie die Financial Times berichtet. Dies
SoftBank erwirbt Sharp-Fabrik für 676 Mio. USD für KI-Datenzentrum in Japan
SoftBank verfolgt sein Ziel, ein großes KI-Zentrum in Japan zu etablieren, sowohl eigenständig als auch durch Partnerschaften wie mit OpenAI. Der Technologieriese bestätigte am Freitag, dass er 676 Mi
Adobe und Figma Integrieren OpenAIs Fortschrittliches Bildgenerierungsmodell
OpenAIs verbesserte Bildgenerierung in ChatGPT hat einen Anstieg der Nutzerzahlen ausgelöst, angetrieben durch die Fähigkeit, Visuals im Stil von Studio Ghibli und einzigartige Designs zu erstellen, u
Kommentare (41)
0/200
PeterNelson
31. Juli 2025 13:35:39 MESZ
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅
0
HarperJones
23. April 2025 04:24:27 MESZ
OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔
0
WalterWhite
18. April 2025 21:33:48 MESZ
OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔
0
BruceClark
18. April 2025 04:02:34 MESZ
OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔
0
DennisGarcia
18. April 2025 03:58:35 MESZ
I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔
0
AvaHill
16. April 2025 20:00:26 MESZ
Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔
0


This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅




OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔




OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔




OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔




I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔




Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔












