OpenAIs KI, die auf Paywalled O'Reilly -Büchern ausgebildet ist, behaupten Forscher
7. April 2025
JuanThomas
94

OpenAI hat zahlreiche Anschuldigungen vorgenommen Eine aktuelle Studie des AI Offenlegungsprojekts, eine gemeinnützige Organisation, die 2024 vom Medienmogul Tim O'Reilly und Ilan Strauss gegründet wurde, legt nahe, dass Openai möglicherweise nicht öffentliche Bücher von O'Reilly Media verwendet hat, um sein fortgeschritteneres Modell GPT-4O auszubilden. KI -Modelle, im Wesentlichen anspruchsvolle Vorhersage -Motoren, werden in riesigen Datensätzen wie Büchern, Filmen und Fernsehsendungen geschult. Sie lernen Muster und erzeugen Reaktionen, die auf diesen Mustern basieren, ohne etwas Neues zu schaffen, sondern sich von ihrer umfangreichen Wissensbasis nähern. Da reale Datenquellen wie das öffentliche Web erschöpft werden, haben einige KI-Labors, einschließlich OpenAI, mit A-generierte Daten für das Training begonnen, obwohl nur wenige aufgrund der Risiken der Abbaumodellleistung die Daten der realen Welt vollständig aufgegeben haben. Das Papier des AI Offenlegungsprojekts behauptet, dass das GPT-4O-Modell von OpenAI, das in Chatgpt standardmäßig ist, eine starke Anerkennung von Inhalten aus Paywalled O'Reilly-Büchern zeigt, im Gegensatz zum früheren GPT-3,5-Turbo-Modell. Das Papier deutet darauf hin, dass GPT-4O wahrscheinlich in diesen nicht öffentlichen Büchern geschult wurde, obwohl O'Reilly Media keine Lizenzvereinbarung mit OpenAI hatte. Die Studie verwendete eine Methode namens DE-COP, die 2024 eingeführt wurde, um urheberrechtlich geschützte Inhalte in KI-Schulungsdaten zu erkennen. In diesem "Mitgliedschaftsschließanfall" testet ein Modell, ob ein Modell zwischen menschlich verfassten Texten und AI-generierten Paraphrasen unterscheiden kann, was auf Vorkenntnisse des Textes hinweist, wenn dies zuverlässig dies kann. Die Forscher testeten GPT-4O, GPT-3,5-Turbo und andere OpenAI-Modelle mit 13.962 Absatzauszügen aus 34 O'Reilly-Büchern und stellten fest, dass GPT-4O deutlich mehr Pay-aus-Inhalt erkannte als die älteren Modelle. Während die Autoren anerkennen, dass ihre Methode nicht narrensicher ist und dass der Paywalled -Inhalt möglicherweise von Benutzern eingeführt wurde, die in ChatGPT kopieren und einfügen, werfen die Ergebnisse Fragen zu den Datenpraktiken von OpenAI auf. In der Studie wurden OpenAIs neueste Modelle wie GPT-4,5 und Argumentationsmodelle wie O3-Mini und O1 nicht bewertet, wodurch die Möglichkeit offen wurde, dass diese möglicherweise nicht an denselben Daten geschult wurden. OpenAI hat nach entspannteren Urheberrechtsgesetzen in Bezug auf KI-Schulungsdaten gedrängt und nach Datenquellen von höherer Qualität gesucht. Das Unternehmen hat sogar Journalisten beauftragt, die Ergebnisse seiner Modelle zu verfeinern, eine Praxis in der KI -Branche, in der Experten in verschiedenen Bereichen zur Verbesserung der KI -Systeme eingestellt werden. OpenAI zahlt einige seiner Schulungsdaten, hat Lizenzvereinbarungen mit verschiedenen Inhaltsanbietern und bietet Opt-out-Mechanismen für Urheberrechtseigentümer an. Da das Unternehmen jedoch rechtliche Herausforderungen gegenüber seinen Datenpraktiken hat, haben die Ergebnisse des O'Reilly -Papiers einen Schatten über seine Operationen geworfen. OpenAI antwortete nicht auf Anfragen nach Kommentaren zur Studie.
Verwandter Artikel
Tìm kiếm Google giới thiệu 'chế độ AI' cho các truy vấn phức tạp, đa phần
Google tiết lộ "Chế độ AI" khi tìm kiếm đối thủ Perplexity AI và Chatgptgoogle đang đẩy mạnh trò chơi của mình trong AI Arena với sự ra mắt của tính năng "AI Mode" thử nghiệm trong công cụ tìm kiếm. Nhằm mục đích tham gia vào tìm kiếm của Perplexity AI và Openai, chế độ mới này đã được công bố vào Wed
Việc sử dụng tên người dùng không được yêu cầu của Chats
Một số người dùng Chatgpt gần đây đã gặp phải một tính năng mới kỳ lạ: Chatbot thỉnh thoảng sử dụng tên của họ trong khi làm việc thông qua các vấn đề. Đây không phải là một phần của hành vi thông thường của nó trước đây và nhiều người dùng báo cáo rằng TATGPT đề cập đến tên của họ mà không bao giờ được nói những gì cần gọi họ. Ý kiến về
Openai tăng cường Chatgpt để nhớ lại các cuộc hội thoại trước đó
Openai đã đưa ra một thông báo lớn vào thứ năm về việc tung ra một tính năng mới trong TATGPT có tên là "Bộ nhớ". Công cụ tiện lợi này được thiết kế để làm cho các cuộc trò chuyện của bạn với AI được cá nhân hóa hơn bằng cách ghi nhớ những gì bạn đã nói trước đây. Hãy tưởng tượng không phải lặp lại bản thân mỗi khi bạn bắt đầu một cuộc truyền đạt mới
Kommentare (40)
0/200
RoyPerez
11. April 2025 04:31:26 GMT
So, OpenAI's AI got trained on paywalled books? That's a bit shady, isn't it? I mean, I love the tech, but using copyrighted material without permission? Come on, OpenAI, you can do better than that. Maybe they should focus on creating their own content instead.
0
KeithGonzález
10. April 2025 19:27:39 GMT
オープンAIのAIが有料の本で訓練されたって?ちょっと怪しいよね?技術は好きだけど、許可なく著作権物を使うなんて。オープンAI、もっとできるはずだよ。自分のコンテンツを作ることに集中すべきだね。
0
MatthewHill
7. April 2025 19:28:56 GMT
오픈AI의 AI가 유료 책으로 훈련되었다고요? 좀 수상하죠? 기술은 좋아하지만, 허락 없이 저작권이 있는 자료를 사용하다니요. 오픈AI, 더 잘할 수 있어요. 자신의 콘텐츠를 만드는 데 집중해야 해요.
0
BenWalker
9. April 2025 13:31:14 GMT
Então, a IA da OpenAI foi treinada com livros pagos? Isso é um pouco suspeito, não é? Eu gosto da tecnologia, mas usar material com direitos autorais sem permissão? Vamos, OpenAI, você pode fazer melhor do que isso. Talvez eles deveriam se concentrar em criar seu próprio conteúdo.
0
FrankMartínez
9. April 2025 10:03:15 GMT
¿Así que la IA de OpenAI fue entrenada con libros de pago? Eso es un poco sospechoso, ¿no? Me gusta la tecnología, pero usar material con derechos de autor sin permiso... Vamos, OpenAI, puedes hacerlo mejor. Tal vez deberían centrarse en crear su propio contenido.
0
LarryHernández
10. April 2025 06:32:40 GMT
I'm torn about OpenAI using O’Reilly books to train their AI. On one hand, it's impressive how advanced their models are getting. On the other, it feels a bit shady to use paywalled content. I guess innovation sometimes walks a fine line, huh? Maybe they should just pay for the books next time!
0










So, OpenAI's AI got trained on paywalled books? That's a bit shady, isn't it? I mean, I love the tech, but using copyrighted material without permission? Come on, OpenAI, you can do better than that. Maybe they should focus on creating their own content instead.




オープンAIのAIが有料の本で訓練されたって?ちょっと怪しいよね?技術は好きだけど、許可なく著作権物を使うなんて。オープンAI、もっとできるはずだよ。自分のコンテンツを作ることに集中すべきだね。




오픈AI의 AI가 유료 책으로 훈련되었다고요? 좀 수상하죠? 기술은 좋아하지만, 허락 없이 저작권이 있는 자료를 사용하다니요. 오픈AI, 더 잘할 수 있어요. 자신의 콘텐츠를 만드는 데 집중해야 해요.




Então, a IA da OpenAI foi treinada com livros pagos? Isso é um pouco suspeito, não é? Eu gosto da tecnologia, mas usar material com direitos autorais sem permissão? Vamos, OpenAI, você pode fazer melhor do que isso. Talvez eles deveriam se concentrar em criar seu próprio conteúdo.




¿Así que la IA de OpenAI fue entrenada con libros de pago? Eso es un poco sospechoso, ¿no? Me gusta la tecnología, pero usar material con derechos de autor sin permiso... Vamos, OpenAI, puedes hacerlo mejor. Tal vez deberían centrarse en crear su propio contenido.




I'm torn about OpenAI using O’Reilly books to train their AI. On one hand, it's impressive how advanced their models are getting. On the other, it feels a bit shady to use paywalled content. I guess innovation sometimes walks a fine line, huh? Maybe they should just pay for the books next time!












