Openai की AI ने paywalled O'Reilly पुस्तकों पर प्रशिक्षित किया, शोधकर्ताओं का दावा है
7 अप्रैल 2025
JuanThomas
94

Openai ने अपने AI मॉडल को प्रशिक्षित करने की अनुमति के बिना कॉपीराइट सामग्री का उपयोग करने के कई आरोपों का सामना किया है। मीडिया मोगुल टिम ओ'रेली और अर्थशास्त्री इलान स्ट्रॉस द्वारा 2024 में स्थापित एक गैर-लाभकारी संस्था एआई डिस्क्लोजर प्रोजेक्ट द्वारा हाल ही में किए गए एक अध्ययन से पता चलता है कि ओपनआई ने अपने अधिक उन्नत मॉडल, जीपीटी -4 ओ को प्रशिक्षित करने के लिए ओ'रेली मीडिया से गैर-सार्वजनिक पुस्तकों का उपयोग किया हो सकता है। एआई मॉडल, अनिवार्य रूप से परिष्कृत भविष्यवाणी इंजन, को किताबों, फिल्मों और टीवी शो सहित विशाल डेटासेट पर प्रशिक्षित किया जाता है। वे पैटर्न सीखते हैं और इन पैटर्नों के आधार पर प्रतिक्रियाएं उत्पन्न करते हैं, न कि वास्तव में कुछ भी नया नहीं बनाते हैं, बल्कि उनके व्यापक ज्ञान के आधार से अनुमान लगाते हैं। जैसा कि सार्वजनिक वेब जैसे वास्तविक दुनिया के डेटा स्रोत समाप्त हो जाते हैं, ओपनआईएआई सहित कुछ एआई लैब्स ने प्रशिक्षण के लिए एआई-जनित डेटा का उपयोग करना शुरू कर दिया है, हालांकि कुछ ने पूरी तरह से वास्तविक दुनिया के डेटा को अलग कर दिया है, जो कि मॉडल प्रदर्शन के जोखिमों के कारण है। एआई खुलासा प्रोजेक्ट के पेपर का दावा है कि Openai का GPT-4O मॉडल, जो कि CHATGPT में डिफ़ॉल्ट है, पहले GPT-3.5 टर्बो मॉडल के विपरीत, Paywalled O'Reilly पुस्तकों से सामग्री की एक मजबूत मान्यता दिखाता है। पेपर से पता चलता है कि GPT-4O को इन गैर-सार्वजनिक पुस्तकों पर प्रशिक्षित किया गया था, बावजूद इसके ओ'रेली मीडिया में ओपनईआई के साथ लाइसेंसिंग समझौता नहीं था। अध्ययन ने एआई प्रशिक्षण डेटा में कॉपीराइट सामग्री का पता लगाने के लिए 2024 में शुरू की गई डी-कॉप नामक एक विधि को नियोजित किया। यह "सदस्यता निष्कर्ष हमला" परीक्षण करता है कि क्या कोई मॉडल मानव-लेखक ग्रंथों और एआई-जनित पैराफ्रीज़ के बीच अंतर कर सकता है, पाठ के पूर्व ज्ञान को दर्शाता है कि क्या यह मज़बूती से कर सकता है। शोधकर्ताओं ने GPT-4O, GPT-3.5 टर्बो, और अन्य Openai मॉडल का उपयोग 34 O'Reilly पुस्तकों से 13,962 पैराग्राफ अंशों का उपयोग करते हुए किया, जिसमें पाया गया कि GPT-4O ने पुराने मॉडलों की तुलना में काफी अधिक पेवेल्ड सामग्री को मान्यता दी है। जबकि लेखक स्वीकार करते हैं कि उनकी विधि मूर्खतापूर्ण नहीं है और पेवेल्ड सामग्री को उपयोगकर्ताओं द्वारा कॉपी करने और चैट में पेस्ट करने के लिए पेश किया जा सकता है, निष्कर्ष OpenAI के डेटा प्रथाओं के बारे में सवाल उठाते हैं। अध्ययन ने Openai के नवीनतम मॉडलों का मूल्यांकन नहीं किया, जैसे कि GPT-4.5 और O3-Mini और O1 जैसे तर्क मॉडल, इस संभावना को खुला छोड़ते हुए कि इन्हें एक ही डेटा पर प्रशिक्षित नहीं किया गया हो सकता है। Openai AI प्रशिक्षण डेटा के बारे में अधिक आराम से कॉपीराइट कानूनों के लिए जोर दे रहा है और उच्च गुणवत्ता वाले डेटा स्रोतों की मांग कर रहा है। कंपनी ने अपने मॉडल के आउटपुट को परिष्कृत करने के लिए पत्रकारों को भी काम पर रखा है, एआई उद्योग में देखा गया एक अभ्यास जहां विभिन्न क्षेत्रों के विशेषज्ञों को एआई सिस्टम को बढ़ाने के लिए भर्ती किया जाता है। Openai अपने कुछ प्रशिक्षण डेटा के लिए भुगतान करता है, जिसमें विभिन्न सामग्री प्रदाताओं के साथ लाइसेंसिंग समझौते हैं और कॉपीराइट मालिकों के लिए ऑप्ट-आउट तंत्र की पेशकश की जाती है। हालांकि, जैसा कि कंपनी अपने डेटा प्रथाओं पर कानूनी चुनौतियों का सामना करती है, ओ'रेली पेपर के निष्कर्षों ने अपने संचालन पर एक छाया डाली। Openai ने अध्ययन पर टिप्पणी के अनुरोधों का जवाब नहीं दिया।
संबंधित लेख
Tìm kiếm Google giới thiệu 'chế độ AI' cho các truy vấn phức tạp, đa phần
Google tiết lộ "Chế độ AI" khi tìm kiếm đối thủ Perplexity AI và Chatgptgoogle đang đẩy mạnh trò chơi của mình trong AI Arena với sự ra mắt của tính năng "AI Mode" thử nghiệm trong công cụ tìm kiếm. Nhằm mục đích tham gia vào tìm kiếm của Perplexity AI và Openai, chế độ mới này đã được công bố vào Wed
Việc sử dụng tên người dùng không được yêu cầu của Chats
Một số người dùng Chatgpt gần đây đã gặp phải một tính năng mới kỳ lạ: Chatbot thỉnh thoảng sử dụng tên của họ trong khi làm việc thông qua các vấn đề. Đây không phải là một phần của hành vi thông thường của nó trước đây và nhiều người dùng báo cáo rằng TATGPT đề cập đến tên của họ mà không bao giờ được nói những gì cần gọi họ. Ý kiến về
Openai tăng cường Chatgpt để nhớ lại các cuộc hội thoại trước đó
Openai đã đưa ra một thông báo lớn vào thứ năm về việc tung ra một tính năng mới trong TATGPT có tên là "Bộ nhớ". Công cụ tiện lợi này được thiết kế để làm cho các cuộc trò chuyện của bạn với AI được cá nhân hóa hơn bằng cách ghi nhớ những gì bạn đã nói trước đây. Hãy tưởng tượng không phải lặp lại bản thân mỗi khi bạn bắt đầu một cuộc truyền đạt mới
सूचना (40)
0/200
RoyPerez
11 अप्रैल 2025 4:31:26 पूर्वाह्न GMT
So, OpenAI's AI got trained on paywalled books? That's a bit shady, isn't it? I mean, I love the tech, but using copyrighted material without permission? Come on, OpenAI, you can do better than that. Maybe they should focus on creating their own content instead.
0
KeithGonzález
10 अप्रैल 2025 7:27:39 अपराह्न GMT
オープンAIのAIが有料の本で訓練されたって?ちょっと怪しいよね?技術は好きだけど、許可なく著作権物を使うなんて。オープンAI、もっとできるはずだよ。自分のコンテンツを作ることに集中すべきだね。
0
MatthewHill
7 अप्रैल 2025 7:28:56 अपराह्न GMT
오픈AI의 AI가 유료 책으로 훈련되었다고요? 좀 수상하죠? 기술은 좋아하지만, 허락 없이 저작권이 있는 자료를 사용하다니요. 오픈AI, 더 잘할 수 있어요. 자신의 콘텐츠를 만드는 데 집중해야 해요.
0
BenWalker
9 अप्रैल 2025 1:31:14 अपराह्न GMT
Então, a IA da OpenAI foi treinada com livros pagos? Isso é um pouco suspeito, não é? Eu gosto da tecnologia, mas usar material com direitos autorais sem permissão? Vamos, OpenAI, você pode fazer melhor do que isso. Talvez eles deveriam se concentrar em criar seu próprio conteúdo.
0
FrankMartínez
9 अप्रैल 2025 10:03:15 पूर्वाह्न GMT
¿Así que la IA de OpenAI fue entrenada con libros de pago? Eso es un poco sospechoso, ¿no? Me gusta la tecnología, pero usar material con derechos de autor sin permiso... Vamos, OpenAI, puedes hacerlo mejor. Tal vez deberían centrarse en crear su propio contenido.
0
LarryHernández
10 अप्रैल 2025 6:32:40 पूर्वाह्न GMT
I'm torn about OpenAI using O’Reilly books to train their AI. On one hand, it's impressive how advanced their models are getting. On the other, it feels a bit shady to use paywalled content. I guess innovation sometimes walks a fine line, huh? Maybe they should just pay for the books next time!
0










So, OpenAI's AI got trained on paywalled books? That's a bit shady, isn't it? I mean, I love the tech, but using copyrighted material without permission? Come on, OpenAI, you can do better than that. Maybe they should focus on creating their own content instead.




オープンAIのAIが有料の本で訓練されたって?ちょっと怪しいよね?技術は好きだけど、許可なく著作権物を使うなんて。オープンAI、もっとできるはずだよ。自分のコンテンツを作ることに集中すべきだね。




오픈AI의 AI가 유료 책으로 훈련되었다고요? 좀 수상하죠? 기술은 좋아하지만, 허락 없이 저작권이 있는 자료를 사용하다니요. 오픈AI, 더 잘할 수 있어요. 자신의 콘텐츠를 만드는 데 집중해야 해요.




Então, a IA da OpenAI foi treinada com livros pagos? Isso é um pouco suspeito, não é? Eu gosto da tecnologia, mas usar material com direitos autorais sem permissão? Vamos, OpenAI, você pode fazer melhor do que isso. Talvez eles deveriam se concentrar em criar seu próprio conteúdo.




¿Así que la IA de OpenAI fue entrenada con libros de pago? Eso es un poco sospechoso, ¿no? Me gusta la tecnología, pero usar material con derechos de autor sin permiso... Vamos, OpenAI, puedes hacerlo mejor. Tal vez deberían centrarse en crear su propio contenido.




I'm torn about OpenAI using O’Reilly books to train their AI. On one hand, it's impressive how advanced their models are getting. On the other, it feels a bit shady to use paywalled content. I guess innovation sometimes walks a fine line, huh? Maybe they should just pay for the books next time!












