अध्ययन: Openai मॉडल कॉपीराइट सामग्री को याद किया
10 अप्रैल 2025
RonaldHernández
44
एक हालिया अध्ययन से पता चलता है कि Openai ने वास्तव में अपने कुछ AI मॉडल को प्रशिक्षित करने के लिए कॉपीराइट सामग्री का उपयोग किया हो सकता है, जिससे कंपनी के चेहरे की चल रही कानूनी लड़ाई में ईंधन मिल गया। लेखकों, प्रोग्रामर, और अन्य सामग्री रचनाकारों ने ओपनईएआई पर अपने कार्यों का उपयोग करने का आरोप लगाया है - जैसे कि किताबें और कोड - अपने एआई मॉडल को विकसित करने की अनुमति के बिना। जबकि Openai ने उचित उपयोग का दावा करके खुद का बचाव किया है, वादी का तर्क है कि अमेरिकी कॉपीराइट कानून प्रशिक्षण डेटा के लिए एक अपवाद प्रदान नहीं करता है।
अध्ययन, वाशिंगटन विश्वविद्यालय, कोपेनहेगन विश्वविद्यालय के शोधकर्ताओं और स्टैनफोर्ड के शोधकर्ताओं के बीच एक सहयोग, ओपनईआई के लोगों की तरह, एपीआई के माध्यम से एक्सेस किए गए मॉडलों में "याद" प्रशिक्षण डेटा का पता लगाने के लिए एक नई तकनीक का परिचय देता है। एआई मॉडल अनिवार्य रूप से पैटर्न को पहचानने के लिए बड़ी मात्रा में डेटा से सीखते हैं, जिससे वे निबंध, चित्र और बहुत कुछ बनाने में सक्षम होते हैं। हालांकि अधिकांश आउटपुट प्रशिक्षण डेटा की प्रत्यक्ष प्रतियां नहीं हैं, कुछ अनिवार्य रूप से सीखने की प्रक्रिया के कारण हैं। उदाहरण के लिए, छवि मॉडल को मूवी स्क्रीनशॉट को पुन: पेश करने के लिए जाना जाता है, जबकि भाषा मॉडल को अनिवार्य रूप से समाचार लेखों को पाला गया है।
अध्ययन में वर्णित विधि "उच्च-सर्पिल" शब्दों पर केंद्रित है-ऐसे शब्द जो किसी दिए गए संदर्भ में असामान्य हैं। उदाहरण के लिए, वाक्य में "जैक और मैं पूरी तरह से रडार गुनगुनाने के साथ पूरी तरह से बैठे थे," "रडार" एक उच्च-सर्पिल शब्द होगा क्योंकि यह "इंजन" या "रेडियो" जैसे शब्दों की तुलना में कम अपेक्षित है "गुनगुना"।
शोधकर्ताओं ने कई OpenAI मॉडल का परीक्षण किया, जिसमें GPT-4 और GPT-3.5 शामिल हैं, फिक्शन बुक्स और न्यूयॉर्क टाइम्स के लेखों के अंशों से उच्च-सरपली शब्दों को हटाकर और मॉडल को इन लापता शब्दों की भविष्यवाणी करने के लिए कहा। यदि मॉडल ने शब्दों का सटीक अनुमान लगाया, तो यह सुझाव दिया कि उन्होंने प्रशिक्षण के दौरान पाठ को याद किया है।

एक मॉडल "अनुमान" होने का एक उदाहरण। परिणामों ने संकेत दिया कि जीपीटी -4 ने लोकप्रिय कथा पुस्तकों के कुछ हिस्सों को याद किया था, जिनमें कॉपीराइट ईबुक के बुकमिया डेटासेट में शामिल थे। यह कुछ न्यूयॉर्क टाइम्स लेखों को याद करते हुए भी दिखाई दिया, हालांकि एक कम आवृत्ति पर।
वाशिंगटन विश्वविद्यालय में एक डॉक्टरेट छात्र और अध्ययन के सह-लेखक अभिलाषा रविचेंडर ने TechCrunch पर जोर दिया कि ये निष्कर्ष "विवादास्पद डेटा" को उजागर करते हैं जो इन मॉडलों को प्रशिक्षित करने के लिए उपयोग किया जा सकता है। "बड़े भाषा मॉडल होने के लिए जो भरोसेमंद हैं, हमारे पास ऐसे मॉडल होने की आवश्यकता है जिन्हें हम वैज्ञानिक रूप से जांच और ऑडिट और ऑडिट कर सकते हैं," रैविचेंडर ने कहा। "हमारे काम का उद्देश्य बड़े भाषा मॉडल की जांच करने के लिए एक उपकरण प्रदान करना है, लेकिन पूरे पारिस्थितिकी तंत्र में अधिक से अधिक डेटा पारदर्शिता की वास्तविक आवश्यकता है।"
Openai ने AI मॉडल विकसित करने के लिए कॉपीराइट डेटा का उपयोग करने पर अधिक आराम से नियमों के लिए धक्का दिया है। यद्यपि कंपनी के पास कुछ सामग्री लाइसेंसिंग समझौते हैं और कॉपीराइट धारकों के लिए ऑप्ट-आउट विकल्प प्रदान करते हैं, लेकिन इसने विभिन्न सरकारों को विशेष रूप से एआई प्रशिक्षण के लिए "उचित उपयोग" नियम स्थापित करने के लिए पैरवी की है।
संबंधित लेख
Google搜索引入了複雜的多部分查詢的“ AI模式”
Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題
Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話
Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
सूचना (20)
0/200
AlbertHernández
14 अप्रैल 2025 9:39:34 अपराह्न GMT
This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔
0
TimothyMitchell
22 अप्रैल 2025 12:12:42 पूर्वाह्न GMT
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
0
WillLopez
21 अप्रैल 2025 11:49:05 पूर्वाह्न GMT
오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔
0
JamesMiller
10 अप्रैल 2025 6:07:57 अपराह्न GMT
Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔
0
BruceSmith
13 अप्रैल 2025 1:01:58 पूर्वाह्न GMT
Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔
0
JohnWilson
17 अप्रैल 2025 5:16:23 अपराह्न GMT
This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞
0






एक हालिया अध्ययन से पता चलता है कि Openai ने वास्तव में अपने कुछ AI मॉडल को प्रशिक्षित करने के लिए कॉपीराइट सामग्री का उपयोग किया हो सकता है, जिससे कंपनी के चेहरे की चल रही कानूनी लड़ाई में ईंधन मिल गया। लेखकों, प्रोग्रामर, और अन्य सामग्री रचनाकारों ने ओपनईएआई पर अपने कार्यों का उपयोग करने का आरोप लगाया है - जैसे कि किताबें और कोड - अपने एआई मॉडल को विकसित करने की अनुमति के बिना। जबकि Openai ने उचित उपयोग का दावा करके खुद का बचाव किया है, वादी का तर्क है कि अमेरिकी कॉपीराइट कानून प्रशिक्षण डेटा के लिए एक अपवाद प्रदान नहीं करता है।
अध्ययन, वाशिंगटन विश्वविद्यालय, कोपेनहेगन विश्वविद्यालय के शोधकर्ताओं और स्टैनफोर्ड के शोधकर्ताओं के बीच एक सहयोग, ओपनईआई के लोगों की तरह, एपीआई के माध्यम से एक्सेस किए गए मॉडलों में "याद" प्रशिक्षण डेटा का पता लगाने के लिए एक नई तकनीक का परिचय देता है। एआई मॉडल अनिवार्य रूप से पैटर्न को पहचानने के लिए बड़ी मात्रा में डेटा से सीखते हैं, जिससे वे निबंध, चित्र और बहुत कुछ बनाने में सक्षम होते हैं। हालांकि अधिकांश आउटपुट प्रशिक्षण डेटा की प्रत्यक्ष प्रतियां नहीं हैं, कुछ अनिवार्य रूप से सीखने की प्रक्रिया के कारण हैं। उदाहरण के लिए, छवि मॉडल को मूवी स्क्रीनशॉट को पुन: पेश करने के लिए जाना जाता है, जबकि भाषा मॉडल को अनिवार्य रूप से समाचार लेखों को पाला गया है।
अध्ययन में वर्णित विधि "उच्च-सर्पिल" शब्दों पर केंद्रित है-ऐसे शब्द जो किसी दिए गए संदर्भ में असामान्य हैं। उदाहरण के लिए, वाक्य में "जैक और मैं पूरी तरह से रडार गुनगुनाने के साथ पूरी तरह से बैठे थे," "रडार" एक उच्च-सर्पिल शब्द होगा क्योंकि यह "इंजन" या "रेडियो" जैसे शब्दों की तुलना में कम अपेक्षित है "गुनगुना"।
शोधकर्ताओं ने कई OpenAI मॉडल का परीक्षण किया, जिसमें GPT-4 और GPT-3.5 शामिल हैं, फिक्शन बुक्स और न्यूयॉर्क टाइम्स के लेखों के अंशों से उच्च-सरपली शब्दों को हटाकर और मॉडल को इन लापता शब्दों की भविष्यवाणी करने के लिए कहा। यदि मॉडल ने शब्दों का सटीक अनुमान लगाया, तो यह सुझाव दिया कि उन्होंने प्रशिक्षण के दौरान पाठ को याद किया है।
वाशिंगटन विश्वविद्यालय में एक डॉक्टरेट छात्र और अध्ययन के सह-लेखक अभिलाषा रविचेंडर ने TechCrunch पर जोर दिया कि ये निष्कर्ष "विवादास्पद डेटा" को उजागर करते हैं जो इन मॉडलों को प्रशिक्षित करने के लिए उपयोग किया जा सकता है। "बड़े भाषा मॉडल होने के लिए जो भरोसेमंद हैं, हमारे पास ऐसे मॉडल होने की आवश्यकता है जिन्हें हम वैज्ञानिक रूप से जांच और ऑडिट और ऑडिट कर सकते हैं," रैविचेंडर ने कहा। "हमारे काम का उद्देश्य बड़े भाषा मॉडल की जांच करने के लिए एक उपकरण प्रदान करना है, लेकिन पूरे पारिस्थितिकी तंत्र में अधिक से अधिक डेटा पारदर्शिता की वास्तविक आवश्यकता है।"
Openai ने AI मॉडल विकसित करने के लिए कॉपीराइट डेटा का उपयोग करने पर अधिक आराम से नियमों के लिए धक्का दिया है। यद्यपि कंपनी के पास कुछ सामग्री लाइसेंसिंग समझौते हैं और कॉपीराइट धारकों के लिए ऑप्ट-आउट विकल्प प्रदान करते हैं, लेकिन इसने विभिन्न सरकारों को विशेष रूप से एआई प्रशिक्षण के लिए "उचित उपयोग" नियम स्थापित करने के लिए पैरवी की है।




This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔




OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔




오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔




Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔




Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔




This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞












