विकल्प
घर
समाचार
मेटा स्टाफ ने एआई प्रशिक्षण के लिए कॉपीराइट की गई सामग्री का उपयोग करके चर्चा की, कोर्ट फाइलिंग से पता चलता है

मेटा स्टाफ ने एआई प्रशिक्षण के लिए कॉपीराइट की गई सामग्री का उपयोग करके चर्चा की, कोर्ट फाइलिंग से पता चलता है

10 अप्रैल 2025
86

मेटा स्टाफ ने एआई प्रशिक्षण के लिए कॉपीराइट की गई सामग्री का उपयोग करके चर्चा की, कोर्ट फाइलिंग से पता चलता है

कई वर्षों से, मेटा कर्मचारियों ने कॉपीराइट सामग्री के उपयोग पर चर्चा की है, जो संभावित रूप से संदिग्ध तरीकों से प्राप्त की गई थी, कंपनी के AI मॉडल को प्रशिक्षित करने के लिए, गुरुवार को खोले गए अदालती दस्तावेजों के अनुसार।

ये दस्तावेज चल रहे मुकदमे Kadrey v. Meta का हिस्सा थे, जो अमेरिकी अदालत प्रणाली में कई AI कॉपीराइट विवादों में से एक है। मेटा का तर्क है कि IP-संरक्षित कार्यों, विशेष रूप से किताबों का उपयोग, उनके मॉडल को प्रशिक्षित करने के लिए "उचित उपयोग" के अंतर्गत आता है। हालांकि, वादी, जिसमें लेखक सारा सिल्वरमैन और ता-नेहिसी कोट्स शामिल हैं, इससे दृढ़ता से असहमत हैं।

मामले में पहले की फाइलिंग से पता चला था कि मेटा के CEO मार्क ज़करबर्ग ने प्रशिक्षण के लिए कॉपीराइट सामग्री के उपयोग को मंजूरी दी थी और मेटा ने पुस्तक प्रकाशकों के साथ लाइसेंसिंग सौदों पर बातचीत बंद कर दी थी। नवीनतम खोले गए दस्तावेज, जिसमें मेटा कर्मचारियों के बीच आंतरिक कार्य चैट शामिल हैं, इस बात में सबसे विस्तृत जानकारी प्रदान करते हैं कि मेटा ने अपने मॉडल, जिसमें Llama परिवार शामिल है, को प्रशिक्षित करने के लिए कॉपीराइट डेटा का उपयोग कैसे किया हो सकता है।

एक चैट में, मेटा कर्मचारियों, जिसमें मेटा की Llama मॉडल अनुसंधान टीम की वरिष्ठ प्रबंधक मेलानी कंबदुर शामिल थीं, ने उन कार्यों पर मॉडल प्रशिक्षित करने की बात की जो उन्हें पता था कि कानूनी रूप से जोखिम भरे हो सकते हैं।

"मेरा विचार है (क्षमा मांगने की भावना में, अनुमति नहीं मांगने की): हमें किताबें ले लेनी चाहिए और कार्यकारियों को निर्णय लेने देना चाहिए," मेटा के अनुसंधान इंजीनियर जेवियर मार्टिनेट ने फरवरी 2023 की चैट में लिखा, फाइलिंग के अनुसार। "इसलिए उन्होंने इस जनरेटिव AI संगठन को बनाया: ताकि हम अधिक जोखिम ले सकें।"

मार्टिनेट ने प्रकाशकों के साथ लाइसेंसिंग सौदों पर बातचीत करने के बजाय खुदरा कीमतों पर ई-बुक्स खरीदकर प्रशिक्षण सेट बनाने का सुझाव दिया। जब एक अन्य कर्मचारी ने अनधिकृत कॉपीराइट सामग्री के उपयोग से संभावित कानूनी समस्याओं की ओर इशारा किया, तो मार्टिनेट ने और जोर दिया, यह नोट करते हुए कि "एक अरब" स्टार्टअप शायद पहले से ही चोरी की गई किताबों का उपयोग प्रशिक्षण के लिए कर रहे हैं।

"मेरा मतलब है, सबसे खराब स्थिति: हमें पता चलता है कि यह ठीक है, जबकि एक अरब स्टार्टअप ने BitTorrent पर ढेर सारी किताबें चुरा लीं," मार्टिनेट ने फाइलिंग के अनुसार लिखा। "मेरा फिर से दो पैसे: प्रकाशकों के साथ सीधे बातचीत में हमेशा समय लगता है..."

उसी चैट में, कंबदुर, जिन्होंने उल्लेख किया कि मेटा Scribd और अन्य प्लेटफॉर्म्स के साथ लाइसेंस के लिए बातचीत कर रहा था, ने नोट किया कि "सार्वजनिक रूप से उपलब्ध डेटा" का उपयोग प्रशिक्षण के लिए अभी भी मंजूरी की आवश्यकता होगी, लेकिन मेटा के वकील ऐसी मंजूरी देने में "कम रूढ़िवादी" हो रहे थे।

"हाँ, हमें अभी भी सार्वजनिक रूप से उपलब्ध डेटा के लिए लाइसेंस या मंजूरी लेनी होगी," कंबदुर ने फाइलिंग के अनुसार कहा। "अब अंतर यह है कि हमारे पास अधिक पैसा है, अधिक वकील हैं, अधिक व्यवसाय विकास सहायता है, तेजी से और जल्दी करने की क्षमता है, और वकील मंजूरी देने में थोड़ा कम सतर्क हो रहे हैं।"

लिबजेन की बातें

फाइलिंग में उल्लिखित एक अन्य कार्य चैट में, कंबदुर ने लिबजेन, एक "लिंक एग्रीगेटर" जो प्रकाशकों से कॉपीराइट कार्यों तक पहुंच प्रदान करता है, को लाइसेंस प्राप्त डेटा स्रोतों के विकल्प के रूप में उपयोग करने की संभावना पर चर्चा की।

लिबजेन को कई मुकदमों का सामना करना पड़ा है, इसे बंद करने का आदेश दिया गया है, और कॉपीराइट उल्लंघन के लिए करोड़ों डॉलर का जुर्माना लगाया गया है। कंबदुर के एक सहयोगी ने Google Search परिणाम का स्क्रीनशॉट साझा किया जिसमें लिखा था "नहीं, लिबजेन कानूनी नहीं है।"

मेटा के कुछ निर्णय निर्माताओं को लगता था कि मॉडल प्रशिक्षण के लिए लिबजेन का उपयोग न करने से मेटा की AI दौड़ में प्रतिस्पर्धात्मकता पर गंभीर प्रभाव पड़ सकता है, फाइलिंग के अनुसार।

मेटा AI VP जोएल पिनो को लिखे एक ईमेल में, मेटा के उत्पाद प्रबंधन निदेशक सोनी थियाकनाथ ने लिबजेन को "सभी श्रेणियों में SOTA संख्याओं को पूरा करने के लिए आवश्यक" बताया, जो सर्वश्रेष्ठ, अत्याधुनिक (SOTA) AI मॉडल प्रदर्शन और बेंचमार्क श्रेणियों को प्राप्त करने का उल्लेख करता है।

थियाकनाथ ने मेटा की कानूनी जोखिम को कम करने के लिए ईमेल में "उपाय" भी बताए, जैसे कि लिबजेन से डेटा हटाना जो "स्पष्ट रूप से चोरी/पायरेटेड के रूप में चिह्नित" था और प्रशिक्षण के लिए लिबजेन डेटासेट के उपयोग को सार्वजनिक रूप से प्रकट न करना। "हम प्रशिक्षण के लिए उपयोग किए गए लिबजेन डेटासेट का उपयोग प्रकट नहीं करेंगे," थियाकनाथ ने लिखा।

व्यवहार में, इन उपायों में लिबजेन फाइलों में "चोरी" या "पायरेटेड" जैसे शब्दों की खोज शामिल थी, फाइलिंग के अनुसार।

एक कार्य चैट में, कंबदुर ने उल्लेख किया कि मेटा की AI टीम ने मॉडल को "IP जोखिम भरे प्रॉम्प्ट से बचने" के लिए समायोजित किया था - जिसका अर्थ है कि उन्होंने मॉडल को ऐसे सवालों का जवाब देने से मना करने के लिए कॉन्फ़िगर किया था जैसे " 'हैरी पॉटर एंड द सॉर्सरर्स स्टोन' के पहले तीन पेज दोहराएं" या "मुझे बताएं कि आपको किन ई-बुक्स पर प्रशिक्षित किया गया था।"

फाइलिंग यह भी सुझाव देती है कि मेटा ने कुछ प्रकार के मॉडल प्रशिक्षण के लिए Reddit डेटा को स्क्रैप किया हो सकता है, संभवतः तृतीय-पक्ष ऐप Pushshift के व्यवहार की नकल करके। विशेष रूप से, Reddit ने अप्रैल 2023 में घोषणा की थी कि वह मॉडल प्रशिक्षण के लिए डेटा तक पहुंच के लिए AI कंपनियों से शुल्क लेना शुरू करेगा।

मार्च 2024 की चैट में, मेटा के जनरेटिव AI संगठन की उत्पाद प्रबंधन निदेशक छाया नायक ने कहा कि मेटा नेतृत्व प्रशिक्षण सेटों पर पिछले निर्णयों को "ओवरराइड" करने पर विचार कर रहा था, जिसमें Quora सामग्री या लाइसेंस प्राप्त किताबों और वैज्ञानिक लेखों का उपयोग न करने का निर्णय शामिल था, ताकि कंपनी के मॉडल के पास पर्याप्त प्रशिक्षण डेटा हो।

नायक ने संकेत दिया कि मेटा के प्रथम-पक्ष प्रशिक्षण डेटासेट - जैसे कि Facebook और Instagram पोस्ट, मेटा प्लेटफॉर्म्स पर वीडियो से ट्रांसक्राइब किया गया पाठ, और कुछ मेटा फॉर बिजनेस संदेश - पर्याप्त नहीं थे। "हमें और डेटा चाहिए," उन्होंने लिखा।

Kadrey v. Meta के वादी ने 2023 में कैलिफोर्निया के उत्तरी जिले के लिए अमेरिकी जिला न्यायालय, सैन फ्रांसिस्को डिवीजन में मामले को दायर करने के बाद से अपनी शिकायत को कई बार संशोधित किया है। नवीनतम संशोधन में दावा किया गया है कि मेटा ने, अन्य दावों के बीच, कुछ चोरी की गई किताबों की तुलना लाइसेंस के लिए उपलब्ध कॉपीराइट किताबों के साथ की थी ताकि यह तय किया जा सके कि प्रकाशक के साथ लाइसेंसिंग समझौता करना है या नहीं।

इस बात के संकेत में कि मेटा कानूनी दांव को कितनी गंभीरता से लेता है, कंपनी ने इस मामले में अपनी रक्षा टीम में पॉल वीस लॉ फर्म से दो सुप्रीम कोर्ट वकीलों को जोड़ा है।

मेटा ने टिप्पणी के लिए अनुरोध का तुरंत जवाब नहीं दिया।

संबंधित लेख
Google ने यूरोपीय संघ के AI अभ्यास संहिता के प्रति प्रतिबद्धता जताई, उद्योग में बहस के बीच Google ने यूरोपीय संघ के AI अभ्यास संहिता के प्रति प्रतिबद्धता जताई, उद्योग में बहस के बीच Google ने यूरोपीय संघ की स्वैच्छिक AI अभ्यास संहिता को अपनाने का वचन दिया है, जो एक ऐसा ढांचा है जो AI डेवलपर्स को EU के AI अधिनियम के अनुरूप प्रक्रियाओं और प्रणालियों को लागू करने में सहायता करने के
मेटा AI प्रतिभा के लिए उच्च वेतन प्रदान करता है, 100 मिलियन डॉलर के साइनिंग बोनस से इनकार मेटा AI प्रतिभा के लिए उच्च वेतन प्रदान करता है, 100 मिलियन डॉलर के साइनिंग बोनस से इनकार मेटा अपने नए सुपरइंटेलिजेंस लैब में AI शोधकर्ताओं को आकर्षित करने के लिए लाखों डॉलर के मुआवजे पैकेज प्रदान कर रहा है। हालांकि, एक भर्ती किए गए शोधकर्ता और लीक हुई आंतरिक बैठक की टिप्पणियों के अनुसार,
मेटा ने उन्नत लामा उपकरणों के साथ AI सुरक्षा को बढ़ाया मेटा ने उन्नत लामा उपकरणों के साथ AI सुरक्षा को बढ़ाया मेटा ने AI विकास को मजबूत करने और उभरते खतरों से बचाव के लिए नए लामा सुरक्षा उपकरण जारी किए हैं।ये उन्नत लामा AI मॉडल सुरक्षा उपकरण मेटा के नए संसाधनों के साथ जोड़े गए हैं, ताकि साइबरसुरक्षा टीमों को
सूचना (30)
PeterMartinez
PeterMartinez 25 अप्रैल 2025 12:29:57 पूर्वाह्न IST

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 24 अप्रैल 2025 8:12:41 पूर्वाह्न IST

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 22 अप्रैल 2025 1:49:31 पूर्वाह्न IST

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 19 अप्रैल 2025 2:45:40 अपराह्न IST

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen
StevenAllen 19 अप्रैल 2025 2:09:52 अपराह्न IST

메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.

CharlesWhite
CharlesWhite 12 अप्रैल 2025 6:35:28 अपराह्न IST

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

शीर्ष समाचार
GEMINI 2.5 प्रो अब असीमित और सस्ता क्लाउड की तुलना में सस्ता, GPT-4O 2025 के शीर्ष AI वीडियो जनरेटर: Pika Labs बनाम विकल्प एआई वॉयसओवर: रियलिस्टिक वॉयस क्रिएशन का अल्टीमेट गाइड Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं AI वोइस क्लोनिंग: वोइस कनवर्सन में पकड़ हासिल करने का अंतिम गाइड एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया
अधिक
शीर्ष पर वापस
OR