विकिपीडिया एआई डेवलपर्स को बॉट स्क्रेपर्स को बंद करने के लिए अपना डेटा दे रहा है

AI डेटा स्क्रैपिंग का प्रबंधन करने के लिए विकिपीडिया की नई रणनीति
विकिपीडिया, विकिमीडिया फाउंडेशन के माध्यम से, अपने सर्वर पर एआई डेटा स्क्रैपिंग के प्रभाव को प्रबंधित करने के लिए एक सक्रिय कदम उठा रहा है। बुधवार को, उन्होंने Google के स्वामित्व वाले एक प्लेटफ़ॉर्म और डेटा साइंस और मशीन लर्निंग के लिए समर्पित एक प्लेटफ़ॉर्म के साथ सहयोग की घोषणा की, एक बीटा डेटासेट लॉन्च करने के लिए। इस डेटासेट में विशेष रूप से एआई प्रशिक्षण उद्देश्यों के लिए "अंग्रेजी और फ्रेंच में संरचित विकिपीडिया सामग्री" शामिल है।
डेटासेट, जो अब कागल पर उपलब्ध है, को एआई डेवलपर्स को ध्यान में रखते हुए, मशीन-पठनीय लेख डेटा तक पहुंचने की प्रक्रिया को सरल बनाते हुए तैयार किया गया है। इसमें अनुसंधान सारांश और लघु विवरण से लेकर छवि लिंक, इन्फोबॉक्स डेटा और विभिन्न लेख अनुभागों तक सब कुछ शामिल है। महत्वपूर्ण रूप से, इस डेटा को खुले तौर पर लाइसेंस दिया जाता है और इसमें ऑडियो फ़ाइलों जैसे संदर्भ या गैर-पाठीय तत्व शामिल नहीं होते हैं, यह सुनिश्चित करते हुए कि यह मॉडलिंग, फाइन-ट्यूनिंग और बेंचमार्किंग जैसे एआई उपयोग के मामलों के लिए अनुकूलित है।
विकिमीडिया का दृष्टिकोण विकिपीडिया की सामग्री का एक अच्छी तरह से संरचित JSON प्रारूप प्रदान करता है, जो उन्हें उम्मीद है कि कच्चे लेख पाठ को स्क्रैप करने या पार्सिंग करने की पारंपरिक तरीके की तुलना में एआई डेवलपर्स के लिए एक अधिक आकर्षक विकल्प होगा। यह कदम आंशिक रूप से इस तनाव के जवाब में है कि एआई बॉट्स विकिपीडिया के सर्वरों पर अपने बैंडविड्थ की खपत के कारण डाल रहे हैं।
पहले से ही, विकिमीडिया ने Google और इंटरनेट आर्काइव जैसे दिग्गजों के साथ सामग्री साझा करने के समझौतों की स्थापना की है। हालांकि, कागल के साथ साझेदारी से इस डेटा को छोटी कंपनियों और स्वतंत्र डेटा वैज्ञानिकों के लिए अधिक सुलभ बनाने की उम्मीद है, जिससे विकिपीडिया की सामग्री की पहुंच और उपयोगिता को व्यापक बनाया जा सकता है।
क्या कागल मेज पर लाता है
ब्रेंडा फ्लिन, कागल की भागीदारी लीड, ने विकिमीडिया के डेटा की मेजबानी के बारे में उत्साह व्यक्त किया। "जैसा कि मशीन लर्निंग समुदाय उपकरण और परीक्षण के लिए आता है, कागल विकिमीडिया फाउंडेशन के डेटा के लिए मेजबान होने के लिए बेहद उत्साहित है," उसने कहा। इस डेटा को न केवल सुलभ नहीं बल्कि मशीन लर्निंग समुदाय के लिए प्रासंगिक और उपयोगी रखने में कागल की भूमिका महत्वपूर्ण है।
विकिपीडिया के इस रणनीतिक कदम का उद्देश्य न केवल अपने सर्वर पर लोड को कम करना है, बल्कि एआई और मशीन लर्निंग समुदायों के साथ अधिक संरचित और लाभकारी संबंध भी बढ़ावा देता है।
संबंधित लेख
xAI ने Grok के पर्दे के पीछे के प्रॉम्प्ट्स पोस्ट किए
xAI ने विवादास्पद "व्हाइट जेनोसाइड" प्रतिक्रियाओं के बाद Grok के सिस्टम प्रॉम्प्ट्स जारी किएएक अप्रत्याशित कदम में, xAI ने अपने AI चैटबॉट Grok के सिस्टम प्रॉम्प्ट्स को सार्वजनिक करने का फैसला किया है,
Google Fi ने $35 मासिक असीमित योजना का अनावरण किया
Google Fi ने अपनी योजनाओं में बड़ा बदलाव किया: अधिक डेटा, कम कीमतें, और eSIM समर्थनGoogle Fi ने अपनी वायरलेस योजनाओं में कुछ बड़े अपडेट किए हैं—और यदि आप एक किफायती असीमित विकल्प की तलाश में हैं, तो अ
अरबपति इस सप्ताह के AI अपडेट में नौकरियों को स्वचालित करने की चर्चा करते हैं
हाय सब लोग, TechCrunch के AI न्यूज़लेटर में वापस स्वागत है! यदि आपने अभी तक सब्सक्राइब नहीं किया है, तो आप इसे हर बुधवार को सीधे अपने इनबॉक्स में प्राप्त करने के लिए यहाँ साइन अप कर सकते हैं।हमने पिछल
सूचना (0)
0/200
AI डेटा स्क्रैपिंग का प्रबंधन करने के लिए विकिपीडिया की नई रणनीति
विकिपीडिया, विकिमीडिया फाउंडेशन के माध्यम से, अपने सर्वर पर एआई डेटा स्क्रैपिंग के प्रभाव को प्रबंधित करने के लिए एक सक्रिय कदम उठा रहा है। बुधवार को, उन्होंने Google के स्वामित्व वाले एक प्लेटफ़ॉर्म और डेटा साइंस और मशीन लर्निंग के लिए समर्पित एक प्लेटफ़ॉर्म के साथ सहयोग की घोषणा की, एक बीटा डेटासेट लॉन्च करने के लिए। इस डेटासेट में विशेष रूप से एआई प्रशिक्षण उद्देश्यों के लिए "अंग्रेजी और फ्रेंच में संरचित विकिपीडिया सामग्री" शामिल है।
डेटासेट, जो अब कागल पर उपलब्ध है, को एआई डेवलपर्स को ध्यान में रखते हुए, मशीन-पठनीय लेख डेटा तक पहुंचने की प्रक्रिया को सरल बनाते हुए तैयार किया गया है। इसमें अनुसंधान सारांश और लघु विवरण से लेकर छवि लिंक, इन्फोबॉक्स डेटा और विभिन्न लेख अनुभागों तक सब कुछ शामिल है। महत्वपूर्ण रूप से, इस डेटा को खुले तौर पर लाइसेंस दिया जाता है और इसमें ऑडियो फ़ाइलों जैसे संदर्भ या गैर-पाठीय तत्व शामिल नहीं होते हैं, यह सुनिश्चित करते हुए कि यह मॉडलिंग, फाइन-ट्यूनिंग और बेंचमार्किंग जैसे एआई उपयोग के मामलों के लिए अनुकूलित है।
विकिमीडिया का दृष्टिकोण विकिपीडिया की सामग्री का एक अच्छी तरह से संरचित JSON प्रारूप प्रदान करता है, जो उन्हें उम्मीद है कि कच्चे लेख पाठ को स्क्रैप करने या पार्सिंग करने की पारंपरिक तरीके की तुलना में एआई डेवलपर्स के लिए एक अधिक आकर्षक विकल्प होगा। यह कदम आंशिक रूप से इस तनाव के जवाब में है कि एआई बॉट्स विकिपीडिया के सर्वरों पर अपने बैंडविड्थ की खपत के कारण डाल रहे हैं।
पहले से ही, विकिमीडिया ने Google और इंटरनेट आर्काइव जैसे दिग्गजों के साथ सामग्री साझा करने के समझौतों की स्थापना की है। हालांकि, कागल के साथ साझेदारी से इस डेटा को छोटी कंपनियों और स्वतंत्र डेटा वैज्ञानिकों के लिए अधिक सुलभ बनाने की उम्मीद है, जिससे विकिपीडिया की सामग्री की पहुंच और उपयोगिता को व्यापक बनाया जा सकता है।
क्या कागल मेज पर लाता है
ब्रेंडा फ्लिन, कागल की भागीदारी लीड, ने विकिमीडिया के डेटा की मेजबानी के बारे में उत्साह व्यक्त किया। "जैसा कि मशीन लर्निंग समुदाय उपकरण और परीक्षण के लिए आता है, कागल विकिमीडिया फाउंडेशन के डेटा के लिए मेजबान होने के लिए बेहद उत्साहित है," उसने कहा। इस डेटा को न केवल सुलभ नहीं बल्कि मशीन लर्निंग समुदाय के लिए प्रासंगिक और उपयोगी रखने में कागल की भूमिका महत्वपूर्ण है।
विकिपीडिया के इस रणनीतिक कदम का उद्देश्य न केवल अपने सर्वर पर लोड को कम करना है, बल्कि एआई और मशीन लर्निंग समुदायों के साथ अधिक संरचित और लाभकारी संबंध भी बढ़ावा देता है।












