विकिपीडिया एआई डेवलपर्स को बॉट स्क्रेपर्स को बंद करने के लिए अपना डेटा दे रहा है

1 मई 2025

PeterLopez

# ai # News # Tech # Web

AI डेटा स्क्रैपिंग का प्रबंधन करने के लिए विकिपीडिया की नई रणनीति

विकिपीडिया, विकिमीडिया फाउंडेशन के माध्यम से, अपने सर्वर पर एआई डेटा स्क्रैपिंग के प्रभाव को प्रबंधित करने के लिए एक सक्रिय कदम उठा रहा है। बुधवार को, उन्होंने Google के स्वामित्व वाले एक प्लेटफ़ॉर्म और डेटा साइंस और मशीन लर्निंग के लिए समर्पित एक प्लेटफ़ॉर्म के साथ सहयोग की घोषणा की, एक बीटा डेटासेट लॉन्च करने के लिए। इस डेटासेट में विशेष रूप से एआई प्रशिक्षण उद्देश्यों के लिए "अंग्रेजी और फ्रेंच में संरचित विकिपीडिया सामग्री" शामिल है।

डेटासेट, जो अब कागल पर उपलब्ध है, को एआई डेवलपर्स को ध्यान में रखते हुए, मशीन-पठनीय लेख डेटा तक पहुंचने की प्रक्रिया को सरल बनाते हुए तैयार किया गया है। इसमें अनुसंधान सारांश और लघु विवरण से लेकर छवि लिंक, इन्फोबॉक्स डेटा और विभिन्न लेख अनुभागों तक सब कुछ शामिल है। महत्वपूर्ण रूप से, इस डेटा को खुले तौर पर लाइसेंस दिया जाता है और इसमें ऑडियो फ़ाइलों जैसे संदर्भ या गैर-पाठीय तत्व शामिल नहीं होते हैं, यह सुनिश्चित करते हुए कि यह मॉडलिंग, फाइन-ट्यूनिंग और बेंचमार्किंग जैसे एआई उपयोग के मामलों के लिए अनुकूलित है।

विकिमीडिया का दृष्टिकोण विकिपीडिया की सामग्री का एक अच्छी तरह से संरचित JSON प्रारूप प्रदान करता है, जो उन्हें उम्मीद है कि कच्चे लेख पाठ को स्क्रैप करने या पार्सिंग करने की पारंपरिक तरीके की तुलना में एआई डेवलपर्स के लिए एक अधिक आकर्षक विकल्प होगा। यह कदम आंशिक रूप से इस तनाव के जवाब में है कि एआई बॉट्स विकिपीडिया के सर्वरों पर अपने बैंडविड्थ की खपत के कारण डाल रहे हैं।

पहले से ही, विकिमीडिया ने Google और इंटरनेट आर्काइव जैसे दिग्गजों के साथ सामग्री साझा करने के समझौतों की स्थापना की है। हालांकि, कागल के साथ साझेदारी से इस डेटा को छोटी कंपनियों और स्वतंत्र डेटा वैज्ञानिकों के लिए अधिक सुलभ बनाने की उम्मीद है, जिससे विकिपीडिया की सामग्री की पहुंच और उपयोगिता को व्यापक बनाया जा सकता है।

क्या कागल मेज पर लाता है

ब्रेंडा फ्लिन, कागल की भागीदारी लीड, ने विकिमीडिया के डेटा की मेजबानी के बारे में उत्साह व्यक्त किया। "जैसा कि मशीन लर्निंग समुदाय उपकरण और परीक्षण के लिए आता है, कागल विकिमीडिया फाउंडेशन के डेटा के लिए मेजबान होने के लिए बेहद उत्साहित है," उसने कहा। इस डेटा को न केवल सुलभ नहीं बल्कि मशीन लर्निंग समुदाय के लिए प्रासंगिक और उपयोगी रखने में कागल की भूमिका महत्वपूर्ण है।

विकिपीडिया के इस रणनीतिक कदम का उद्देश्य न केवल अपने सर्वर पर लोड को कम करना है, बल्कि एआई और मशीन लर्निंग समुदायों के साथ अधिक संरचित और लाभकारी संबंध भी बढ़ावा देता है।

संबंधित लेख

xAI ने Grok के पर्दे के पीछे के प्रॉम्प्ट्स पोस्ट किए xAI ने विवादास्पद "व्हाइट जेनोसाइड" प्रतिक्रियाओं के बाद Grok के सिस्टम प्रॉम्प्ट्स जारी किएएक अप्रत्याशित कदम में, xAI ने अपने AI चैटबॉट Grok के सिस्टम प्रॉम्प्ट्स को सार्वजनिक करने का फैसला किया है,

Google Fi ने $35 मासिक असीमित योजना का अनावरण किया Google Fi ने अपनी योजनाओं में बड़ा बदलाव किया: अधिक डेटा, कम कीमतें, और eSIM समर्थनGoogle Fi ने अपनी वायरलेस योजनाओं में कुछ बड़े अपडेट किए हैं—और यदि आप एक किफायती असीमित विकल्प की तलाश में हैं, तो अ

अरबपति इस सप्ताह के AI अपडेट में नौकरियों को स्वचालित करने की चर्चा करते हैं हाय सब लोग, TechCrunch के AI न्यूज़लेटर में वापस स्वागत है! यदि आपने अभी तक सब्सक्राइब नहीं किया है, तो आप इसे हर बुधवार को सीधे अपने इनबॉक्स में प्राप्त करने के लिए यहाँ साइन अप कर सकते हैं।हमने पिछल

सूचना (0)

0/200

जमा करना

शीर्ष समाचार

Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं 2025 के शीर्ष AI वीडियो जनरेटर: Pika Labs बनाम विकल्प GEMINI 2.5 प्रो अब असीमित और सस्ता क्लाउड की तुलना में सस्ता, GPT-4O नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है Adobe 10 विशिष्ट AI एजेंटों का अनावरण करता है: उनके व्यावसायिक अनुप्रयोगों की खोज करें दक्षिण कोरिया स्थानीय दुकानों में दीपसेक ऐप डाउनलोड करता है

अधिक

प्रदर्शित