घर समाचार विकिपीडिया एआई डेवलपर्स को बॉट स्क्रेपर्स को बंद करने के लिए अपना डेटा दे रहा है

विकिपीडिया एआई डेवलपर्स को बॉट स्क्रेपर्स को बंद करने के लिए अपना डेटा दे रहा है

1 मई 2025
PeterLopez
0

विकिपीडिया एआई डेवलपर्स को बॉट स्क्रेपर्स को बंद करने के लिए अपना डेटा दे रहा है

AI डेटा स्क्रैपिंग का प्रबंधन करने के लिए विकिपीडिया की नई रणनीति

विकिपीडिया, विकिमीडिया फाउंडेशन के माध्यम से, अपने सर्वर पर एआई डेटा स्क्रैपिंग के प्रभाव को प्रबंधित करने के लिए एक सक्रिय कदम उठा रहा है। बुधवार को, उन्होंने Google के स्वामित्व वाले एक प्लेटफ़ॉर्म और डेटा साइंस और मशीन लर्निंग के लिए समर्पित एक प्लेटफ़ॉर्म के साथ सहयोग की घोषणा की, एक बीटा डेटासेट लॉन्च करने के लिए। इस डेटासेट में विशेष रूप से एआई प्रशिक्षण उद्देश्यों के लिए "अंग्रेजी और फ्रेंच में संरचित विकिपीडिया सामग्री" शामिल है।

डेटासेट, जो अब कागल पर उपलब्ध है, को एआई डेवलपर्स को ध्यान में रखते हुए, मशीन-पठनीय लेख डेटा तक पहुंचने की प्रक्रिया को सरल बनाते हुए तैयार किया गया है। इसमें अनुसंधान सारांश और लघु विवरण से लेकर छवि लिंक, इन्फोबॉक्स डेटा और विभिन्न लेख अनुभागों तक सब कुछ शामिल है। महत्वपूर्ण रूप से, इस डेटा को खुले तौर पर लाइसेंस दिया जाता है और इसमें ऑडियो फ़ाइलों जैसे संदर्भ या गैर-पाठीय तत्व शामिल नहीं होते हैं, यह सुनिश्चित करते हुए कि यह मॉडलिंग, फाइन-ट्यूनिंग और बेंचमार्किंग जैसे एआई उपयोग के मामलों के लिए अनुकूलित है।

विकिमीडिया का दृष्टिकोण विकिपीडिया की सामग्री का एक अच्छी तरह से संरचित JSON प्रारूप प्रदान करता है, जो उन्हें उम्मीद है कि कच्चे लेख पाठ को स्क्रैप करने या पार्सिंग करने की पारंपरिक तरीके की तुलना में एआई डेवलपर्स के लिए एक अधिक आकर्षक विकल्प होगा। यह कदम आंशिक रूप से इस तनाव के जवाब में है कि एआई बॉट्स विकिपीडिया के सर्वरों पर अपने बैंडविड्थ की खपत के कारण डाल रहे हैं।

पहले से ही, विकिमीडिया ने Google और इंटरनेट आर्काइव जैसे दिग्गजों के साथ सामग्री साझा करने के समझौतों की स्थापना की है। हालांकि, कागल के साथ साझेदारी से इस डेटा को छोटी कंपनियों और स्वतंत्र डेटा वैज्ञानिकों के लिए अधिक सुलभ बनाने की उम्मीद है, जिससे विकिपीडिया की सामग्री की पहुंच और उपयोगिता को व्यापक बनाया जा सकता है।

क्या कागल मेज पर लाता है

ब्रेंडा फ्लिन, कागल की भागीदारी लीड, ने विकिमीडिया के डेटा की मेजबानी के बारे में उत्साह व्यक्त किया। "जैसा कि मशीन लर्निंग समुदाय उपकरण और परीक्षण के लिए आता है, कागल विकिमीडिया फाउंडेशन के डेटा के लिए मेजबान होने के लिए बेहद उत्साहित है," उसने कहा। इस डेटा को न केवल सुलभ नहीं बल्कि मशीन लर्निंग समुदाय के लिए प्रासंगिक और उपयोगी रखने में कागल की भूमिका महत्वपूर्ण है।

विकिपीडिया के इस रणनीतिक कदम का उद्देश्य न केवल अपने सर्वर पर लोड को कम करना है, बल्कि एआई और मशीन लर्निंग समुदायों के साथ अधिक संरचित और लाभकारी संबंध भी बढ़ावा देता है।

संबंधित लेख
华为的AI硬件突破对NVIDIA的主导地位构成了挑战 华为的AI硬件突破对NVIDIA的主导地位构成了挑战 华为在中国科技巨头全球AI芯片竞赛华为中的大胆举动迈出了重要的一步,可能会动摇全球AI芯片竞赛。他们引入了一个名为CloudMatrix 384超级节点的新计算系统,根据当地媒体的表现,该系统的表现相似
我们如何使用AI来帮助城市应对极端热量 我们如何使用AI来帮助城市应对极端热量 看起来2024年可能会打破迄今为止最热的一年的记录,超过了2023年。这种趋势对生活在城市热岛的人们来说尤为艰难,这些景点是在混凝土和沥青浸泡太阳射线,然后散发出热量的城市中的那些景点。这些区域可以温暖
Google搜索引入了复杂的多部分查询的“ AI模式” Google搜索引入了复杂的多部分查询的“ AI模式” Google推出了“ AI模式”,以搜索与竞争对手的困惑AI和ChatgptGoogle在AI Arena中加强游戏,并在其搜索引擎中启动了实验性的“ AI模式”功能。旨在进行困惑AI和Openai的Chatgpt搜索之类
सूचना (0)
शीर्ष समाचार
यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं वाइल्डफायर डिटेक्शन में एक सफलता: कैसे उपग्रहों का एक नया नक्षत्र पहले छोटे जंगल की आग का पता लगा सकता है एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया Google.org Unveils $15M AI Training Grants for Government Workers एआई नैतिकता की उपेक्षा करना भारी जोखिम पैदा करता है: एआई को जिम्मेदारी से कैसे लागू किया जाए AI एप्लिकेशन में उद्यमों का मार्गदर्शन करने के लिए Workhelix अनुसंधान के वर्षों का लाभ उठाता है AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है Adobe 10 विशिष्ट AI एजेंटों का अनावरण करता है: उनके व्यावसायिक अनुप्रयोगों की खोज करें नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है
अधिक
Back to Top
OR