Wikipedia正在為AI開發人員提供數據以抵禦機器人刮板

Wikipedia管理AI數據刮擦的新策略
Wikipedia通過Wikimedia Foundation,正在採取積極的步驟來管理AI數據刮擦對服務器的影響。週三,他們宣布與Google擁有的平台Kaggle合作,致力於數據科學和機器學習,以啟動Beta數據集。該數據集包含專門針對人工智能培訓目的而定制的“英語和法語的結構化Wikipedia內容”。
該數據集現已在Kaggle上可用,它是由AI開發人員牢記的,簡化了訪問機器可讀文章數據的過程。這包括從研究摘要和簡短描述到圖像鏈接,Infobox數據和各種文章部分的所有內容。重要的是,該數據已公開許可,不包括參考文字或非文本元素(例如音頻文件),以確保它針對AI用例(例如建模,微調和基準測試)進行了優化。
Wikimedia的方法為Wikipedia的內容提供了結構良好的JSON格式,與傳統的刮擦或解析原始文章文本相比,他們希望這對AI開發人員來說將是一個更具吸引力的選擇。這一舉動部分是響應AI機器人由於帶寬消耗而引起的Wikipedia服務器的壓力。
Wikimedia已經與Google和Internet Archive等巨頭建立了內容共享協議。但是,與Kaggle的合作關係有望使小型公司和獨立數據科學家更容易訪問此數據,從而擴大了Wikipedia內容的覆蓋範圍和實用性。
Kaggle帶來了什麼
卡格格爾(Kaggle)的伙伴關係主持人布倫達·弗林(Brenda Flynn)對託管Wikimedia的數據表示熱情。她說:“隨著機器學習社區提供工具和測試的位置,Kaggle非常興奮地成為Wikimedia Foundation數據的主機。” Kaggle的角色對於保持這些數據不僅可以訪問,而且對機器學習社區有用和有用至關重要。
維基百科的這一戰略舉動不僅旨在減輕其服務器上的負載,而且還建立了與AI和機器學習社區的結構化和有益的關係。
相關文章
xAI ने Grok के पर्दे के पीछे के प्रॉम्प्ट्स पोस्ट किए
xAI ने विवादास्पद "व्हाइट जेनोसाइड" प्रतिक्रियाओं के बाद Grok के सिस्टम प्रॉम्प्ट्स जारी किएएक अप्रत्याशित कदम में, xAI ने अपने AI चैटबॉट Grok के सिस्टम प्रॉम्प्ट्स को सार्वजनिक करने का फैसला किया है,
Google Fi ने $35 मासिक असीमित योजना का अनावरण किया
Google Fi ने अपनी योजनाओं में बड़ा बदलाव किया: अधिक डेटा, कम कीमतें, और eSIM समर्थनGoogle Fi ने अपनी वायरलेस योजनाओं में कुछ बड़े अपडेट किए हैं—और यदि आप एक किफायती असीमित विकल्प की तलाश में हैं, तो अ
अरबपति इस सप्ताह के AI अपडेट में नौकरियों को स्वचालित करने की चर्चा करते हैं
हाय सब लोग, TechCrunch के AI न्यूज़लेटर में वापस स्वागत है! यदि आपने अभी तक सब्सक्राइब नहीं किया है, तो आप इसे हर बुधवार को सीधे अपने इनबॉक्स में प्राप्त करने के लिए यहाँ साइन अप कर सकते हैं।हमने पिछल
評論 (0)
0/200
Wikipedia管理AI數據刮擦的新策略
Wikipedia通過Wikimedia Foundation,正在採取積極的步驟來管理AI數據刮擦對服務器的影響。週三,他們宣布與Google擁有的平台Kaggle合作,致力於數據科學和機器學習,以啟動Beta數據集。該數據集包含專門針對人工智能培訓目的而定制的“英語和法語的結構化Wikipedia內容”。
該數據集現已在Kaggle上可用,它是由AI開發人員牢記的,簡化了訪問機器可讀文章數據的過程。這包括從研究摘要和簡短描述到圖像鏈接,Infobox數據和各種文章部分的所有內容。重要的是,該數據已公開許可,不包括參考文字或非文本元素(例如音頻文件),以確保它針對AI用例(例如建模,微調和基準測試)進行了優化。
Wikimedia的方法為Wikipedia的內容提供了結構良好的JSON格式,與傳統的刮擦或解析原始文章文本相比,他們希望這對AI開發人員來說將是一個更具吸引力的選擇。這一舉動部分是響應AI機器人由於帶寬消耗而引起的Wikipedia服務器的壓力。
Wikimedia已經與Google和Internet Archive等巨頭建立了內容共享協議。但是,與Kaggle的合作關係有望使小型公司和獨立數據科學家更容易訪問此數據,從而擴大了Wikipedia內容的覆蓋範圍和實用性。
Kaggle帶來了什麼
卡格格爾(Kaggle)的伙伴關係主持人布倫達·弗林(Brenda Flynn)對託管Wikimedia的數據表示熱情。她說:“隨著機器學習社區提供工具和測試的位置,Kaggle非常興奮地成為Wikimedia Foundation數據的主機。” Kaggle的角色對於保持這些數據不僅可以訪問,而且對機器學習社區有用和有用至關重要。
維基百科的這一戰略舉動不僅旨在減輕其服務器上的負載,而且還建立了與AI和機器學習社區的結構化和有益的關係。












