Wikipedia正在為AI開發人員提供數據以抵禦機器人刮板
2025年05月01日
PeterLopez
0

Wikipedia管理AI數據刮擦的新策略
Wikipedia通過Wikimedia Foundation,正在採取積極的步驟來管理AI數據刮擦對服務器的影響。週三,他們宣布與Google擁有的平台Kaggle合作,致力於數據科學和機器學習,以啟動Beta數據集。該數據集包含專門針對人工智能培訓目的而定制的“英語和法語的結構化Wikipedia內容”。
該數據集現已在Kaggle上可用,它是由AI開發人員牢記的,簡化了訪問機器可讀文章數據的過程。這包括從研究摘要和簡短描述到圖像鏈接,Infobox數據和各種文章部分的所有內容。重要的是,該數據已公開許可,不包括參考文字或非文本元素(例如音頻文件),以確保它針對AI用例(例如建模,微調和基準測試)進行了優化。
Wikimedia的方法為Wikipedia的內容提供了結構良好的JSON格式,與傳統的刮擦或解析原始文章文本相比,他們希望這對AI開發人員來說將是一個更具吸引力的選擇。這一舉動部分是響應AI機器人由於帶寬消耗而引起的Wikipedia服務器的壓力。
Wikimedia已經與Google和Internet Archive等巨頭建立了內容共享協議。但是,與Kaggle的合作關係有望使小型公司和獨立數據科學家更容易訪問此數據,從而擴大了Wikipedia內容的覆蓋範圍和實用性。
Kaggle帶來了什麼
卡格格爾(Kaggle)的伙伴關係主持人布倫達·弗林(Brenda Flynn)對託管Wikimedia的數據表示熱情。她說:“隨著機器學習社區提供工具和測試的位置,Kaggle非常興奮地成為Wikimedia Foundation數據的主機。” Kaggle的角色對於保持這些數據不僅可以訪問,而且對機器學習社區有用和有用至關重要。
維基百科的這一戰略舉動不僅旨在減輕其服務器上的負載,而且還建立了與AI和機器學習社區的結構化和有益的關係。
相關文章
A AI de hardware da Huawei representa um desafio ao domínio da NVIDIA
A jogada ousada da Huawei na corrida global da AI Chip Huawei, a gigante da tecnologia chinesa, deu um passo significativo que poderia abalar a corrida global de chip de IA. Eles introduziram um novo sistema de computação chamado CloudMatrix 384 Supernode, que, de acordo com a mídia local, supera o techno semelhante
Como estamos usando a IA para ajudar as cidades a combater o calor extremo
Parece que 2024 pode simplesmente quebrar o recorde do ano mais quente até agora, superando 2023. Essa tendência é particularmente difícil para as pessoas que vivem em ilhas de calor urbano - aquelas manchas nas cidades onde o concreto e o asfalto absorvem os raios do sol e depois irradiam o calor de volta. Essas áreas podem aquecer
A Pesquisa do Google apresenta 'modo AI' para consultas complexas e multi-partes
O Google revela o "modo AI" em pesquisa para rivalizar com a perplexidade AI e o ChatgptGoogle está intensificando seu jogo na arena da AI com o lançamento de um recurso experimental "AI" em seu mecanismo de pesquisa. Com o objetivo de assumir pessoas como Perplexity AI e OpenAI's ChatGPT Search, este novo modo foi anunciado na quarta -feira
評論 (0)
0/200






Wikipedia管理AI數據刮擦的新策略
Wikipedia通過Wikimedia Foundation,正在採取積極的步驟來管理AI數據刮擦對服務器的影響。週三,他們宣布與Google擁有的平台Kaggle合作,致力於數據科學和機器學習,以啟動Beta數據集。該數據集包含專門針對人工智能培訓目的而定制的“英語和法語的結構化Wikipedia內容”。
該數據集現已在Kaggle上可用,它是由AI開發人員牢記的,簡化了訪問機器可讀文章數據的過程。這包括從研究摘要和簡短描述到圖像鏈接,Infobox數據和各種文章部分的所有內容。重要的是,該數據已公開許可,不包括參考文字或非文本元素(例如音頻文件),以確保它針對AI用例(例如建模,微調和基準測試)進行了優化。
Wikimedia的方法為Wikipedia的內容提供了結構良好的JSON格式,與傳統的刮擦或解析原始文章文本相比,他們希望這對AI開發人員來說將是一個更具吸引力的選擇。這一舉動部分是響應AI機器人由於帶寬消耗而引起的Wikipedia服務器的壓力。
Wikimedia已經與Google和Internet Archive等巨頭建立了內容共享協議。但是,與Kaggle的合作關係有望使小型公司和獨立數據科學家更容易訪問此數據,從而擴大了Wikipedia內容的覆蓋範圍和實用性。
Kaggle帶來了什麼
卡格格爾(Kaggle)的伙伴關係主持人布倫達·弗林(Brenda Flynn)對託管Wikimedia的數據表示熱情。她說:“隨著機器學習社區提供工具和測試的位置,Kaggle非常興奮地成為Wikimedia Foundation數據的主機。” Kaggle的角色對於保持這些數據不僅可以訪問,而且對機器學習社區有用和有用至關重要。
維基百科的這一戰略舉動不僅旨在減輕其服務器上的負載,而且還建立了與AI和機器學習社區的結構化和有益的關係。











