Wikipedia正在为AI开发人员提供数据以抵御机器人刮板
2025年05月01日
PeterLopez
0

Wikipedia管理AI数据刮擦的新策略
Wikipedia通过Wikimedia Foundation,正在采取积极的步骤来管理AI数据刮擦对服务器的影响。周三,他们宣布与Google拥有的平台Kaggle合作,致力于数据科学和机器学习,以启动Beta数据集。该数据集包含专门针对人工智能培训目的而定制的“英语和法语的结构化Wikipedia内容”。
该数据集现已在Kaggle上可用,它是由AI开发人员牢记的,简化了访问机器可读文章数据的过程。这包括从研究摘要和简短描述到图像链接,Infobox数据和各种文章部分的所有内容。重要的是,该数据已公开许可,不包括参考文字或非文本元素(例如音频文件),以确保它针对AI用例(例如建模,微调和基准测试)进行了优化。
Wikimedia的方法为Wikipedia的内容提供了结构良好的JSON格式,与传统的刮擦或解析原始文章文本相比,他们希望这对AI开发人员来说将是一个更具吸引力的选择。这一举动部分是响应AI机器人由于带宽消耗而引起的Wikipedia服务器的压力。
Wikimedia已经与Google和Internet Archive等巨头建立了内容共享协议。但是,与Kaggle的合作关系有望使小型公司和独立数据科学家更容易访问此数据,从而扩大了Wikipedia内容的覆盖范围和实用性。
Kaggle带来了什么
卡格格尔(Kaggle)的伙伴关系主持人布伦达·弗林(Brenda Flynn)对托管Wikimedia的数据表示热情。她说:“随着机器学习社区提供工具和测试的位置,Kaggle非常兴奋地成为Wikimedia Foundation数据的主机。” Kaggle的角色对于保持这些数据不仅可以访问,而且对机器学习社区有用和有用至关重要。
维基百科的这一战略举动不仅旨在减轻其服务器上的负载,而且还建立了与AI和机器学习社区的结构化和有益的关系。
相关文章
华为的AI硬件突破对NVIDIA的主导地位构成了挑战
华为在中国科技巨头全球AI芯片竞赛华为中的大胆举动迈出了重要的一步,可能会动摇全球AI芯片竞赛。他们引入了一个名为CloudMatrix 384超级节点的新计算系统,根据当地媒体的表现,该系统的表现相似
我们如何使用AI来帮助城市应对极端热量
看起来2024年可能会打破迄今为止最热的一年的记录,超过了2023年。这种趋势对生活在城市热岛的人们来说尤为艰难,这些景点是在混凝土和沥青浸泡太阳射线,然后散发出热量的城市中的那些景点。这些区域可以温暖
Google搜索引入了复杂的多部分查询的“ AI模式”
Google推出了“ AI模式”,以搜索与竞争对手的困惑AI和ChatgptGoogle在AI Arena中加强游戏,并在其搜索引擎中启动了实验性的“ AI模式”功能。旨在进行困惑AI和Openai的Chatgpt搜索之类
评论 (0)
0/200






Wikipedia管理AI数据刮擦的新策略
Wikipedia通过Wikimedia Foundation,正在采取积极的步骤来管理AI数据刮擦对服务器的影响。周三,他们宣布与Google拥有的平台Kaggle合作,致力于数据科学和机器学习,以启动Beta数据集。该数据集包含专门针对人工智能培训目的而定制的“英语和法语的结构化Wikipedia内容”。
该数据集现已在Kaggle上可用,它是由AI开发人员牢记的,简化了访问机器可读文章数据的过程。这包括从研究摘要和简短描述到图像链接,Infobox数据和各种文章部分的所有内容。重要的是,该数据已公开许可,不包括参考文字或非文本元素(例如音频文件),以确保它针对AI用例(例如建模,微调和基准测试)进行了优化。
Wikimedia的方法为Wikipedia的内容提供了结构良好的JSON格式,与传统的刮擦或解析原始文章文本相比,他们希望这对AI开发人员来说将是一个更具吸引力的选择。这一举动部分是响应AI机器人由于带宽消耗而引起的Wikipedia服务器的压力。
Wikimedia已经与Google和Internet Archive等巨头建立了内容共享协议。但是,与Kaggle的合作关系有望使小型公司和独立数据科学家更容易访问此数据,从而扩大了Wikipedia内容的覆盖范围和实用性。
Kaggle带来了什么
卡格格尔(Kaggle)的伙伴关系主持人布伦达·弗林(Brenda Flynn)对托管Wikimedia的数据表示热情。她说:“随着机器学习社区提供工具和测试的位置,Kaggle非常兴奋地成为Wikimedia Foundation数据的主机。” Kaggle的角色对于保持这些数据不仅可以访问,而且对机器学习社区有用和有用至关重要。
维基百科的这一战略举动不仅旨在减轻其服务器上的负载,而且还建立了与AI和机器学习社区的结构化和有益的关系。











