Wikipedia正在为AI开发人员提供数据以抵御机器人刮板

Wikipedia管理AI数据刮擦的新策略
Wikipedia通过Wikimedia Foundation,正在采取积极的步骤来管理AI数据刮擦对服务器的影响。周三,他们宣布与Google拥有的平台Kaggle合作,致力于数据科学和机器学习,以启动Beta数据集。该数据集包含专门针对人工智能培训目的而定制的“英语和法语的结构化Wikipedia内容”。
该数据集现已在Kaggle上可用,它是由AI开发人员牢记的,简化了访问机器可读文章数据的过程。这包括从研究摘要和简短描述到图像链接,Infobox数据和各种文章部分的所有内容。重要的是,该数据已公开许可,不包括参考文字或非文本元素(例如音频文件),以确保它针对AI用例(例如建模,微调和基准测试)进行了优化。
Wikimedia的方法为Wikipedia的内容提供了结构良好的JSON格式,与传统的刮擦或解析原始文章文本相比,他们希望这对AI开发人员来说将是一个更具吸引力的选择。这一举动部分是响应AI机器人由于带宽消耗而引起的Wikipedia服务器的压力。
Wikimedia已经与Google和Internet Archive等巨头建立了内容共享协议。但是,与Kaggle的合作关系有望使小型公司和独立数据科学家更容易访问此数据,从而扩大了Wikipedia内容的覆盖范围和实用性。
Kaggle带来了什么
卡格格尔(Kaggle)的伙伴关系主持人布伦达·弗林(Brenda Flynn)对托管Wikimedia的数据表示热情。她说:“随着机器学习社区提供工具和测试的位置,Kaggle非常兴奋地成为Wikimedia Foundation数据的主机。” Kaggle的角色对于保持这些数据不仅可以访问,而且对机器学习社区有用和有用至关重要。
维基百科的这一战略举动不仅旨在减轻其服务器上的负载,而且还建立了与AI和机器学习社区的结构化和有益的关系。
相关文章
xAI publie les prompts en coulisses de Grok
xAI dévoile les prompts système de Grok après des réponses controversées sur le "génocide blanc"Dans une décision inattendue, xAI a choisi de partager publiquement les prompts système de son chatbot I
Google Fi dévoile un plan illimité à 35 $ par mois
Google Fi remanie ses plans : plus de données, prix plus bas et support eSIMGoogle Fi vient de lancer des mises à jour majeures pour ses plans sans fil. Bonne nouvelle pour ceux qui cherchent une opti
Les milliardaires discutent de l'automatisation des emplois dans la mise à jour IA de cette semaine
Salut à tous, bienvenue dans la newsletter IA de TechCrunch ! Si vous n'êtes pas encore abonné, vous pouvez vous inscrire ici pour la recevoir directement dans votre boîte de réception tous les mercre
评论 (0)
0/200
Wikipedia管理AI数据刮擦的新策略
Wikipedia通过Wikimedia Foundation,正在采取积极的步骤来管理AI数据刮擦对服务器的影响。周三,他们宣布与Google拥有的平台Kaggle合作,致力于数据科学和机器学习,以启动Beta数据集。该数据集包含专门针对人工智能培训目的而定制的“英语和法语的结构化Wikipedia内容”。
该数据集现已在Kaggle上可用,它是由AI开发人员牢记的,简化了访问机器可读文章数据的过程。这包括从研究摘要和简短描述到图像链接,Infobox数据和各种文章部分的所有内容。重要的是,该数据已公开许可,不包括参考文字或非文本元素(例如音频文件),以确保它针对AI用例(例如建模,微调和基准测试)进行了优化。
Wikimedia的方法为Wikipedia的内容提供了结构良好的JSON格式,与传统的刮擦或解析原始文章文本相比,他们希望这对AI开发人员来说将是一个更具吸引力的选择。这一举动部分是响应AI机器人由于带宽消耗而引起的Wikipedia服务器的压力。
Wikimedia已经与Google和Internet Archive等巨头建立了内容共享协议。但是,与Kaggle的合作关系有望使小型公司和独立数据科学家更容易访问此数据,从而扩大了Wikipedia内容的覆盖范围和实用性。
Kaggle带来了什么
卡格格尔(Kaggle)的伙伴关系主持人布伦达·弗林(Brenda Flynn)对托管Wikimedia的数据表示热情。她说:“随着机器学习社区提供工具和测试的位置,Kaggle非常兴奋地成为Wikimedia Foundation数据的主机。” Kaggle的角色对于保持这些数据不仅可以访问,而且对机器学习社区有用和有用至关重要。
维基百科的这一战略举动不仅旨在减轻其服务器上的负载,而且还建立了与AI和机器学习社区的结构化和有益的关系。












