选项
首页
新闻
Wikipedia正在为AI开发人员提供数据以抵御机器人刮板

Wikipedia正在为AI开发人员提供数据以抵御机器人刮板

2025-05-01
46

Wikipedia正在为AI开发人员提供数据以抵御机器人刮板

Wikipedia管理AI数据刮擦的新策略

Wikipedia通过Wikimedia Foundation,正在采取积极的步骤来管理AI数据刮擦对服务器的影响。周三,他们宣布与Google拥有的平台Kaggle合作,致力于数据科学和机器学习,以启动Beta数据集。该数据集包含专门针对人工智能培训目的而定制的“英语和法语的结构化Wikipedia内容”。

该数据集现已在Kaggle上可用,它是由AI开发人员牢记的,简化了访问机器可读文章数据的过程。这包括从研究摘要和简短描述到图像链接,Infobox数据和各种文章部分的所有内容。重要的是,该数据已公开许可,不包括参考文字或非文本元素(例如音频文件),以确保它针对AI用例(例如建模,微调和基准测试)进行了优化。

Wikimedia的方法为Wikipedia的内容提供了结构良好的JSON格式,与传统的刮擦或解析原始文章文本相比,他们希望这对AI开发人员来说将是一个更具吸引力的选择。这一举动部分是响应AI机器人由于带宽消耗而引起的Wikipedia服务器的压力。

Wikimedia已经与Google和Internet Archive等巨头建立了内容共享协议。但是,与Kaggle的合作关系有望使小型公司和独立数据科学家更容易访问此数据,从而扩大了Wikipedia内容的覆盖范围和实用性。

Kaggle带来了什么

卡格格尔(Kaggle)的伙伴关系主持人布伦达·弗林(Brenda Flynn)对托管Wikimedia的数据表示热情。她说:“随着机器学习社区提供工具和测试的位置,Kaggle非常兴奋地成为Wikimedia Foundation数据的主机。” Kaggle的角色对于保持这些数据不仅可以访问,而且对机器学习社区有用和有用至关重要。

维基百科的这一战略举动不仅旨在减轻其服务器上的负载,而且还建立了与AI和机器学习社区的结构化和有益的关系。

相关文章
xAI publie les prompts en coulisses de Grok xAI publie les prompts en coulisses de Grok xAI dévoile les prompts système de Grok après des réponses controversées sur le "génocide blanc"Dans une décision inattendue, xAI a choisi de partager publiquement les prompts système de son chatbot I
Google Fi dévoile un plan illimité à 35 $ par mois Google Fi dévoile un plan illimité à 35 $ par mois Google Fi remanie ses plans : plus de données, prix plus bas et support eSIMGoogle Fi vient de lancer des mises à jour majeures pour ses plans sans fil. Bonne nouvelle pour ceux qui cherchent une opti
Les milliardaires discutent de l'automatisation des emplois dans la mise à jour IA de cette semaine Les milliardaires discutent de l'automatisation des emplois dans la mise à jour IA de cette semaine Salut à tous, bienvenue dans la newsletter IA de TechCrunch ! Si vous n'êtes pas encore abonné, vous pouvez vous inscrire ici pour la recevoir directement dans votre boîte de réception tous les mercre
评论 (0)
0/200
返回顶部
OR