选项
首页
新闻
Wikipedia正在为AI开发人员提供数据以抵御机器人刮板

Wikipedia正在为AI开发人员提供数据以抵御机器人刮板

2025-05-01
83

Wikipedia正在为AI开发人员提供数据以抵御机器人刮板

维基百科管理AI数据抓取的新策略

维基百科通过维基媒体基金会采取积极措施,管理AI数据抓取对其服务器的影响。周三,他们宣布与Kaggle合作,Kaggle是Google旗下的一个专注于数据科学和机器学习的平台,共同推出一个测试版数据集。该数据集包含“结构化的维基百科内容,涵盖英语和法语”,专门为AI训练目的量身定制。

该数据集现已在Kaggle上提供,专为AI开发者设计,简化了获取机器可读文章数据的流程。这包括从研究摘要和简短描述到图片链接、信息框数据以及各种文章部分的全部内容。重要的是,这些数据采用开放许可,不包括参考文献或非文本元素,如音频文件,确保其针对AI用例(如建模、微调和基准测试)进行了优化。

维基媒体的方法提供了维基百科内容的结构化JSON格式,他们希望这对AI开发者来说是比传统抓取或解析原始文章文本更具吸引力的选择。此举部分是为了应对AI机器人因带宽消耗对维基百科服务器造成的压力。

维基媒体已与Google和互联网档案馆等巨头建立了内容共享协议。然而,与Kaggle的合作预计将使这些数据更容易为小型公司和独立数据科学家所用,扩大了维基百科内容的覆盖范围和实用性。

Kaggle的贡献

Kaggle的合作负责人布伦达·弗林(Brenda Flynn)对托管维基媒体的数据表示了热情。“作为机器学习社区获取工具和测试的平台,Kaggle非常兴奋能成为维基媒体基金会数据的托管方,”她说道。Kaggle的角色在保持这些数据的可访问性、相关性和对机器学习社区的实用性方面至关重要。

维基百科的这一战略举措不仅旨在减轻其服务器的负担,还促进了与AI和机器学习社区之间更结构化、更互利的关系。

相关文章
Salesforce发布Slack AI数字队友对抗Microsoft Copilot Salesforce发布Slack AI数字队友对抗Microsoft Copilot Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心 甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心 据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
索尼WH-1000XM6耳机功能在发布前揭晓 索尼WH-1000XM6耳机功能在发布前揭晓 索尼将于5月15日推出其WH-1000XM5降噪耳机的继任者,根据Dealabs和Android Authority报道的泄露细节。即将推出的型号,命名为WH-1000XM6,通过一位Reddit用户发现的已被删除的亚马逊西班牙页面曝光。XM6搭载先进的QN3 HD降噪处理器,据Dealabs称,其速度比XM5中的QN1芯片快七倍。这一升级有望带来更出色的降噪效果和可能提升的音频质量。耳机还配备了
评论 (2)
0/200
JustinJohnson
JustinJohnson 2025-08-15 23:00:59

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin
EricMartin 2025-07-31 09:41:20

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

返回顶部
OR