选项
首页
新闻
AI爬行者涌现Wikimedia Commons带宽需求50%

AI爬行者涌现Wikimedia Commons带宽需求50%

2025-04-17
121

AI爬行者涌现Wikimedia Commons带宽需求50%

维基媒体基金会,维基百科及众多其他众包知识平台的母体,于周三宣布,自2024年1月以来,来自维基媒体共享资源的的多媒体下载带宽使用量惊人地增长了50%。周二的一篇博客文章详细说明,这一激增并非源于人类好奇心的增加,而是由于自动化抓取工具对训练AI模型的数据的渴求。

“我们的基础设施设计能够应对重大事件期间来自人类的突发流量激增,但抓取机器人的流量规模无与伦比,且带来了日益增加的风险和成本,”该文章解释道。

维基媒体共享资源作为一个可自由访问的图片、视频和音频文件中心,所有内容均采用开放许可或属于公共领域。

深入研究后,维基媒体透露,最耗费资源的流量中——以消耗的内容类型衡量——高达65%来自机器人。然而,这些机器人仅占总页面浏览量的35%。维基媒体表示,这种差异源于经常访问的内容被缓存到靠近用户的地方,而机器人常针对的较不受欢迎的内容则存储在成本更高的“核心数据中心”。

“人类读者倾向于关注特定且往往相似的主题,而爬虫机器人则倾向于‘批量阅读’更多页面,并访问较不受欢迎的页面,”维基媒体指出。“这导致这些请求被转发到核心数据中心,显著增加了我们的资源消耗成本。”

因此,维基媒体基金会的站点可靠性团队正投入大量时间和资源来阻止这些爬虫,以防止对日常用户的干扰。这还未涉及基金会正在应对的不断上升的云端成本。

这一情景是威胁开放互联网的更广泛趋势的一部分。就在上个月,软件工程师和开源倡导者德鲁·德沃特(Drew DeVault)感叹,AI爬虫公然无视旨在阻止自动化流量的“robots.txt”文件。同样,被称为“实用工程师”的格尔盖伊·奥罗斯(Gergely Orosz)最近也表达了对AI抓取工具(例如来自Meta的公司)对其项目带宽需求激增的沮丧。

虽然开源基础设施尤其脆弱,但开发者们正以创造力和决心应对。上周,TechCrunch报道了一些科技公司正在采取行动。例如,Cloudflare推出了AI Labyrinth,旨在通过AI生成的内容减缓爬虫速度。

然而,这仍然是一场持续的猫鼠游戏,可能迫使许多出版商退回到登录和付费墙之后,最终损害我们赖以生存的网络的开放性。

相关文章
人工智能助力大学排课:简化教学时间表 人工智能助力大学排课:简化教学时间表 在当今充满活力的学术环境中,有效的课程安排对取得成功至关重要。为阿卜杜勒-阿齐兹国王大学设计的人工智能课程表制作器可自动编制大学课程表,解决课程重叠和行政效率低下等问题。通过提供量身定制、无冲突的课程表,它可以提升学生和教师的体验。主要亮点传统的大学课程安排系统往往难以解决课程表重叠和行政负担过重的问题。AI Schedule Maker 通过分析学生和教师的作息时间,为他们量身定制个性化
Ai-Kon 2012:庆祝 Cosplay 创意和社区 Ai-Kon 2012:庆祝 Cosplay 创意和社区 Ai-Kon 是加拿大领先的动漫展会,长期以来一直是 Cosplay 爱好者的聚集地。本文将重温 2012 年的 Ai-Kon,重点介绍让人难以忘怀的创意、工艺和充满活力的社区。探索令人惊叹的服装和动漫迷的热情!精彩内容体验 Ai-Kon 2012 cosplay 展示会的精彩瞬间。探索各种角色和服装设计。欣赏精彩 Cosplay 背后的艺术和技巧。感受动漫大会的团结和热情。了解对动
谷歌发布A2A协议以增强AI代理互操作性 谷歌发布A2A协议以增强AI代理互操作性 AI代理处理复杂的重复任务,如供应链管理和设备采购。随着组织采用来自不同供应商和框架的代理,这些代理往往变得孤立,无法有效协作。互操作性挑战持续存在,代理有时会提供矛盾的建议。标准化AI工作流程仍然困难,整合代理通常需要中间件,增加了额外的复杂性和潜在的故障点。谷歌的A2A协议标准化AI代理协作在2025年Cloud Next大会上,谷歌推出了其Agent2Agent(A2A)协议,这是一个开放框
评论 (14)
0/200
KevinBrown
KevinBrown 2025-08-23 23:01:15

Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.

CharlesWhite
CharlesWhite 2025-08-13 21:00:59

Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?

SamuelClark
SamuelClark 2025-07-31 19:35:39

Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅

KennethJohnson
KennethJohnson 2025-07-31 09:42:05

Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

WillieAnderson
WillieAnderson 2025-04-18 14:23:40

Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔

RaymondGreen
RaymondGreen 2025-04-18 14:01:01

ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞

返回顶部
OR