AI爬行者涌现Wikimedia Commons带宽需求50%

维基媒体基金会,维基百科及众多其他众包知识平台的母体,于周三宣布,自2024年1月以来,来自维基媒体共享资源的的多媒体下载带宽使用量惊人地增长了50%。周二的一篇博客文章详细说明,这一激增并非源于人类好奇心的增加,而是由于自动化抓取工具对训练AI模型的数据的渴求。
“我们的基础设施设计能够应对重大事件期间来自人类的突发流量激增,但抓取机器人的流量规模无与伦比,且带来了日益增加的风险和成本,”该文章解释道。
维基媒体共享资源作为一个可自由访问的图片、视频和音频文件中心,所有内容均采用开放许可或属于公共领域。
深入研究后,维基媒体透露,最耗费资源的流量中——以消耗的内容类型衡量——高达65%来自机器人。然而,这些机器人仅占总页面浏览量的35%。维基媒体表示,这种差异源于经常访问的内容被缓存到靠近用户的地方,而机器人常针对的较不受欢迎的内容则存储在成本更高的“核心数据中心”。
“人类读者倾向于关注特定且往往相似的主题,而爬虫机器人则倾向于‘批量阅读’更多页面,并访问较不受欢迎的页面,”维基媒体指出。“这导致这些请求被转发到核心数据中心,显著增加了我们的资源消耗成本。”
因此,维基媒体基金会的站点可靠性团队正投入大量时间和资源来阻止这些爬虫,以防止对日常用户的干扰。这还未涉及基金会正在应对的不断上升的云端成本。
这一情景是威胁开放互联网的更广泛趋势的一部分。就在上个月,软件工程师和开源倡导者德鲁·德沃特(Drew DeVault)感叹,AI爬虫公然无视旨在阻止自动化流量的“robots.txt”文件。同样,被称为“实用工程师”的格尔盖伊·奥罗斯(Gergely Orosz)最近也表达了对AI抓取工具(例如来自Meta的公司)对其项目带宽需求激增的沮丧。
虽然开源基础设施尤其脆弱,但开发者们正以创造力和决心应对。上周,TechCrunch报道了一些科技公司正在采取行动。例如,Cloudflare推出了AI Labyrinth,旨在通过AI生成的内容减缓爬虫速度。
然而,这仍然是一场持续的猫鼠游戏,可能迫使许多出版商退回到登录和付费墙之后,最终损害我们赖以生存的网络的开放性。
相关文章
ChatGPT成人模式再次推迟;奥特曼:优先考虑智能
OpenAI再次推迟推出备受争议的功能,转而专注于个性化和主动交互“不适当内容”是否应成为高效AI工具的一部分,这一问题在科技界早已引发热议。 OpenAI曾承诺让ChatGPT更好地理解成年用户,但再次令期待这一变革的人们失望。据IT之家报道,该公司近日确认,原定于2026年第一季度推出的所谓“成人模式”已再次推迟。这并非萨姆·阿尔特曼(Sam Altman)首次食言。早在2025年底,他就曾宣
百度健康近期内部测试了AI医生助手“DoctorClaw”,用于学术文献检索和日常办公辅助
据报道,百度健康已开始对一款专为医生设计的专业AI智能助手进行内部测试。该产品内部代号为“DoctorClaw”(龙虾医生版),标志着百度在医疗领域部署大型语言模型方面迈出了重要一步。知情人士透露,该项目仍处于封闭开发阶段,目前已进入内部测试。虽然具体的产品形态尚未完全披露,但已接近上线。 在功能方面,DoctorClaw初期将侧重于学术文献检索和常规诊疗辅助。但其长期战略旨在深度融入临床诊断、医
Cursor Composer 2 与 Claude Opus 4.6:基准测试引发新一轮人工智能编程争论
3月19日,Cursor正式发布了其自主研发的编程模型Composer 2。 这一消息在开发者社区中立即引发热议——据 Cursor 称,Composer 2 在 Terminal-Bench 2.0 测试中获得了 61.7% 的得分,在相同的测试条件下,这一成绩显著超过了 Claude Opus 4.6 的 58.0%。Anthropic的旗舰模型竟被自家IDE内置的模型超越?随着消息传开,相关
相关专题推荐
评论 (15)
0/500
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

维基媒体基金会,维基百科及众多其他众包知识平台的母体,于周三宣布,自2024年1月以来,来自维基媒体共享资源的的多媒体下载带宽使用量惊人地增长了50%。周二的一篇博客文章详细说明,这一激增并非源于人类好奇心的增加,而是由于自动化抓取工具对训练AI模型的数据的渴求。
“我们的基础设施设计能够应对重大事件期间来自人类的突发流量激增,但抓取机器人的流量规模无与伦比,且带来了日益增加的风险和成本,”该文章解释道。
维基媒体共享资源作为一个可自由访问的图片、视频和音频文件中心,所有内容均采用开放许可或属于公共领域。
深入研究后,维基媒体透露,最耗费资源的流量中——以消耗的内容类型衡量——高达65%来自机器人。然而,这些机器人仅占总页面浏览量的35%。维基媒体表示,这种差异源于经常访问的内容被缓存到靠近用户的地方,而机器人常针对的较不受欢迎的内容则存储在成本更高的“核心数据中心”。
“人类读者倾向于关注特定且往往相似的主题,而爬虫机器人则倾向于‘批量阅读’更多页面,并访问较不受欢迎的页面,”维基媒体指出。“这导致这些请求被转发到核心数据中心,显著增加了我们的资源消耗成本。”
因此,维基媒体基金会的站点可靠性团队正投入大量时间和资源来阻止这些爬虫,以防止对日常用户的干扰。这还未涉及基金会正在应对的不断上升的云端成本。
这一情景是威胁开放互联网的更广泛趋势的一部分。就在上个月,软件工程师和开源倡导者德鲁·德沃特(Drew DeVault)感叹,AI爬虫公然无视旨在阻止自动化流量的“robots.txt”文件。同样,被称为“实用工程师”的格尔盖伊·奥罗斯(Gergely Orosz)最近也表达了对AI抓取工具(例如来自Meta的公司)对其项目带宽需求激增的沮丧。
虽然开源基础设施尤其脆弱,但开发者们正以创造力和决心应对。上周,TechCrunch报道了一些科技公司正在采取行动。例如,Cloudflare推出了AI Labyrinth,旨在通过AI生成的内容减缓爬虫速度。
然而,这仍然是一场持续的猫鼠游戏,可能迫使许多出版商退回到登录和付费墙之后,最终损害我们赖以生存的网络的开放性。
ChatGPT成人模式再次推迟;奥特曼:优先考虑智能
OpenAI再次推迟推出备受争议的功能,转而专注于个性化和主动交互“不适当内容”是否应成为高效AI工具的一部分,这一问题在科技界早已引发热议。 OpenAI曾承诺让ChatGPT更好地理解成年用户,但再次令期待这一变革的人们失望。据IT之家报道,该公司近日确认,原定于2026年第一季度推出的所谓“成人模式”已再次推迟。这并非萨姆·阿尔特曼(Sam Altman)首次食言。早在2025年底,他就曾宣
百度健康近期内部测试了AI医生助手“DoctorClaw”,用于学术文献检索和日常办公辅助
据报道,百度健康已开始对一款专为医生设计的专业AI智能助手进行内部测试。该产品内部代号为“DoctorClaw”(龙虾医生版),标志着百度在医疗领域部署大型语言模型方面迈出了重要一步。知情人士透露,该项目仍处于封闭开发阶段,目前已进入内部测试。虽然具体的产品形态尚未完全披露,但已接近上线。 在功能方面,DoctorClaw初期将侧重于学术文献检索和常规诊疗辅助。但其长期战略旨在深度融入临床诊断、医
Cursor Composer 2 与 Claude Opus 4.6:基准测试引发新一轮人工智能编程争论
3月19日,Cursor正式发布了其自主研发的编程模型Composer 2。 这一消息在开发者社区中立即引发热议——据 Cursor 称,Composer 2 在 Terminal-Bench 2.0 测试中获得了 61.7% 的得分,在相同的测试条件下,这一成绩显著超过了 Claude Opus 4.6 的 58.0%。Anthropic的旗舰模型竟被自家IDE内置的模型超越?随着消息传开,相关
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!





首页






