AI爬行者涌现Wikimedia Commons带宽需求50%

The Wikimedia Foundation, the parent body behind Wikipedia and numerous other crowd-sourced knowledge platforms, announced on Wednesday a staggering 50% increase in bandwidth usage for multimedia downloads from Wikimedia Commons since January 2024. This surge, as detailed in a blog post on Tuesday, isn't driven by an uptick in human curiosity, but rather by automated scrapers hungry for data to train AI models.
该帖子解释说:“我们的基础设施旨在处理重大事件中人类流量的突然激增,但是刮板机器人的交通量是无与伦比的,并且会增加风险和成本。”
Wikimedia Commons可作为图像,视频和音频文件的自由访问枢纽,所有这些都在开放许可下或在公共领域中可用。
维基梅迪亚(Wikimedia)深入研究,透露,来自机器人所消耗的内容类型的资源最密集的流量中有65%的流量为65%。但是,这些机器人仅占整体浏览量的35%。根据Wikimedia的说法,这种差异源于访问的内容的频率更接近用户,而较不受欢迎的内容(通常是机器人)却是定位的,它存储在更为昂贵的“核心数据中心”中。
Wikimedia指出:“尽管人类读者倾向于专注于特定的,通常相似的主题,但爬网机器人倾向于'批量阅读'大量页面,并访问较少流行的页面。” “这导致这些请求被转发给核心数据中心,这大大增加了我们的资源消费成本。”
结果,Wikimedia基金会的网站可靠性团队正在花费大量时间和资源来阻止这些爬行者,以防止日常用户的干扰。这甚至无法触及基金会与之争夺的云成本。
这种情况是危害开放互联网的更广泛趋势的一部分。就在上个月,软件工程师和开源倡导者Drew Devault哀叹AI爬行者公然忽略了旨在阻止自动流量的“ robots.txt”文件。同样,Gergely Orosz(被称为“务实的工程师”)最近对他对像Meta这样的公司的AI刮擦方式感到沮丧,对他的项目提出了带宽的需求。
虽然开源基础架构特别容易受到伤害,但开发人员正在以独创性和决心做出回应。 TechCrunch上周强调说,一些科技公司正在加紧。例如,Cloudflare引入了AI迷宫,旨在减慢AI生成内容的慢速爬行者。
然而,它仍然是猫和老鼠的持续游戏,它可能会促使许多发行商在登录和付费墙后撤退,最终损害了我们所有人都依靠的网络的开放性质。
相关文章
任正非:中国的AI未来与华为的长远战略
json收起自动换行复制{"content": ",[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object
智能AI革命化投资,2025年超越华尔街
多年来,华尔街公司凭借优越资源主导股市,塑造利润。现在,尖端技术,尤其是人工智能,正在平衡天平。智能AI赋予个人投资者做出更精准、数据驱动的选择,有望在2025年超越华尔街。本文深入探讨智能AI如何转变投资,提供提升回报的实用建议。关键要点智能AI正在重塑股市投资。个人投资者可利用AI获得竞争优势。掌握AI驱动的策略对2025年成功至关重要。BestofUSInvestors.com提供AI驱动投
Perplexity上个月处理了7.8亿次查询,首席执行官表示
json收起自动换行复制{"content": ",[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],,[object Object],— Aravind Srinivas (@AravSrin
评论 (10)
0/200
ThomasJones
2025-04-17 00:00:00
Wikimedia Commons bandwidth usage up by 50%? 😲 That's insane! I guess all those AI crawlers are hungry for our data. It's cool that Wikimedia is keeping us posted, but man, this is gonna slow things down. Hope they find a way to handle it without messing up our experience! 🤞
0
RaymondGreen
2025-04-18 00:00:00
ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞
0
RogerSanchez
2025-04-17 00:00:00
위키미디어 커먼즈의 대역폭 사용량이 50% 증가했다고? 😲 믿기지 않아! AI 크롤러들이 우리 데이터를 원하는 거겠지. 위키미디어가 정보를 공유해주는 건 좋지만, 이 때문에 느려지면 곤란해. 사용자 경험을 망치지 않고 해결할 방법을 찾았으면 좋겠어! 🤞
0
CarlTaylor
2025-04-17 00:00:00
O uso de banda do Wikimedia Commons aumentou 50%? 😲 Isso é loucura! Acho que esses rastreadores de IA estão famintos pelos nossos dados. É legal que o Wikimedia nos mantenha informados, mas cara, isso vai atrasar tudo. Espero que eles encontrem uma maneira de lidar com isso sem estragar nossa experiência! 🤞
0
AlbertLee
2025-04-18 00:00:00
¿El uso de ancho de banda de Wikimedia Commons aumentó un 50%? 😲 ¡Eso es una locura! Supongo que esos rastreadores de IA están hambrientos de nuestros datos. Es genial que Wikimedia nos mantenga informados, pero hombre, esto va a ralentizar todo. Espero que encuentren una manera de manejarlo sin arruinar nuestra experiencia. 🤞
0
ThomasHernández
2025-04-17 00:00:00
The surge in bandwidth demand by AI crawlers on Wikimedia Commons is insane! It's cool to see AI being used so extensively, but it's also a bit worrying. Hope they find a way to manage it without affecting the user experience too much. 🤔
0
The Wikimedia Foundation, the parent body behind Wikipedia and numerous other crowd-sourced knowledge platforms, announced on Wednesday a staggering 50% increase in bandwidth usage for multimedia downloads from Wikimedia Commons since January 2024. This surge, as detailed in a blog post on Tuesday, isn't driven by an uptick in human curiosity, but rather by automated scrapers hungry for data to train AI models.
该帖子解释说:“我们的基础设施旨在处理重大事件中人类流量的突然激增,但是刮板机器人的交通量是无与伦比的,并且会增加风险和成本。”
Wikimedia Commons可作为图像,视频和音频文件的自由访问枢纽,所有这些都在开放许可下或在公共领域中可用。
维基梅迪亚(Wikimedia)深入研究,透露,来自机器人所消耗的内容类型的资源最密集的流量中有65%的流量为65%。但是,这些机器人仅占整体浏览量的35%。根据Wikimedia的说法,这种差异源于访问的内容的频率更接近用户,而较不受欢迎的内容(通常是机器人)却是定位的,它存储在更为昂贵的“核心数据中心”中。
Wikimedia指出:“尽管人类读者倾向于专注于特定的,通常相似的主题,但爬网机器人倾向于'批量阅读'大量页面,并访问较少流行的页面。” “这导致这些请求被转发给核心数据中心,这大大增加了我们的资源消费成本。”
结果,Wikimedia基金会的网站可靠性团队正在花费大量时间和资源来阻止这些爬行者,以防止日常用户的干扰。这甚至无法触及基金会与之争夺的云成本。
这种情况是危害开放互联网的更广泛趋势的一部分。就在上个月,软件工程师和开源倡导者Drew Devault哀叹AI爬行者公然忽略了旨在阻止自动流量的“ robots.txt”文件。同样,Gergely Orosz(被称为“务实的工程师”)最近对他对像Meta这样的公司的AI刮擦方式感到沮丧,对他的项目提出了带宽的需求。
虽然开源基础架构特别容易受到伤害,但开发人员正在以独创性和决心做出回应。 TechCrunch上周强调说,一些科技公司正在加紧。例如,Cloudflare引入了AI迷宫,旨在减慢AI生成内容的慢速爬行者。
然而,它仍然是猫和老鼠的持续游戏,它可能会促使许多发行商在登录和付费墙后撤退,最终损害了我们所有人都依靠的网络的开放性质。



Wikimedia Commons bandwidth usage up by 50%? 😲 That's insane! I guess all those AI crawlers are hungry for our data. It's cool that Wikimedia is keeping us posted, but man, this is gonna slow things down. Hope they find a way to handle it without messing up our experience! 🤞




ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞




위키미디어 커먼즈의 대역폭 사용량이 50% 증가했다고? 😲 믿기지 않아! AI 크롤러들이 우리 데이터를 원하는 거겠지. 위키미디어가 정보를 공유해주는 건 좋지만, 이 때문에 느려지면 곤란해. 사용자 경험을 망치지 않고 해결할 방법을 찾았으면 좋겠어! 🤞




O uso de banda do Wikimedia Commons aumentou 50%? 😲 Isso é loucura! Acho que esses rastreadores de IA estão famintos pelos nossos dados. É legal que o Wikimedia nos mantenha informados, mas cara, isso vai atrasar tudo. Espero que eles encontrem uma maneira de lidar com isso sem estragar nossa experiência! 🤞




¿El uso de ancho de banda de Wikimedia Commons aumentó un 50%? 😲 ¡Eso es una locura! Supongo que esos rastreadores de IA están hambrientos de nuestros datos. Es genial que Wikimedia nos mantenga informados, pero hombre, esto va a ralentizar todo. Espero que encuentren una manera de manejarlo sin arruinar nuestra experiencia. 🤞




The surge in bandwidth demand by AI crawlers on Wikimedia Commons is insane! It's cool to see AI being used so extensively, but it's also a bit worrying. Hope they find a way to manage it without affecting the user experience too much. 🤔












