AI Crawlers Surge Wikimedia Commons Ancho de banda Demanda en un 50%

La Fundación Wikimedia, el organismo matriz detrás de Wikipedia y numerosas otras plataformas de conocimiento colaborativo, anunció el miércoles un asombroso aumento del 50% en el uso de ancho de banda para descargas de multimedia desde Wikimedia Commons desde enero de 2024. Este aumento, detallado en una publicación de blog el martes, no está impulsado por un incremento en la curiosidad humana, sino por raspadores automáticos ávidos de datos para entrenar modelos de IA.
“Nuestra infraestructura está diseñada para manejar picos repentinos de tráfico de humanos durante eventos importantes, pero el volumen de tráfico de bots raspadores es inigualable y representa riesgos y costos crecientes,” explica la publicación.
Wikimedia Commons funciona como un centro de acceso libre para imágenes, videos y archivos de audio, todos disponibles bajo licencias abiertas o en el dominio público.
Profundizando, Wikimedia reveló que un impresionante 65% del tráfico más intensivo en recursos —medido por el tipo de contenido consumido— proviene de bots. Sin embargo, estos bots representan solo el 35% de las vistas totales de páginas. La discrepancia, según Wikimedia, proviene de cómo el contenido frecuentemente accedido se almacena en caché más cerca de los usuarios, mientras que el contenido menos popular, que los bots suelen apuntar, se almacena en el más costoso “centro de datos principal”.
“Mientras los lectores humanos tienden a enfocarse en temas específicos, a menudo similares, los bots rastreadores tienden a ‘leer en masa’ un mayor número de páginas y visitar las menos populares también,” señaló Wikimedia. “Esto resulta en que estas solicitudes se redirijan al centro de datos principal, lo que aumenta significativamente nuestros costos de consumo de recursos.”
Como resultado, el equipo de confiabilidad del sitio de la Fundación Wikimedia está dedicando tiempo y recursos sustanciales a bloquear estos rastreadores para evitar interrupciones para los usuarios cotidianos. Esto ni siquiera aborda los crecientes costos en la nube con los que la Fundación está lidiando.
Este escenario es parte de una tendencia más amplia que está poniendo en peligro la internet abierta. Apenas el mes pasado, el ingeniero de software y defensor del código abierto Drew DeVault lamentó que los rastreadores de IA están ignorando descaradamente los archivos “robots.txt” destinados a disuadir el tráfico automatizado. De manera similar, Gergely Orosz, conocido como el “ingeniero pragmático”, expresó recientemente su frustración por cómo los raspadores de IA de empresas como Meta han disparado las demandas de ancho de banda para sus proyectos.
Aunque las infraestructuras de código abierto son particularmente vulnerables, los desarrolladores están respondiendo con ingenio y determinación. TechCrunch destacó la semana pasada que algunas empresas tecnológicas están dando un paso adelante. Por ejemplo, Cloudflare presentó AI Labyrinth, diseñado para ralentizar a los rastreadores con contenido generado por IA.
Aun así, sigue siendo un constante juego del gato y el ratón, uno que podría empujar a muchos editores a refugiarse detrás de inicios de sesión y muros de pago, perjudicando en última instancia la naturaleza abierta de la web en la que todos confiamos.
Artículo relacionado
Programación universitaria basada en inteligencia artificial: Racionalización de los horarios académicos
En el dinámico panorama académico actual, una programación eficaz es vital para el éxito. AI Schedule Maker, diseñado para la Universidad Rey Abdulaziz, automatiza los horarios universitarios y resue
Ai-Kon 2012: Celebración de la creatividad y la comunidad del cosplay
Ai-Kon, una de las principales convenciones canadienses de anime, ha sido durante mucho tiempo un centro neurálgico para los entusiastas del cosplay. Este artículo repasa la Ai-Kon 2012, destacando l
Google Presenta el Protocolo A2A para Mejorar la Interoperabilidad de Agentes de IA
Los agentes de IA abordan tareas complejas y repetitivas como la gestión de la cadena de suministro y la adquisición de equipos. A medida que las organizaciones adoptan agentes de diversos proveedores
comentario (14)
0/200
KevinBrown
23 de agosto de 2025 17:01:15 GMT+02:00
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
0
CharlesWhite
13 de agosto de 2025 15:00:59 GMT+02:00
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
0
SamuelClark
31 de julio de 2025 13:35:39 GMT+02:00
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
0
KennethJohnson
31 de julio de 2025 03:42:05 GMT+02:00
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!
0
WillieAnderson
18 de abril de 2025 08:23:40 GMT+02:00
Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔
0
RaymondGreen
18 de abril de 2025 08:01:01 GMT+02:00
ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞
0
La Fundación Wikimedia, el organismo matriz detrás de Wikipedia y numerosas otras plataformas de conocimiento colaborativo, anunció el miércoles un asombroso aumento del 50% en el uso de ancho de banda para descargas de multimedia desde Wikimedia Commons desde enero de 2024. Este aumento, detallado en una publicación de blog el martes, no está impulsado por un incremento en la curiosidad humana, sino por raspadores automáticos ávidos de datos para entrenar modelos de IA.
“Nuestra infraestructura está diseñada para manejar picos repentinos de tráfico de humanos durante eventos importantes, pero el volumen de tráfico de bots raspadores es inigualable y representa riesgos y costos crecientes,” explica la publicación.
Wikimedia Commons funciona como un centro de acceso libre para imágenes, videos y archivos de audio, todos disponibles bajo licencias abiertas o en el dominio público.
Profundizando, Wikimedia reveló que un impresionante 65% del tráfico más intensivo en recursos —medido por el tipo de contenido consumido— proviene de bots. Sin embargo, estos bots representan solo el 35% de las vistas totales de páginas. La discrepancia, según Wikimedia, proviene de cómo el contenido frecuentemente accedido se almacena en caché más cerca de los usuarios, mientras que el contenido menos popular, que los bots suelen apuntar, se almacena en el más costoso “centro de datos principal”.
“Mientras los lectores humanos tienden a enfocarse en temas específicos, a menudo similares, los bots rastreadores tienden a ‘leer en masa’ un mayor número de páginas y visitar las menos populares también,” señaló Wikimedia. “Esto resulta en que estas solicitudes se redirijan al centro de datos principal, lo que aumenta significativamente nuestros costos de consumo de recursos.”
Como resultado, el equipo de confiabilidad del sitio de la Fundación Wikimedia está dedicando tiempo y recursos sustanciales a bloquear estos rastreadores para evitar interrupciones para los usuarios cotidianos. Esto ni siquiera aborda los crecientes costos en la nube con los que la Fundación está lidiando.
Este escenario es parte de una tendencia más amplia que está poniendo en peligro la internet abierta. Apenas el mes pasado, el ingeniero de software y defensor del código abierto Drew DeVault lamentó que los rastreadores de IA están ignorando descaradamente los archivos “robots.txt” destinados a disuadir el tráfico automatizado. De manera similar, Gergely Orosz, conocido como el “ingeniero pragmático”, expresó recientemente su frustración por cómo los raspadores de IA de empresas como Meta han disparado las demandas de ancho de banda para sus proyectos.
Aunque las infraestructuras de código abierto son particularmente vulnerables, los desarrolladores están respondiendo con ingenio y determinación. TechCrunch destacó la semana pasada que algunas empresas tecnológicas están dando un paso adelante. Por ejemplo, Cloudflare presentó AI Labyrinth, diseñado para ralentizar a los rastreadores con contenido generado por IA.
Aun así, sigue siendo un constante juego del gato y el ratón, uno que podría empujar a muchos editores a refugiarse detrás de inicios de sesión y muros de pago, perjudicando en última instancia la naturaleza abierta de la web en la que todos confiamos.



Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.




Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?




Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅




Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!




Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔




ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞












