AI Crawlers Surge Wikimedia Commons Ancho de banda Demanda en un 50%

La Fundación Wikimedia, el organismo matriz detrás de Wikipedia y numerosas otras plataformas de conocimiento colaborativo, anunció el miércoles un asombroso aumento del 50% en el uso de ancho de banda para descargas de multimedia desde Wikimedia Commons desde enero de 2024. Este aumento, detallado en una publicación de blog el martes, no está impulsado por un incremento en la curiosidad humana, sino por raspadores automáticos ávidos de datos para entrenar modelos de IA.
“Nuestra infraestructura está diseñada para manejar picos repentinos de tráfico de humanos durante eventos importantes, pero el volumen de tráfico de bots raspadores es inigualable y representa riesgos y costos crecientes,” explica la publicación.
Wikimedia Commons funciona como un centro de acceso libre para imágenes, videos y archivos de audio, todos disponibles bajo licencias abiertas o en el dominio público.
Profundizando, Wikimedia reveló que un impresionante 65% del tráfico más intensivo en recursos —medido por el tipo de contenido consumido— proviene de bots. Sin embargo, estos bots representan solo el 35% de las vistas totales de páginas. La discrepancia, según Wikimedia, proviene de cómo el contenido frecuentemente accedido se almacena en caché más cerca de los usuarios, mientras que el contenido menos popular, que los bots suelen apuntar, se almacena en el más costoso “centro de datos principal”.
“Mientras los lectores humanos tienden a enfocarse en temas específicos, a menudo similares, los bots rastreadores tienden a ‘leer en masa’ un mayor número de páginas y visitar las menos populares también,” señaló Wikimedia. “Esto resulta en que estas solicitudes se redirijan al centro de datos principal, lo que aumenta significativamente nuestros costos de consumo de recursos.”
Como resultado, el equipo de confiabilidad del sitio de la Fundación Wikimedia está dedicando tiempo y recursos sustanciales a bloquear estos rastreadores para evitar interrupciones para los usuarios cotidianos. Esto ni siquiera aborda los crecientes costos en la nube con los que la Fundación está lidiando.
Este escenario es parte de una tendencia más amplia que está poniendo en peligro la internet abierta. Apenas el mes pasado, el ingeniero de software y defensor del código abierto Drew DeVault lamentó que los rastreadores de IA están ignorando descaradamente los archivos “robots.txt” destinados a disuadir el tráfico automatizado. De manera similar, Gergely Orosz, conocido como el “ingeniero pragmático”, expresó recientemente su frustración por cómo los raspadores de IA de empresas como Meta han disparado las demandas de ancho de banda para sus proyectos.
Aunque las infraestructuras de código abierto son particularmente vulnerables, los desarrolladores están respondiendo con ingenio y determinación. TechCrunch destacó la semana pasada que algunas empresas tecnológicas están dando un paso adelante. Por ejemplo, Cloudflare presentó AI Labyrinth, diseñado para ralentizar a los rastreadores con contenido generado por IA.
Aun así, sigue siendo un constante juego del gato y el ratón, uno que podría empujar a muchos editores a refugiarse detrás de inicios de sesión y muros de pago, perjudicando en última instancia la naturaleza abierta de la web en la que todos confiamos.
Artículo relacionado
La startup de programación de IA Cursor contratará a 200 personas en la región de Asia-Pacífico tras recibir una importante inversión de SpaceX
La startup de programación de IA Cursor ha anunciado una importante expansión global y tiene previsto contratar a 200 empleados en toda la región de Asia-Pacífico durante los próximos seis meses. Entr
Claude se utiliza para crear paquetes npm maliciosos: más de 670 paquetes comprometidos amenazan el código abierto
Un reciente incidente de ciberseguridad pone de manifiesto cómo los grandes modelos de lenguaje (LLM) están siendo utilizados con fines maliciosos para el desarrollo de software malicioso. El investig
Reliance da a conocer un plan de inversión en inteligencia artificial de 110 000 millones de dólares, mientras la India acelera su impulso tecnológico
Mukesh Ambani, el multimillonario presidente del conglomerado indio Reliance, anunció el jueves un plan de 10 billones de rupias (aproximadamente 110 000 millones de dólares) para construir infraestru
Recomendaciones de temas especiales relacionados
comentario (15)
0/500
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

La Fundación Wikimedia, el organismo matriz detrás de Wikipedia y numerosas otras plataformas de conocimiento colaborativo, anunció el miércoles un asombroso aumento del 50% en el uso de ancho de banda para descargas de multimedia desde Wikimedia Commons desde enero de 2024. Este aumento, detallado en una publicación de blog el martes, no está impulsado por un incremento en la curiosidad humana, sino por raspadores automáticos ávidos de datos para entrenar modelos de IA.
“Nuestra infraestructura está diseñada para manejar picos repentinos de tráfico de humanos durante eventos importantes, pero el volumen de tráfico de bots raspadores es inigualable y representa riesgos y costos crecientes,” explica la publicación.
Wikimedia Commons funciona como un centro de acceso libre para imágenes, videos y archivos de audio, todos disponibles bajo licencias abiertas o en el dominio público.
Profundizando, Wikimedia reveló que un impresionante 65% del tráfico más intensivo en recursos —medido por el tipo de contenido consumido— proviene de bots. Sin embargo, estos bots representan solo el 35% de las vistas totales de páginas. La discrepancia, según Wikimedia, proviene de cómo el contenido frecuentemente accedido se almacena en caché más cerca de los usuarios, mientras que el contenido menos popular, que los bots suelen apuntar, se almacena en el más costoso “centro de datos principal”.
“Mientras los lectores humanos tienden a enfocarse en temas específicos, a menudo similares, los bots rastreadores tienden a ‘leer en masa’ un mayor número de páginas y visitar las menos populares también,” señaló Wikimedia. “Esto resulta en que estas solicitudes se redirijan al centro de datos principal, lo que aumenta significativamente nuestros costos de consumo de recursos.”
Como resultado, el equipo de confiabilidad del sitio de la Fundación Wikimedia está dedicando tiempo y recursos sustanciales a bloquear estos rastreadores para evitar interrupciones para los usuarios cotidianos. Esto ni siquiera aborda los crecientes costos en la nube con los que la Fundación está lidiando.
Este escenario es parte de una tendencia más amplia que está poniendo en peligro la internet abierta. Apenas el mes pasado, el ingeniero de software y defensor del código abierto Drew DeVault lamentó que los rastreadores de IA están ignorando descaradamente los archivos “robots.txt” destinados a disuadir el tráfico automatizado. De manera similar, Gergely Orosz, conocido como el “ingeniero pragmático”, expresó recientemente su frustración por cómo los raspadores de IA de empresas como Meta han disparado las demandas de ancho de banda para sus proyectos.
Aunque las infraestructuras de código abierto son particularmente vulnerables, los desarrolladores están respondiendo con ingenio y determinación. TechCrunch destacó la semana pasada que algunas empresas tecnológicas están dando un paso adelante. Por ejemplo, Cloudflare presentó AI Labyrinth, diseñado para ralentizar a los rastreadores con contenido generado por IA.
Aun así, sigue siendo un constante juego del gato y el ratón, uno que podría empujar a muchos editores a refugiarse detrás de inicios de sesión y muros de pago, perjudicando en última instancia la naturaleza abierta de la web en la que todos confiamos.
La startup de programación de IA Cursor contratará a 200 personas en la región de Asia-Pacífico tras recibir una importante inversión de SpaceX
La startup de programación de IA Cursor ha anunciado una importante expansión global y tiene previsto contratar a 200 empleados en toda la región de Asia-Pacífico durante los próximos seis meses. Entr
Claude se utiliza para crear paquetes npm maliciosos: más de 670 paquetes comprometidos amenazan el código abierto
Un reciente incidente de ciberseguridad pone de manifiesto cómo los grandes modelos de lenguaje (LLM) están siendo utilizados con fines maliciosos para el desarrollo de software malicioso. El investig
Reliance da a conocer un plan de inversión en inteligencia artificial de 110 000 millones de dólares, mientras la India acelera su impulso tecnológico
Mukesh Ambani, el multimillonario presidente del conglomerado indio Reliance, anunció el jueves un plan de 10 billones de rupias (aproximadamente 110 000 millones de dólares) para construir infraestru
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!





Hogar






