AI Crawlers Surge Wikimedia Commons Ancho de banda Demanda en un 50%

Hogar

Noticias

17 de abril de 2025

JamesMiller

121

AI Crawlers Surge Wikimedia Commons Ancho de banda Demanda en un 50%

La Fundación Wikimedia, el organismo matriz detrás de Wikipedia y numerosas otras plataformas de conocimiento colaborativo, anunció el miércoles un asombroso aumento del 50% en el uso de ancho de banda para descargas de multimedia desde Wikimedia Commons desde enero de 2024. Este aumento, detallado en una publicación de blog el martes, no está impulsado por un incremento en la curiosidad humana, sino por raspadores automáticos ávidos de datos para entrenar modelos de IA.

“Nuestra infraestructura está diseñada para manejar picos repentinos de tráfico de humanos durante eventos importantes, pero el volumen de tráfico de bots raspadores es inigualable y representa riesgos y costos crecientes,” explica la publicación.

Wikimedia Commons funciona como un centro de acceso libre para imágenes, videos y archivos de audio, todos disponibles bajo licencias abiertas o en el dominio público.

Profundizando, Wikimedia reveló que un impresionante 65% del tráfico más intensivo en recursos —medido por el tipo de contenido consumido— proviene de bots. Sin embargo, estos bots representan solo el 35% de las vistas totales de páginas. La discrepancia, según Wikimedia, proviene de cómo el contenido frecuentemente accedido se almacena en caché más cerca de los usuarios, mientras que el contenido menos popular, que los bots suelen apuntar, se almacena en el más costoso “centro de datos principal”.

“Mientras los lectores humanos tienden a enfocarse en temas específicos, a menudo similares, los bots rastreadores tienden a ‘leer en masa’ un mayor número de páginas y visitar las menos populares también,” señaló Wikimedia. “Esto resulta en que estas solicitudes se redirijan al centro de datos principal, lo que aumenta significativamente nuestros costos de consumo de recursos.”

Como resultado, el equipo de confiabilidad del sitio de la Fundación Wikimedia está dedicando tiempo y recursos sustanciales a bloquear estos rastreadores para evitar interrupciones para los usuarios cotidianos. Esto ni siquiera aborda los crecientes costos en la nube con los que la Fundación está lidiando.

Este escenario es parte de una tendencia más amplia que está poniendo en peligro la internet abierta. Apenas el mes pasado, el ingeniero de software y defensor del código abierto Drew DeVault lamentó que los rastreadores de IA están ignorando descaradamente los archivos “robots.txt” destinados a disuadir el tráfico automatizado. De manera similar, Gergely Orosz, conocido como el “ingeniero pragmático”, expresó recientemente su frustración por cómo los raspadores de IA de empresas como Meta han disparado las demandas de ancho de banda para sus proyectos.

Aunque las infraestructuras de código abierto son particularmente vulnerables, los desarrolladores están respondiendo con ingenio y determinación. TechCrunch destacó la semana pasada que algunas empresas tecnológicas están dando un paso adelante. Por ejemplo, Cloudflare presentó AI Labyrinth, diseñado para ralentizar a los rastreadores con contenido generado por IA.

Aun así, sigue siendo un constante juego del gato y el ratón, uno que podría empujar a muchos editores a refugiarse detrás de inicios de sesión y muros de pago, perjudicando en última instancia la naturaleza abierta de la web en la que todos confiamos.

116

Artículo relacionado

Trump exime a smartphones, ordenadores y chips de la subida de aranceles La administración Trump ha concedido exclusiones para smartphones, ordenadores y diversos dispositivos electrónicos de las recientes subidas de aranceles, incluso cuando se importan de China, según in

La IA reimagina a Michael Jackson en el metaverso con asombrosas transformaciones digitales La inteligencia artificial está cambiando radicalmente nuestra forma de entender la creatividad, el entretenimiento y el legado cultural. Esta exploración de las interpretaciones de Michael Jackson ge

¿Mitiga el entrenamiento los efectos de descarga cognitiva inducidos por la IA? Un reciente artículo de investigación en Unite.ai titulado 'ChatGPT Might Be Draining Your Brain: Cognitive Debt in the AI Era" arroja luz sobre una investigación del MIT. El periodista Alex McFarland

comentario (14)

0/200

Entregar

KevinBrown

23 de agosto de 2025 17:01:15 GMT+02:00

Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.

CharlesWhite

13 de agosto de 2025 15:00:59 GMT+02:00

Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?

SamuelClark

31 de julio de 2025 13:35:39 GMT+02:00

Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅

KennethJohnson

31 de julio de 2025 03:42:05 GMT+02:00

Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

WillieAnderson

18 de abril de 2025 08:23:40 GMT+02:00

Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔

RaymondGreen

18 de abril de 2025 08:01:01 GMT+02:00

ウィキメディア・コモンズの帯域使用量が50%増えたって？😲 信じられない！AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね！🤞

Noticias principales

Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Doblaje AI: Guía Definitiva para la Creación de Voz Realista La IA de Cambium transforma la madera de los desechos en madera AI Builder y Power Automate Revolucionan la Sumarización de Documentos Operai mejora el asistente de voz de IA para mejores chats Duolingo Cambia al Sistema de Energía Cómo garantizar que sus datos sean confiables para la integración de IA Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia

Más

Presentado