opción
Hogar
Noticias
AI Crawlers Surge Wikimedia Commons Ancho de banda Demanda en un 50%

AI Crawlers Surge Wikimedia Commons Ancho de banda Demanda en un 50%

17 de abril de 2025
62

AI Crawlers Surge Wikimedia Commons Ancho de banda Demanda en un 50%

La Fundación Wikimedia, el organismo matriz detrás de Wikipedia y muchas otras plataformas de conocimiento de origen público, anunció el miércoles un asombroso aumento del 50% en el uso de ancho de banda para las descargas multimedia de Wikimedia Commons desde enero de 2024. Este aumento detallado en una publicación de blog el martes, no es un actual cursi en la curiosidad humana, sino por los screaps de los datos.

"Nuestra infraestructura está diseñada para manejar sobretensiones repentinas en el tráfico de los humanos durante los principales eventos, pero el volumen de tráfico de los bots de raspador es inigualable y plantea riesgos y costos crecientes", explica la publicación.

Wikimedia Commons sirve como un centro de acceso libre para imágenes, videos y archivos de audio, todos disponibles con licencias abiertas o en el dominio público.

Al profundizar, Wikimedia, reveló que un enorme 65% del tráfico más intensivo de recursos, medido por el tipo de contenido consumido, proviene de los bots. Sin embargo, estos bots representan solo el 35% de las vistas generales de página. La discrepancia, según Wikimedia, se deriva de la forma en que el contenido al que se accede con frecuencia se almacena más cerca de los usuarios, mientras que el contenido menos popular, a los que los bots a menudo se dirigen, se almacena en el "centro de datos central" más costoso.

"Si bien los lectores humanos tienden a centrarse en los bots específicos, a menudo similares, temas, los bots de rastreadores tienden a 'leer a granel' un mayor número de páginas y visitar también menos populares", señaló Wikimedia. "Esto da como resultado que estas solicitudes se envíen al centro de datos central, que aumenta significativamente nuestros costos de consumo de recursos".

Como resultado, el equipo de confiabilidad del sitio de la Fundación Wikimedia está dedicando un tiempo y recursos sustanciales a bloquear estos rastreadores para evitar interrupciones para los usuarios cotidianos. Esto ni siquiera toca los costos de la nube de creciente con los que se afirma la Fundación.

Este escenario es parte de una tendencia más amplia que está poniendo en peligro la Internet abierto. El mes pasado, el ingeniero de software y el defensor de código abierto Drew Devault lamentó que los rastreadores de IA ignoren descaradamente archivos "robots.txt" destinados a disuadir el tráfico automatizado. Del mismo modo, Gergely Orosz, conocido como el "ingeniero pragmático", recientemente expresó su frustración por cómo los raspadores de IA de compañías como Meta han aumentado las demandas de ancho de banda para sus proyectos.

Si bien las infraestructuras de código abierto son particularmente vulnerables, los desarrolladores están respondiendo con ingenio y determinación. TechCrunch destacó la semana pasada que algunas compañías tecnológicas están dando un paso adelante. Por ejemplo, Cloudflare introdujo AI Labyrinth, diseñado para ralentizar rastreadores con contenido generado por IA.

Sin embargo, sigue siendo un juego constante de gato y ratón, uno que podría empujar a muchos editores a retirarse detrás de los inicios de sesión y los paredes de pago, dañando en última instancia la naturaleza abierta de la web en la que todos confiamos.

Artículo relacionado
Ren Zhengfei: El futuro de la IA en China y el juego a largo plazo de Huawei Ren Zhengfei: El futuro de la IA en China y el juego a largo plazo de Huawei json收起自动换行复制{"content": ",[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object
Revolución de la IA Agentiva Transforma la Inversión para Superar a Wall Street en 2025 Revolución de la IA Agentiva Transforma la Inversión para Superar a Wall Street en 2025 Durante años, las firmas de Wall Street han dominado el mercado de valores, aprovechando recursos superiores para generar ganancias. Ahora, la tecnología de vanguardia, especialmente la Inteligencia A
Perplexity recibió 780 millones de consultas el último mes, dice el CEO Perplexity recibió 780 millones de consultas el último mes, dice el CEO json收起自动换行复制{"content": ",[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],,[object Object],— Aravind Srinivas (@AravSrin
comentario (10)
0/200
ThomasJones
ThomasJones 17 de abril de 2025 00:00:00 GMT+02:00

Wikimedia Commons bandwidth usage up by 50%? 😲 That's insane! I guess all those AI crawlers are hungry for our data. It's cool that Wikimedia is keeping us posted, but man, this is gonna slow things down. Hope they find a way to handle it without messing up our experience! 🤞

RaymondGreen
RaymondGreen 18 de abril de 2025 00:00:00 GMT+02:00

ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞

RogerSanchez
RogerSanchez 17 de abril de 2025 00:00:00 GMT+02:00

위키미디어 커먼즈의 대역폭 사용량이 50% 증가했다고? 😲 믿기지 않아! AI 크롤러들이 우리 데이터를 원하는 거겠지. 위키미디어가 정보를 공유해주는 건 좋지만, 이 때문에 느려지면 곤란해. 사용자 경험을 망치지 않고 해결할 방법을 찾았으면 좋겠어! 🤞

CarlTaylor
CarlTaylor 17 de abril de 2025 00:00:00 GMT+02:00

O uso de banda do Wikimedia Commons aumentou 50%? 😲 Isso é loucura! Acho que esses rastreadores de IA estão famintos pelos nossos dados. É legal que o Wikimedia nos mantenha informados, mas cara, isso vai atrasar tudo. Espero que eles encontrem uma maneira de lidar com isso sem estragar nossa experiência! 🤞

AlbertLee
AlbertLee 18 de abril de 2025 00:00:00 GMT+02:00

¿El uso de ancho de banda de Wikimedia Commons aumentó un 50%? 😲 ¡Eso es una locura! Supongo que esos rastreadores de IA están hambrientos de nuestros datos. Es genial que Wikimedia nos mantenga informados, pero hombre, esto va a ralentizar todo. Espero que encuentren una manera de manejarlo sin arruinar nuestra experiencia. 🤞

ThomasHernández
ThomasHernández 17 de abril de 2025 00:00:00 GMT+02:00

The surge in bandwidth demand by AI crawlers on Wikimedia Commons is insane! It's cool to see AI being used so extensively, but it's also a bit worrying. Hope they find a way to manage it without affecting the user experience too much. 🤔

Volver arriba
OR