Ai Crawlers Surge Wikimedia Commons Bandwidth Demand em 50%

A Fundação Wikimedia, o órgão responsável pela Wikipedia e várias outras plataformas de conhecimento colaborativo, anunciou na quarta-feira um aumento impressionante de 50% no uso de largura de banda para downloads de multimídia do Wikimedia Commons desde janeiro de 2024. Esse aumento, conforme detalhado em um post de blog na terça-feira, não é impulsionado por um aumento na curiosidade humana, mas sim por rastreadores automatizados famintos por dados para treinar modelos de IA.
“Nossa infraestrutura é projetada para lidar com picos repentinos de tráfego de humanos durante grandes eventos, mas o volume de tráfego de bots rastreadores é incomparável e representa riscos e custos crescentes,” explica o post.
O Wikimedia Commons funciona como um centro de acesso livre para imagens, vídeos e arquivos de áudio, todos disponíveis sob licenças abertas ou em domínio público.
Aprofundando-se, a Wikimedia revelou que impressionantes 65% do tráfego mais intensivo em recursos — medido pelo tipo de conteúdo consumido — vem de bots. No entanto, esses bots representam apenas 35% do total de visualizações de páginas. A discrepância, segundo a Wikimedia, decorre de como o conteúdo frequentemente acessado é armazenado em cache mais próximo dos usuários, enquanto o conteúdo menos popular, que os bots frequentemente visam, é armazenado no “data center principal” mais custoso.
“Enquanto leitores humanos tendem a se concentrar em tópicos específicos, muitas vezes semelhantes, os bots rastreadores tendem a ‘ler em massa’ um maior número de páginas e visitar as menos populares também,” observou a Wikimedia. “Isso resulta em essas requisições serem encaminhadas para o data center principal, o que aumenta significativamente nossos custos de consumo de recursos.”
Como resultado, a equipe de confiabilidade do site da Fundação Wikimedia está dedicando tempo e recursos substanciais para bloquear esses rastreadores, a fim de evitar interrupções para os usuários comuns. Isso sem mencionar os crescentes custos de nuvem com os quais a Fundação está lidando.
Esse cenário faz parte de uma tendência mais ampla que está ameaçando a internet aberta. No último mês, o engenheiro de software e defensor do código aberto Drew DeVault lamentou que os rastreadores de IA estão descaradamente ignorando os arquivos “robots.txt” destinados a deter o tráfego automatizado. Da mesma forma, Gergely Orosz, conhecido como o “engenheiro pragmático,” recentemente expressou sua frustração sobre como os rastreadores de IA de empresas como a Meta aumentaram as demandas de largura de banda para seus projetos.
Embora as infraestruturas de código aberto sejam particularmente vulneráveis, os desenvolvedores estão respondendo com engenhosidade e determinação. A TechCrunch destacou na última semana que algumas empresas de tecnologia estão se mobilizando. Por exemplo, a Cloudflare introduziu o AI Labyrinth, projetado para desacelerar rastreadores com conteúdo gerado por IA.
No entanto, permanece um constante jogo de gato e rato, que pode levar muitos editores a se refugiarem atrás de logins e paywalls, prejudicando, em última análise, a natureza aberta da web da qual todos dependemos.
Artigo relacionado
O TreeQuest da Sakana AI aumenta o desempenho da IA com a colaboração de vários modelos
O laboratório japonês de IA Sakana AI revelou uma técnica que permite que vários modelos de linguagem de grande porte (LLMs) trabalhem juntos, formando uma equipe de IA altamente eficaz. Denominado Mu
Libere a criatividade com o PicLumen: Guia gratuito de geração de imagens com IA
Produzir visuais impressionantes agora é fácil com as ferramentas de criação de imagens orientadas por IA. Este tutorial explora o PicLumen, uma plataforma excepcional que oferece geração de imagens i
Programação universitária com tecnologia de IA: Simplificando os horários acadêmicos
No cenário acadêmico dinâmico de hoje, a programação eficaz é vital para o sucesso. O AI Schedule Maker, desenvolvido para a King Abdulaziz University, automatiza os horários das universidades, resol
Comentários (14)
0/200
KevinBrown
23 de Agosto de 2025 à15 16:01:15 WEST
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
0
CharlesWhite
13 de Agosto de 2025 à59 14:00:59 WEST
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
0
SamuelClark
31 de Julho de 2025 à39 12:35:39 WEST
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
0
KennethJohnson
31 de Julho de 2025 à5 02:42:05 WEST
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!
0
WillieAnderson
18 de Abril de 2025 à40 07:23:40 WEST
Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔
0
RaymondGreen
18 de Abril de 2025 à1 07:01:01 WEST
ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞
0
A Fundação Wikimedia, o órgão responsável pela Wikipedia e várias outras plataformas de conhecimento colaborativo, anunciou na quarta-feira um aumento impressionante de 50% no uso de largura de banda para downloads de multimídia do Wikimedia Commons desde janeiro de 2024. Esse aumento, conforme detalhado em um post de blog na terça-feira, não é impulsionado por um aumento na curiosidade humana, mas sim por rastreadores automatizados famintos por dados para treinar modelos de IA.
“Nossa infraestrutura é projetada para lidar com picos repentinos de tráfego de humanos durante grandes eventos, mas o volume de tráfego de bots rastreadores é incomparável e representa riscos e custos crescentes,” explica o post.
O Wikimedia Commons funciona como um centro de acesso livre para imagens, vídeos e arquivos de áudio, todos disponíveis sob licenças abertas ou em domínio público.
Aprofundando-se, a Wikimedia revelou que impressionantes 65% do tráfego mais intensivo em recursos — medido pelo tipo de conteúdo consumido — vem de bots. No entanto, esses bots representam apenas 35% do total de visualizações de páginas. A discrepância, segundo a Wikimedia, decorre de como o conteúdo frequentemente acessado é armazenado em cache mais próximo dos usuários, enquanto o conteúdo menos popular, que os bots frequentemente visam, é armazenado no “data center principal” mais custoso.
“Enquanto leitores humanos tendem a se concentrar em tópicos específicos, muitas vezes semelhantes, os bots rastreadores tendem a ‘ler em massa’ um maior número de páginas e visitar as menos populares também,” observou a Wikimedia. “Isso resulta em essas requisições serem encaminhadas para o data center principal, o que aumenta significativamente nossos custos de consumo de recursos.”
Como resultado, a equipe de confiabilidade do site da Fundação Wikimedia está dedicando tempo e recursos substanciais para bloquear esses rastreadores, a fim de evitar interrupções para os usuários comuns. Isso sem mencionar os crescentes custos de nuvem com os quais a Fundação está lidando.
Esse cenário faz parte de uma tendência mais ampla que está ameaçando a internet aberta. No último mês, o engenheiro de software e defensor do código aberto Drew DeVault lamentou que os rastreadores de IA estão descaradamente ignorando os arquivos “robots.txt” destinados a deter o tráfego automatizado. Da mesma forma, Gergely Orosz, conhecido como o “engenheiro pragmático,” recentemente expressou sua frustração sobre como os rastreadores de IA de empresas como a Meta aumentaram as demandas de largura de banda para seus projetos.
Embora as infraestruturas de código aberto sejam particularmente vulneráveis, os desenvolvedores estão respondendo com engenhosidade e determinação. A TechCrunch destacou na última semana que algumas empresas de tecnologia estão se mobilizando. Por exemplo, a Cloudflare introduziu o AI Labyrinth, projetado para desacelerar rastreadores com conteúdo gerado por IA.
No entanto, permanece um constante jogo de gato e rato, que pode levar muitos editores a se refugiarem atrás de logins e paywalls, prejudicando, em última análise, a natureza aberta da web da qual todos dependemos.




Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.




Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?




Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅




Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!




Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔




ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞












