Ai Crawlers Surge Wikimedia Commons Bandwidth Demand em 50%

A Fundação Wikimedia, o órgão responsável pela Wikipedia e várias outras plataformas de conhecimento colaborativo, anunciou na quarta-feira um aumento impressionante de 50% no uso de largura de banda para downloads de multimídia do Wikimedia Commons desde janeiro de 2024. Esse aumento, conforme detalhado em um post de blog na terça-feira, não é impulsionado por um aumento na curiosidade humana, mas sim por rastreadores automatizados famintos por dados para treinar modelos de IA.
“Nossa infraestrutura é projetada para lidar com picos repentinos de tráfego de humanos durante grandes eventos, mas o volume de tráfego de bots rastreadores é incomparável e representa riscos e custos crescentes,” explica o post.
O Wikimedia Commons funciona como um centro de acesso livre para imagens, vídeos e arquivos de áudio, todos disponíveis sob licenças abertas ou em domínio público.
Aprofundando-se, a Wikimedia revelou que impressionantes 65% do tráfego mais intensivo em recursos — medido pelo tipo de conteúdo consumido — vem de bots. No entanto, esses bots representam apenas 35% do total de visualizações de páginas. A discrepância, segundo a Wikimedia, decorre de como o conteúdo frequentemente acessado é armazenado em cache mais próximo dos usuários, enquanto o conteúdo menos popular, que os bots frequentemente visam, é armazenado no “data center principal” mais custoso.
“Enquanto leitores humanos tendem a se concentrar em tópicos específicos, muitas vezes semelhantes, os bots rastreadores tendem a ‘ler em massa’ um maior número de páginas e visitar as menos populares também,” observou a Wikimedia. “Isso resulta em essas requisições serem encaminhadas para o data center principal, o que aumenta significativamente nossos custos de consumo de recursos.”
Como resultado, a equipe de confiabilidade do site da Fundação Wikimedia está dedicando tempo e recursos substanciais para bloquear esses rastreadores, a fim de evitar interrupções para os usuários comuns. Isso sem mencionar os crescentes custos de nuvem com os quais a Fundação está lidando.
Esse cenário faz parte de uma tendência mais ampla que está ameaçando a internet aberta. No último mês, o engenheiro de software e defensor do código aberto Drew DeVault lamentou que os rastreadores de IA estão descaradamente ignorando os arquivos “robots.txt” destinados a deter o tráfego automatizado. Da mesma forma, Gergely Orosz, conhecido como o “engenheiro pragmático,” recentemente expressou sua frustração sobre como os rastreadores de IA de empresas como a Meta aumentaram as demandas de largura de banda para seus projetos.
Embora as infraestruturas de código aberto sejam particularmente vulneráveis, os desenvolvedores estão respondendo com engenhosidade e determinação. A TechCrunch destacou na última semana que algumas empresas de tecnologia estão se mobilizando. Por exemplo, a Cloudflare introduziu o AI Labyrinth, projetado para desacelerar rastreadores com conteúdo gerado por IA.
No entanto, permanece um constante jogo de gato e rato, que pode levar muitos editores a se refugiarem atrás de logins e paywalls, prejudicando, em última análise, a natureza aberta da web da qual todos dependemos.
Artigo relacionado
Claude foi usado para criar pacotes npm maliciosos: mais de 670 pacotes comprometidos ameaçam o código aberto
Um recente incidente de segurança cibernética revela como os grandes modelos de linguagem (LLMs) estão sendo utilizados para o desenvolvimento de software malicioso. O pesquisador de segurança Sibi Mo
A Reliance revela um plano de investimento em IA de US$ 110 bilhões, à medida que a Índia acelera sua iniciativa tecnológica
Mukesh Ambani, o bilionário presidente do conglomerado indiano Reliance, anunciou na quinta-feira um plano de 10 trilhões de rúpias (cerca de US$ 110 bilhões) para construir uma infraestrutura de comp
A Zhiyuan WITA encerra a interação com o robô “nu” com o primeiro pedido de conformidade
O setor de inteligência incorporada atingiu um marco significativo. De acordo com o último comunicado da Administração do Ciberespaço de Xangai, o modelo de grande porte WITA, desenvolvido pela Zhiyua
Recomendações de tópicos especiais relacionados
Comentários (15)
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

A Fundação Wikimedia, o órgão responsável pela Wikipedia e várias outras plataformas de conhecimento colaborativo, anunciou na quarta-feira um aumento impressionante de 50% no uso de largura de banda para downloads de multimídia do Wikimedia Commons desde janeiro de 2024. Esse aumento, conforme detalhado em um post de blog na terça-feira, não é impulsionado por um aumento na curiosidade humana, mas sim por rastreadores automatizados famintos por dados para treinar modelos de IA.
“Nossa infraestrutura é projetada para lidar com picos repentinos de tráfego de humanos durante grandes eventos, mas o volume de tráfego de bots rastreadores é incomparável e representa riscos e custos crescentes,” explica o post.
O Wikimedia Commons funciona como um centro de acesso livre para imagens, vídeos e arquivos de áudio, todos disponíveis sob licenças abertas ou em domínio público.
Aprofundando-se, a Wikimedia revelou que impressionantes 65% do tráfego mais intensivo em recursos — medido pelo tipo de conteúdo consumido — vem de bots. No entanto, esses bots representam apenas 35% do total de visualizações de páginas. A discrepância, segundo a Wikimedia, decorre de como o conteúdo frequentemente acessado é armazenado em cache mais próximo dos usuários, enquanto o conteúdo menos popular, que os bots frequentemente visam, é armazenado no “data center principal” mais custoso.
“Enquanto leitores humanos tendem a se concentrar em tópicos específicos, muitas vezes semelhantes, os bots rastreadores tendem a ‘ler em massa’ um maior número de páginas e visitar as menos populares também,” observou a Wikimedia. “Isso resulta em essas requisições serem encaminhadas para o data center principal, o que aumenta significativamente nossos custos de consumo de recursos.”
Como resultado, a equipe de confiabilidade do site da Fundação Wikimedia está dedicando tempo e recursos substanciais para bloquear esses rastreadores, a fim de evitar interrupções para os usuários comuns. Isso sem mencionar os crescentes custos de nuvem com os quais a Fundação está lidando.
Esse cenário faz parte de uma tendência mais ampla que está ameaçando a internet aberta. No último mês, o engenheiro de software e defensor do código aberto Drew DeVault lamentou que os rastreadores de IA estão descaradamente ignorando os arquivos “robots.txt” destinados a deter o tráfego automatizado. Da mesma forma, Gergely Orosz, conhecido como o “engenheiro pragmático,” recentemente expressou sua frustração sobre como os rastreadores de IA de empresas como a Meta aumentaram as demandas de largura de banda para seus projetos.
Embora as infraestruturas de código aberto sejam particularmente vulneráveis, os desenvolvedores estão respondendo com engenhosidade e determinação. A TechCrunch destacou na última semana que algumas empresas de tecnologia estão se mobilizando. Por exemplo, a Cloudflare introduziu o AI Labyrinth, projetado para desacelerar rastreadores com conteúdo gerado por IA.
No entanto, permanece um constante jogo de gato e rato, que pode levar muitos editores a se refugiarem atrás de logins e paywalls, prejudicando, em última análise, a natureza aberta da web da qual todos dependemos.
Claude foi usado para criar pacotes npm maliciosos: mais de 670 pacotes comprometidos ameaçam o código aberto
Um recente incidente de segurança cibernética revela como os grandes modelos de linguagem (LLMs) estão sendo utilizados para o desenvolvimento de software malicioso. O pesquisador de segurança Sibi Mo
A Reliance revela um plano de investimento em IA de US$ 110 bilhões, à medida que a Índia acelera sua iniciativa tecnológica
Mukesh Ambani, o bilionário presidente do conglomerado indiano Reliance, anunciou na quinta-feira um plano de 10 trilhões de rúpias (cerca de US$ 110 bilhões) para construir uma infraestrutura de comp
A Zhiyuan WITA encerra a interação com o robô “nu” com o primeiro pedido de conformidade
O setor de inteligência incorporada atingiu um marco significativo. De acordo com o último comunicado da Administração do Ciberespaço de Xangai, o modelo de grande porte WITA, desenvolvido pela Zhiyua
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!





Lar






