Ai Crawlers Surge Wikimedia Commons Bandwidth Demand em 50%

Lar

Notícias

17 de Abril de 2025

JamesMiller

121

Ai Crawlers Surge Wikimedia Commons Bandwidth Demand em 50%

A Fundação Wikimedia, o órgão responsável pela Wikipedia e várias outras plataformas de conhecimento colaborativo, anunciou na quarta-feira um aumento impressionante de 50% no uso de largura de banda para downloads de multimídia do Wikimedia Commons desde janeiro de 2024. Esse aumento, conforme detalhado em um post de blog na terça-feira, não é impulsionado por um aumento na curiosidade humana, mas sim por rastreadores automatizados famintos por dados para treinar modelos de IA.

“Nossa infraestrutura é projetada para lidar com picos repentinos de tráfego de humanos durante grandes eventos, mas o volume de tráfego de bots rastreadores é incomparável e representa riscos e custos crescentes,” explica o post.

O Wikimedia Commons funciona como um centro de acesso livre para imagens, vídeos e arquivos de áudio, todos disponíveis sob licenças abertas ou em domínio público.

Aprofundando-se, a Wikimedia revelou que impressionantes 65% do tráfego mais intensivo em recursos — medido pelo tipo de conteúdo consumido — vem de bots. No entanto, esses bots representam apenas 35% do total de visualizações de páginas. A discrepância, segundo a Wikimedia, decorre de como o conteúdo frequentemente acessado é armazenado em cache mais próximo dos usuários, enquanto o conteúdo menos popular, que os bots frequentemente visam, é armazenado no “data center principal” mais custoso.

“Enquanto leitores humanos tendem a se concentrar em tópicos específicos, muitas vezes semelhantes, os bots rastreadores tendem a ‘ler em massa’ um maior número de páginas e visitar as menos populares também,” observou a Wikimedia. “Isso resulta em essas requisições serem encaminhadas para o data center principal, o que aumenta significativamente nossos custos de consumo de recursos.”

Como resultado, a equipe de confiabilidade do site da Fundação Wikimedia está dedicando tempo e recursos substanciais para bloquear esses rastreadores, a fim de evitar interrupções para os usuários comuns. Isso sem mencionar os crescentes custos de nuvem com os quais a Fundação está lidando.

Esse cenário faz parte de uma tendência mais ampla que está ameaçando a internet aberta. No último mês, o engenheiro de software e defensor do código aberto Drew DeVault lamentou que os rastreadores de IA estão descaradamente ignorando os arquivos “robots.txt” destinados a deter o tráfego automatizado. Da mesma forma, Gergely Orosz, conhecido como o “engenheiro pragmático,” recentemente expressou sua frustração sobre como os rastreadores de IA de empresas como a Meta aumentaram as demandas de largura de banda para seus projetos.

Embora as infraestruturas de código aberto sejam particularmente vulneráveis, os desenvolvedores estão respondendo com engenhosidade e determinação. A TechCrunch destacou na última semana que algumas empresas de tecnologia estão se mobilizando. Por exemplo, a Cloudflare introduziu o AI Labyrinth, projetado para desacelerar rastreadores com conteúdo gerado por IA.

No entanto, permanece um constante jogo de gato e rato, que pode levar muitos editores a se refugiarem atrás de logins e paywalls, prejudicando, em última análise, a natureza aberta da web da qual todos dependemos.

116

Artigo relacionado

Como fazer vídeos de música infantil com IA - Tutorial passo a passo fácil Criar vídeos musicais infantis encantadores nunca foi tão simples graças à tecnologia de IA. Este tutorial passo a passo revela como produzir conteúdo encantador para o público jovem usando inteligênc

Parceiro da OpenAI revela tempo limitado de testes para o novo modelo de IA O3 A Metr, parceira de avaliação frequente da OpenAI para testes de segurança de IA, relata ter recebido tempo limitado para avaliar o novo modelo avançado da empresa, o3. Sua publicação no blog na quart

Revolução da Fanfiction com IA: Alimentando a criatividade com ChatGPT e M&M's Embarque em uma jornada extraordinária por meio de uma narrativa baseada em IA com o ChatGPT, onde as fronteiras criativas se dissolvem e a imaginação não conhece limites. Essa exploração revela como

Comentários (14)

0/200

Enviar

KevinBrown

23 de Agosto de 2025 à15 16:01:15 WEST

Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.

CharlesWhite

13 de Agosto de 2025 à59 14:00:59 WEST

Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?

SamuelClark

31 de Julho de 2025 à39 12:35:39 WEST

Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅

KennethJohnson

31 de Julho de 2025 à5 02:42:05 WEST

Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

WillieAnderson

18 de Abril de 2025 à40 07:23:40 WEST

Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔

RaymondGreen

18 de Abril de 2025 à1 07:01:01 WEST

ウィキメディア・コモンズの帯域使用量が50%増えたって？😲 信じられない！AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね！🤞

Principais notícias

Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada AI Builder e Power Automate Revolucionam a Sumarização de Documentos Duolingo Muda para Sistema de Energia O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia

Mais

Apresentou