option
Maison
Nouvelles
L'IA Crawlers Surge Wikimedia Commons Bandpwidth Demande de 50%

L'IA Crawlers Surge Wikimedia Commons Bandpwidth Demande de 50%

17 avril 2025
186

L'IA Crawlers Surge Wikimedia Commons Bandpwidth Demande de 50%

La Fondation Wikimedia, l'organisation mère derrière Wikipédia et de nombreuses autres plateformes de connaissances collaboratives, a annoncé mercredi une augmentation stupéfiante de 50 % de l'utilisation de la bande passante pour les téléchargements multimédias depuis Wikimedia Commons depuis janvier 2024. Cette augmentation, détaillée dans un billet de blog publié mardi, n'est pas motivée par un regain de curiosité humaine, mais plutôt par des scrapers automatisés avides de données pour entraîner des modèles d'IA.

« Notre infrastructure est conçue pour gérer des pics soudains de trafic humain lors d'événements majeurs, mais le volume de trafic provenant des bots scrapers est inégalé et pose des risques et des coûts croissants », explique le billet.

Wikimedia Commons sert de centre librement accessible pour les images, vidéos et fichiers audio, tous disponibles sous licences ouvertes ou dans le domaine public.

En approfondissant, Wikimedia a révélé qu'une impressionnante 65 % du trafic le plus gourmand en ressources — mesuré par le type de contenu consommé — provient des bots. Pourtant, ces bots ne représentent que 35 % des consultations totales de pages. Cette disparité, selon Wikimedia, provient du fait que le contenu fréquemment consulté est mis en cache plus près des utilisateurs, tandis que le contenu moins populaire, souvent ciblé par les bots, est stocké dans le centre de données principal plus coûteux.

« Alors que les lecteurs humains ont tendance à se concentrer sur des sujets spécifiques, souvent similaires, les bots crawlers ont tendance à ‘lire en masse’ un plus grand nombre de pages et à visiter également celles moins populaires », a noté Wikimedia. « Cela entraîne le transfert de ces requêtes vers le centre de données principal, ce qui augmente considérablement nos coûts de consommation de ressources. »

En conséquence, l'équipe de fiabilité du site de la Fondation Wikimedia consacre un temps et des ressources considérables à bloquer ces crawlers pour éviter des perturbations pour les utilisateurs quotidiens. Cela ne prend même pas en compte les coûts croissants du cloud auxquels la Fondation est confrontée.

Ce scénario s'inscrit dans une tendance plus large qui met en danger l'internet ouvert. Le mois dernier, l'ingénieur logiciel et défenseur de l'open source Drew DeVault a déploré que les crawlers d'IA ignorent carrément les fichiers « robots.txt » destinés à dissuader le trafic automatisé. De même, Gergely Orosz, connu sous le nom de « l'ingénieur pragmatique », a récemment exprimé sa frustration face à la manière dont les scrapers d'IA de sociétés comme Meta ont fait grimper les demandes de bande passante pour ses projets.

Bien que les infrastructures open source soient particulièrement vulnérables, les développeurs répondent avec ingéniosité et détermination. TechCrunch a souligné la semaine dernière que certaines entreprises technologiques intensifient leurs efforts. Par exemple, Cloudflare a introduit AI Labyrinth, conçu pour ralentir les crawlers avec du contenu généré par IA.

Cependant, cela reste un jeu constant du chat et de la souris, qui pourrait pousser de nombreux éditeurs à se retrancher derrière des connexions et des paywalls, nuisant finalement à la nature ouverte du web dont nous dépendons tous.

Article connexe
ElevenLabs annonce que BlackRock, Jamie Foxx et Eva Longoria ont rejoint le cercle de ses investisseurs ElevenLabs annonce que BlackRock, Jamie Foxx et Eva Longoria ont rejoint le cercle de ses investisseurs ElevenLabs, la société spécialisée dans l'IA vocale, a révélé le nom d'investisseurs supplémentaires ayant participé à son tour de table de série D de 500 millions de dollars, initialement annoncé en
Sam Altman, PDG d'OpenAI, fustige Anthropic pour ses stratégies marketing fondées sur la peur Sam Altman, PDG d'OpenAI, fustige Anthropic pour ses stratégies marketing fondées sur la peur Le conflit public qui oppose actuellement les géants de l'IA OpenAI et Anthropic s'est intensifié. Sam Altman, PDG d'OpenAI, a récemment remis en cause le dernier modèle de sécurité de
La start-up de codage Cursor AI prévoit d'embaucher 200 personnes dans la région Asie-Pacifique après avoir reçu un investissement important de la part de SpaceX La start-up de codage Cursor AI prévoit d'embaucher 200 personnes dans la région Asie-Pacifique après avoir reçu un investissement important de la part de SpaceX La start-up spécialisée dans le codage IA Cursor a annoncé une expansion mondiale majeure, prévoyant de recruter 200 collaborateurs dans la région Asie-Pacifique au cours des six prochains mois. Les p
Recommandations de sujets spéciaux liés
Entreprise Le meilleur logiciel d'analyse de contrats basé sur l'IA : identifiez instantanément les failles juridiques et les risques de non-conformité
Le meilleur logiciel d'analyse de contrats basé sur l'IA : identifiez instantanément les failles juridiques et les risques de non-conformité

Découvrez les meilleurs logiciels d'analyse de contrats basés sur l'IA pour 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée regroupe des outils performants qui détectent instantanément les failles juridiques et les risques de non-conformité. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez la solution qui changera la donne pour une analyse de contrats sécurisée et efficace. Découvrez dès maintenant le guide complet.

10 outils
xix.ai
Création d'animations Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées
Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées

Découvrez les meilleurs générateurs d’animés AI de 2026 pour la création de doublages en chinois. Notre liste, sélectionnée avec soin, propose des outils puissants pour créer des personnages incroyables pour des romans web et des avatars de comics. Comparez les options gratuites et payantes grâce à des tests réels. Trouvez le partenaire créatif idéal et donnez vie à vos histoires dès aujourd’hui sur XIX.AI.

10 outils
xix.ai
Création de bande dessinée Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence
Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence

Découvrez les meilleurs outils d'auto-coloration IA pour mangas de 2026 sur XIX.AI. Notre sélection regroupe des solutions de premier plan qui changent la donne : elles appliquent des couleurs unies sans aucune erreur de cohérence, ce qui booste votre productivité. Consultez nos comparatifs entre versions gratuites et payantes, nos tests en conditions réelles et nos classements mis à jour chaque semaine pour trouver l'outil qui vous convient le mieux. Profitez dès aujourd'hui de l'avantage de l'IA.

10 outils
xix.ai
en écrivant Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales
Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales

Découvrez les meilleurs outils de création de profils de personnages basés sur l'IA de 2026 pour donner de la profondeur à vos personnages. La sélection de XIX.AI regroupe les outils les mieux notés et les plus innovants, capables de générer des motivations cohérentes et des défauts fatals. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez dès maintenant votre potentiel de narration.

10 outils
xix.ai
Entreprise Les meilleurs logiciels d'optimisation des prix basés sur l'IA : suivez vos concurrents et ajustez automatiquement les prix de votre boutique
Les meilleurs logiciels d'optimisation des prix basés sur l'IA : suivez vos concurrents et ajustez automatiquement les prix de votre boutique

Découvrez les meilleurs logiciels d'optimisation des prix basés sur l'IA pour 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan qui changent la donne : ils surveillent vos concurrents et ajustent automatiquement les prix de votre boutique pour maximiser vos bénéfices. Comparez les options gratuites et payantes grâce à des tests concrets. Prenez dès maintenant une longueur d'avance en matière de tarification.

10 outils
xix.ai
code Les meilleurs outils d'analyse de code basés sur l'IA : automatisez la conformité au code propre et refactorisez les fichiers des dépôts hérités
Les meilleurs outils d'analyse de code basés sur l'IA : automatisez la conformité au code propre et refactorisez les fichiers des dépôts hérités

Découvrez les meilleurs outils d'analyse de code par IA de 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan, véritables révolutionnaires, permettant d'automatiser la conformité au code propre et de refactoriser les fichiers de dépôts hérités. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Prenez dès aujourd'hui une longueur d'avance grâce à l'IA.

10 outils
xix.ai
commentaires (15)
0/500
BruceAllen
BruceAllen 22 mai 2026 10:00:15 UTC+02:00

這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅

KevinBrown
KevinBrown 23 août 2025 17:01:15 UTC+02:00

Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.

CharlesWhite
CharlesWhite 13 août 2025 15:00:59 UTC+02:00

Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?

SamuelClark
SamuelClark 31 juillet 2025 13:35:39 UTC+02:00

Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅

KennethJohnson
KennethJohnson 31 juillet 2025 03:42:05 UTC+02:00

Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

WillieAnderson
WillieAnderson 18 avril 2025 08:23:40 UTC+02:00

Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔

OR