L'IA Crawlers Surge Wikimedia Commons Bandpwidth Demande de 50%

La Fondation Wikimedia, l'organisation mère derrière Wikipédia et de nombreuses autres plateformes de connaissances collaboratives, a annoncé mercredi une augmentation stupéfiante de 50 % de l'utilisation de la bande passante pour les téléchargements multimédias depuis Wikimedia Commons depuis janvier 2024. Cette augmentation, détaillée dans un billet de blog publié mardi, n'est pas motivée par un regain de curiosité humaine, mais plutôt par des scrapers automatisés avides de données pour entraîner des modèles d'IA.
« Notre infrastructure est conçue pour gérer des pics soudains de trafic humain lors d'événements majeurs, mais le volume de trafic provenant des bots scrapers est inégalé et pose des risques et des coûts croissants », explique le billet.
Wikimedia Commons sert de centre librement accessible pour les images, vidéos et fichiers audio, tous disponibles sous licences ouvertes ou dans le domaine public.
En approfondissant, Wikimedia a révélé qu'une impressionnante 65 % du trafic le plus gourmand en ressources — mesuré par le type de contenu consommé — provient des bots. Pourtant, ces bots ne représentent que 35 % des consultations totales de pages. Cette disparité, selon Wikimedia, provient du fait que le contenu fréquemment consulté est mis en cache plus près des utilisateurs, tandis que le contenu moins populaire, souvent ciblé par les bots, est stocké dans le centre de données principal plus coûteux.
« Alors que les lecteurs humains ont tendance à se concentrer sur des sujets spécifiques, souvent similaires, les bots crawlers ont tendance à ‘lire en masse’ un plus grand nombre de pages et à visiter également celles moins populaires », a noté Wikimedia. « Cela entraîne le transfert de ces requêtes vers le centre de données principal, ce qui augmente considérablement nos coûts de consommation de ressources. »
En conséquence, l'équipe de fiabilité du site de la Fondation Wikimedia consacre un temps et des ressources considérables à bloquer ces crawlers pour éviter des perturbations pour les utilisateurs quotidiens. Cela ne prend même pas en compte les coûts croissants du cloud auxquels la Fondation est confrontée.
Ce scénario s'inscrit dans une tendance plus large qui met en danger l'internet ouvert. Le mois dernier, l'ingénieur logiciel et défenseur de l'open source Drew DeVault a déploré que les crawlers d'IA ignorent carrément les fichiers « robots.txt » destinés à dissuader le trafic automatisé. De même, Gergely Orosz, connu sous le nom de « l'ingénieur pragmatique », a récemment exprimé sa frustration face à la manière dont les scrapers d'IA de sociétés comme Meta ont fait grimper les demandes de bande passante pour ses projets.
Bien que les infrastructures open source soient particulièrement vulnérables, les développeurs répondent avec ingéniosité et détermination. TechCrunch a souligné la semaine dernière que certaines entreprises technologiques intensifient leurs efforts. Par exemple, Cloudflare a introduit AI Labyrinth, conçu pour ralentir les crawlers avec du contenu généré par IA.
Cependant, cela reste un jeu constant du chat et de la souris, qui pourrait pousser de nombreux éditeurs à se retrancher derrière des connexions et des paywalls, nuisant finalement à la nature ouverte du web dont nous dépendons tous.
Article connexe
TreeQuest de Sakana AI améliore les performances de l'IA grâce à la collaboration multi-modèle
Le laboratoire d'IA japonais Sakana AI a dévoilé une technique permettant à plusieurs grands modèles de langage (LLM) de travailler ensemble pour former une équipe d'IA très efficace. Baptisée Multi-L
Libérer la créativité avec PicLumen : Guide gratuit de génération d'images par l'IA
Produire des visuels époustouflants est désormais possible sans effort grâce aux outils de création d'images pilotés par l'IA. Ce tutoriel explore PicLumen, une plateforme exceptionnelle qui permet de
Programmation universitaire assistée par l'IA : Rationalisation des emplois du temps universitaires
Dans le paysage universitaire dynamique d'aujourd'hui, un emploi du temps efficace est essentiel à la réussite. L'AI Schedule Maker, conçu pour l'université King Abdulaziz, automatise les emplois du
commentaires (14)
0/200
KevinBrown
23 août 2025 17:01:15 UTC+02:00
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
0
CharlesWhite
13 août 2025 15:00:59 UTC+02:00
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
0
SamuelClark
31 juillet 2025 13:35:39 UTC+02:00
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
0
KennethJohnson
31 juillet 2025 03:42:05 UTC+02:00
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!
0
WillieAnderson
18 avril 2025 08:23:40 UTC+02:00
Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔
0
RaymondGreen
18 avril 2025 08:01:01 UTC+02:00
ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞
0
La Fondation Wikimedia, l'organisation mère derrière Wikipédia et de nombreuses autres plateformes de connaissances collaboratives, a annoncé mercredi une augmentation stupéfiante de 50 % de l'utilisation de la bande passante pour les téléchargements multimédias depuis Wikimedia Commons depuis janvier 2024. Cette augmentation, détaillée dans un billet de blog publié mardi, n'est pas motivée par un regain de curiosité humaine, mais plutôt par des scrapers automatisés avides de données pour entraîner des modèles d'IA.
« Notre infrastructure est conçue pour gérer des pics soudains de trafic humain lors d'événements majeurs, mais le volume de trafic provenant des bots scrapers est inégalé et pose des risques et des coûts croissants », explique le billet.
Wikimedia Commons sert de centre librement accessible pour les images, vidéos et fichiers audio, tous disponibles sous licences ouvertes ou dans le domaine public.
En approfondissant, Wikimedia a révélé qu'une impressionnante 65 % du trafic le plus gourmand en ressources — mesuré par le type de contenu consommé — provient des bots. Pourtant, ces bots ne représentent que 35 % des consultations totales de pages. Cette disparité, selon Wikimedia, provient du fait que le contenu fréquemment consulté est mis en cache plus près des utilisateurs, tandis que le contenu moins populaire, souvent ciblé par les bots, est stocké dans le centre de données principal plus coûteux.
« Alors que les lecteurs humains ont tendance à se concentrer sur des sujets spécifiques, souvent similaires, les bots crawlers ont tendance à ‘lire en masse’ un plus grand nombre de pages et à visiter également celles moins populaires », a noté Wikimedia. « Cela entraîne le transfert de ces requêtes vers le centre de données principal, ce qui augmente considérablement nos coûts de consommation de ressources. »
En conséquence, l'équipe de fiabilité du site de la Fondation Wikimedia consacre un temps et des ressources considérables à bloquer ces crawlers pour éviter des perturbations pour les utilisateurs quotidiens. Cela ne prend même pas en compte les coûts croissants du cloud auxquels la Fondation est confrontée.
Ce scénario s'inscrit dans une tendance plus large qui met en danger l'internet ouvert. Le mois dernier, l'ingénieur logiciel et défenseur de l'open source Drew DeVault a déploré que les crawlers d'IA ignorent carrément les fichiers « robots.txt » destinés à dissuader le trafic automatisé. De même, Gergely Orosz, connu sous le nom de « l'ingénieur pragmatique », a récemment exprimé sa frustration face à la manière dont les scrapers d'IA de sociétés comme Meta ont fait grimper les demandes de bande passante pour ses projets.
Bien que les infrastructures open source soient particulièrement vulnérables, les développeurs répondent avec ingéniosité et détermination. TechCrunch a souligné la semaine dernière que certaines entreprises technologiques intensifient leurs efforts. Par exemple, Cloudflare a introduit AI Labyrinth, conçu pour ralentir les crawlers avec du contenu généré par IA.
Cependant, cela reste un jeu constant du chat et de la souris, qui pourrait pousser de nombreux éditeurs à se retrancher derrière des connexions et des paywalls, nuisant finalement à la nature ouverte du web dont nous dépendons tous.




Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.




Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?




Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅




Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!




Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔




ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞












