L'IA Crawlers Surge Wikimedia Commons Bandpwidth Demande de 50%

La Fondation Wikimedia, l'organisation mère derrière Wikipédia et de nombreuses autres plateformes de connaissances collaboratives, a annoncé mercredi une augmentation stupéfiante de 50 % de l'utilisation de la bande passante pour les téléchargements multimédias depuis Wikimedia Commons depuis janvier 2024. Cette augmentation, détaillée dans un billet de blog publié mardi, n'est pas motivée par un regain de curiosité humaine, mais plutôt par des scrapers automatisés avides de données pour entraîner des modèles d'IA.
« Notre infrastructure est conçue pour gérer des pics soudains de trafic humain lors d'événements majeurs, mais le volume de trafic provenant des bots scrapers est inégalé et pose des risques et des coûts croissants », explique le billet.
Wikimedia Commons sert de centre librement accessible pour les images, vidéos et fichiers audio, tous disponibles sous licences ouvertes ou dans le domaine public.
En approfondissant, Wikimedia a révélé qu'une impressionnante 65 % du trafic le plus gourmand en ressources — mesuré par le type de contenu consommé — provient des bots. Pourtant, ces bots ne représentent que 35 % des consultations totales de pages. Cette disparité, selon Wikimedia, provient du fait que le contenu fréquemment consulté est mis en cache plus près des utilisateurs, tandis que le contenu moins populaire, souvent ciblé par les bots, est stocké dans le centre de données principal plus coûteux.
« Alors que les lecteurs humains ont tendance à se concentrer sur des sujets spécifiques, souvent similaires, les bots crawlers ont tendance à ‘lire en masse’ un plus grand nombre de pages et à visiter également celles moins populaires », a noté Wikimedia. « Cela entraîne le transfert de ces requêtes vers le centre de données principal, ce qui augmente considérablement nos coûts de consommation de ressources. »
En conséquence, l'équipe de fiabilité du site de la Fondation Wikimedia consacre un temps et des ressources considérables à bloquer ces crawlers pour éviter des perturbations pour les utilisateurs quotidiens. Cela ne prend même pas en compte les coûts croissants du cloud auxquels la Fondation est confrontée.
Ce scénario s'inscrit dans une tendance plus large qui met en danger l'internet ouvert. Le mois dernier, l'ingénieur logiciel et défenseur de l'open source Drew DeVault a déploré que les crawlers d'IA ignorent carrément les fichiers « robots.txt » destinés à dissuader le trafic automatisé. De même, Gergely Orosz, connu sous le nom de « l'ingénieur pragmatique », a récemment exprimé sa frustration face à la manière dont les scrapers d'IA de sociétés comme Meta ont fait grimper les demandes de bande passante pour ses projets.
Bien que les infrastructures open source soient particulièrement vulnérables, les développeurs répondent avec ingéniosité et détermination. TechCrunch a souligné la semaine dernière que certaines entreprises technologiques intensifient leurs efforts. Par exemple, Cloudflare a introduit AI Labyrinth, conçu pour ralentir les crawlers avec du contenu généré par IA.
Cependant, cela reste un jeu constant du chat et de la souris, qui pourrait pousser de nombreux éditeurs à se retrancher derrière des connexions et des paywalls, nuisant finalement à la nature ouverte du web dont nous dépendons tous.
Article connexe
Pourriez-vous m'indiquer le titre de l'article à réécrire ?
Autrefois, pour obtenir un portrait professionnel, il fallait engager un photographe, louer un studio et réserver au moins une heure de sa journée. Aujourd’hui, un nombre croissant de plateformes basé
ElevenLabs annonce que BlackRock, Jamie Foxx et Eva Longoria ont rejoint le cercle de ses investisseurs
ElevenLabs, la société spécialisée dans l'IA vocale, a révélé le nom d'investisseurs supplémentaires ayant participé à son tour de table de série D de 500 millions de dollars, initialement annoncé en
Sam Altman, PDG d'OpenAI, fustige Anthropic pour ses stratégies marketing fondées sur la peur
Le conflit public qui oppose actuellement les géants de l'IA OpenAI et Anthropic s'est intensifié. Sam Altman, PDG d'OpenAI, a récemment remis en cause le dernier modèle de sécurité de
Recommandations de sujets spéciaux liés
commentaires (15)
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

La Fondation Wikimedia, l'organisation mère derrière Wikipédia et de nombreuses autres plateformes de connaissances collaboratives, a annoncé mercredi une augmentation stupéfiante de 50 % de l'utilisation de la bande passante pour les téléchargements multimédias depuis Wikimedia Commons depuis janvier 2024. Cette augmentation, détaillée dans un billet de blog publié mardi, n'est pas motivée par un regain de curiosité humaine, mais plutôt par des scrapers automatisés avides de données pour entraîner des modèles d'IA.
« Notre infrastructure est conçue pour gérer des pics soudains de trafic humain lors d'événements majeurs, mais le volume de trafic provenant des bots scrapers est inégalé et pose des risques et des coûts croissants », explique le billet.
Wikimedia Commons sert de centre librement accessible pour les images, vidéos et fichiers audio, tous disponibles sous licences ouvertes ou dans le domaine public.
En approfondissant, Wikimedia a révélé qu'une impressionnante 65 % du trafic le plus gourmand en ressources — mesuré par le type de contenu consommé — provient des bots. Pourtant, ces bots ne représentent que 35 % des consultations totales de pages. Cette disparité, selon Wikimedia, provient du fait que le contenu fréquemment consulté est mis en cache plus près des utilisateurs, tandis que le contenu moins populaire, souvent ciblé par les bots, est stocké dans le centre de données principal plus coûteux.
« Alors que les lecteurs humains ont tendance à se concentrer sur des sujets spécifiques, souvent similaires, les bots crawlers ont tendance à ‘lire en masse’ un plus grand nombre de pages et à visiter également celles moins populaires », a noté Wikimedia. « Cela entraîne le transfert de ces requêtes vers le centre de données principal, ce qui augmente considérablement nos coûts de consommation de ressources. »
En conséquence, l'équipe de fiabilité du site de la Fondation Wikimedia consacre un temps et des ressources considérables à bloquer ces crawlers pour éviter des perturbations pour les utilisateurs quotidiens. Cela ne prend même pas en compte les coûts croissants du cloud auxquels la Fondation est confrontée.
Ce scénario s'inscrit dans une tendance plus large qui met en danger l'internet ouvert. Le mois dernier, l'ingénieur logiciel et défenseur de l'open source Drew DeVault a déploré que les crawlers d'IA ignorent carrément les fichiers « robots.txt » destinés à dissuader le trafic automatisé. De même, Gergely Orosz, connu sous le nom de « l'ingénieur pragmatique », a récemment exprimé sa frustration face à la manière dont les scrapers d'IA de sociétés comme Meta ont fait grimper les demandes de bande passante pour ses projets.
Bien que les infrastructures open source soient particulièrement vulnérables, les développeurs répondent avec ingéniosité et détermination. TechCrunch a souligné la semaine dernière que certaines entreprises technologiques intensifient leurs efforts. Par exemple, Cloudflare a introduit AI Labyrinth, conçu pour ralentir les crawlers avec du contenu généré par IA.
Cependant, cela reste un jeu constant du chat et de la souris, qui pourrait pousser de nombreux éditeurs à se retrancher derrière des connexions et des paywalls, nuisant finalement à la nature ouverte du web dont nous dépendons tous.
Pourriez-vous m'indiquer le titre de l'article à réécrire ?
Autrefois, pour obtenir un portrait professionnel, il fallait engager un photographe, louer un studio et réserver au moins une heure de sa journée. Aujourd’hui, un nombre croissant de plateformes basé
ElevenLabs annonce que BlackRock, Jamie Foxx et Eva Longoria ont rejoint le cercle de ses investisseurs
ElevenLabs, la société spécialisée dans l'IA vocale, a révélé le nom d'investisseurs supplémentaires ayant participé à son tour de table de série D de 500 millions de dollars, initialement annoncé en
Sam Altman, PDG d'OpenAI, fustige Anthropic pour ses stratégies marketing fondées sur la peur
Le conflit public qui oppose actuellement les géants de l'IA OpenAI et Anthropic s'est intensifié. Sam Altman, PDG d'OpenAI, a récemment remis en cause le dernier modèle de sécurité de
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!





Maison






