option
Maison
Nouvelles
L'IA Crawlers Surge Wikimedia Commons Bandpwidth Demande de 50%

L'IA Crawlers Surge Wikimedia Commons Bandpwidth Demande de 50%

17 avril 2025
62

L'IA Crawlers Surge Wikimedia Commons Bandpwidth Demande de 50%

La Wikimedia Foundation, le corps parent derrière Wikipedia et de nombreuses autres plateformes de connaissances proches de la foule, a annoncé mercredi une augmentation stupéfiante de 50% de l'utilisation de la bande passante pour les téléchargements multimédias de Wikimedia Commons depuis le 2024 janvier. Cette surtension, comme détaillé dans un article de blog mardi, n'est pas conduit à l'entraînement pour l'entraînement dans les modèles humains, mais plutôt par des gratterements automatisés pour des données pour s'entraîner.

«Notre infrastructure est conçue pour gérer des surtensions soudaines dans le trafic des humains lors d'événements majeurs, mais le volume de trafic à partir de robots de gratte-parole est inégalé et pose des risques et des coûts croissants», explique le Post.

Wikimedia Commons sert de plaque tournante librement accessible pour les images, les vidéos et les fichiers audio, tous disponibles sous licences ouvertes ou dans le domaine public.

En approfondissant, Wikimedia a révélé que 65% du trafic le plus à forte intensité de ressources - mesuré par le type de contenu consommé - provient de bots. Pourtant, ces robots ne représentent que 35% des pages vues globales. L'écart, selon Wikimedia, découle de la fréquence de la mise en cache des utilisateurs, tandis que le contenu moins populaire, que les robots ciblent, est stocké dans le «centre de données de base» plus coûteux.

"Alors que les lecteurs humains ont tendance à se concentrer sur des sujets spécifiques, souvent similaires,, les robots de chenilles ont tendance à" lire en vrac "un plus grand nombre de pages et à visiter les moins populaires", a noté Wikimedia. «Cela se traduit par la transmission de ces demandes vers le centre de données de base, ce qui augmente considérablement nos coûts de consommation de ressources.»

En conséquence, l'équipe de fiabilité du site de la Fondation Wikimedia consacre un temps et des ressources substantiels à bloquer ces robots afin de prévenir les perturbations des utilisateurs quotidiens. Cela ne touche même pas à l'escalade des coûts du cloud que la fondation est en compétition.

Ce scénario fait partie d'une tendance plus large qui met en danger l'Internet ouvert. Le mois dernier, l'ingénieur logiciel et l'avocat open-source Drew Devault déplorent que les Crawlers de l'IA ignorent de manière flagrante les fichiers «robots.txt» destinés à dissuader le trafic automatisé. De même, Gergely Orosz, connu sous le nom de «ingénieur pragmatique», a récemment exprimé sa frustration quant à la façon dont les grattoirs en IA de sociétés comme Meta ont enrichi les demandes de bande passante pour ses projets.

Bien que les infrastructures open source soient particulièrement vulnérables, les développeurs réagissent avec l'ingéniosité et la détermination. TechCrunch a souligné la semaine dernière que certaines entreprises technologiques intensifiaient. Par exemple, CloudFlare a introduit AI Labyrinth, conçu pour ralentir les robots de robots avec du contenu généré par l'IA.

Pourtant, il reste un jeu constant de chat et de souris, qui pourrait pousser de nombreux éditeurs à se retirer derrière les connexions et les murs de paiement, nuisant finalement à la nature ouverte du Web sur lequel nous nous appuyons tous.

Article connexe
Ren Zhengfei : L'avenir de l'IA en Chine et le long jeu de Huawei Ren Zhengfei : L'avenir de l'IA en Chine et le long jeu de Huawei json收起自动换行复制{"content": ",[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object
Révolution de l'IA agentique dans l'investissement pour surpasser Wall Street en 2025 Révolution de l'IA agentique dans l'investissement pour surpasser Wall Street en 2025 Pendant des années, les firmes de Wall Street ont dominé le marché boursier, utilisant des ressources supérieures pour maximiser les profits. Maintenant, une technologie de pointe, en particulier l'in
Perplexity a reçu 780 millions de requêtes le mois dernier, selon le PDG Perplexity a reçu 780 millions de requêtes le mois dernier, selon le PDG json收起自动换行复制{"content": ",[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],,[object Object],— Aravind Srinivas (@AravSrin
commentaires (10)
0/200
ThomasJones
ThomasJones 17 avril 2025 00:00:00 UTC+02:00

Wikimedia Commons bandwidth usage up by 50%? 😲 That's insane! I guess all those AI crawlers are hungry for our data. It's cool that Wikimedia is keeping us posted, but man, this is gonna slow things down. Hope they find a way to handle it without messing up our experience! 🤞

RaymondGreen
RaymondGreen 18 avril 2025 00:00:00 UTC+02:00

ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞

RogerSanchez
RogerSanchez 17 avril 2025 00:00:00 UTC+02:00

위키미디어 커먼즈의 대역폭 사용량이 50% 증가했다고? 😲 믿기지 않아! AI 크롤러들이 우리 데이터를 원하는 거겠지. 위키미디어가 정보를 공유해주는 건 좋지만, 이 때문에 느려지면 곤란해. 사용자 경험을 망치지 않고 해결할 방법을 찾았으면 좋겠어! 🤞

CarlTaylor
CarlTaylor 17 avril 2025 00:00:00 UTC+02:00

O uso de banda do Wikimedia Commons aumentou 50%? 😲 Isso é loucura! Acho que esses rastreadores de IA estão famintos pelos nossos dados. É legal que o Wikimedia nos mantenha informados, mas cara, isso vai atrasar tudo. Espero que eles encontrem uma maneira de lidar com isso sem estragar nossa experiência! 🤞

AlbertLee
AlbertLee 18 avril 2025 00:00:00 UTC+02:00

¿El uso de ancho de banda de Wikimedia Commons aumentó un 50%? 😲 ¡Eso es una locura! Supongo que esos rastreadores de IA están hambrientos de nuestros datos. Es genial que Wikimedia nos mantenga informados, pero hombre, esto va a ralentizar todo. Espero que encuentren una manera de manejarlo sin arruinar nuestra experiencia. 🤞

ThomasHernández
ThomasHernández 17 avril 2025 00:00:00 UTC+02:00

The surge in bandwidth demand by AI crawlers on Wikimedia Commons is insane! It's cool to see AI being used so extensively, but it's also a bit worrying. Hope they find a way to manage it without affecting the user experience too much. 🤔

Retour en haut
OR