AI Crawlers Surge Wikimedia Commons пропускная способность на 50%

Фонд Викимедиа, головная организация, стоящая за Википедией и множеством других краудсорсинговых платформ знаний, объявил в среду о поразительном увеличении использования пропускной способности на 50% для загрузки мультимедиа из Wikimedia Commons с января 2024 года. Этот всплеск, как подробно описано в блоге во вторник, вызван не ростом человеческого любопытства, а автоматическими скрейперами, жаждущими данных для обучения моделей ИИ.
«Наша инфраструктура рассчитана на обработку внезапных всплесков трафика от людей во время крупных событий, но объем трафика от ботов-скрейперов не имеет аналогов и создает нарастающие риски и затраты», — объясняется в посте.
Wikimedia Commons служит свободно доступным центром для изображений, видео и аудиофайлов, все из которых доступны по открытым лицензиям или находятся в общественном достоянии.
Углубляясь в детали, Викимедиа сообщила, что колоссальные 65% наиболее ресурсоемкого трафика — измеряемого по типу потребляемого контента — приходится на ботов. При этом эти боты составляют лишь 35% от общего числа просмотров страниц. Разрыв, по словам Викимедиа, объясняется тем, что часто запрашиваемый контент кэшируется ближе к пользователям, тогда как менее популярный контент, который часто выбирают боты, хранится в более дорогостоящем «основном центре данных».
«В то время как человеческие читатели склонны сосредотачиваться на конкретных, часто схожих темах, боты-краулеры склонны к ‘массовому чтению’ большего числа страниц и посещают менее популярные из них», — отметила Викимедиа. «Это приводит к тому, что такие запросы перенаправляются в основной центр данных, что значительно увеличивает наши затраты на потребление ресурсов».
В результате команда надежности сайта Фонда Викимедиа тратит значительное время и ресурсы на блокировку этих краулеров, чтобы предотвратить сбои для обычных пользователей. Это даже не затрагивает нарастающие расходы на облачные сервисы, с которыми сталкивается Фонд.
Эта ситуация является частью более широкой тенденции, угрожающей открытому интернету. В прошлом месяце инженер-программист и сторонник открытого исходного кода Дрю ДеВолт сетовал, что краулеры ИИ откровенно игнорируют файлы «robots.txt», предназначенные для сдерживания автоматического трафика. Аналогично, Гергели Орош, известный как «прагматичный инженер», недавно выразил свое разочарование тем, как скрейперы ИИ от компаний, таких как Meta, резко увеличили требования к пропускной способности для его проектов.
Хотя инфраструктуры с открытым исходным кодом особенно уязвимы, разработчики отвечают изобретательностью и решимостью. TechCrunch на прошлой неделе отметил, что некоторые технологические компании активизируются. Например, Cloudflare представила AI Labyrinth, разработанную для замедления краулеров с контентом, сгенерированным ИИ.
Тем не менее, это остается постоянной игрой в кошки-мышки, которая может подтолкнуть многих издателей к отступлению за логины и платные стены, что в конечном итоге вредит открытой природе интернета, на которую мы все полагаемся.
Связанная статья
ElevenLabs объявила о привлечении в качестве новых инвесторов компаний BlackRock, Джейми Фокса и Евы Лонгории
Компания ElevenLabs, занимающаяся разработкой голосовых ИИ-технологий, раскрыла имена дополнительных инвесторов, участвовавших в раунде финансирования серии D на сумму 500 млн долларов, о котором перв
Генеральный директор OpenAI Альтман раскритиковал Anthropic за маркетинговые приемы, продиктованные паникой
Продолжающийся публичный спор между лидерами в области искусственного интеллекта — компаниями OpenAI и Anthropic — обострился. Сэм Альтман, генеральный директор OpenAI, недавно в ходе подкаста подверг
Стартап Cursor AI, занимающийся разработкой программного обеспечения, планирует нанять 200 сотрудников в Азиатско-Тихоокеанском регионе после получения значительных инвестиций от SpaceX
Стартап Cursor, занимающийся разработкой решений в области искусственного интеллекта, объявил о масштабной глобальной экспансии и планирует в течение ближайших шести месяцев нанять 200 сотрудников в А
Рекомендации по связанным специальным темам
Комментарии (15)
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

Фонд Викимедиа, головная организация, стоящая за Википедией и множеством других краудсорсинговых платформ знаний, объявил в среду о поразительном увеличении использования пропускной способности на 50% для загрузки мультимедиа из Wikimedia Commons с января 2024 года. Этот всплеск, как подробно описано в блоге во вторник, вызван не ростом человеческого любопытства, а автоматическими скрейперами, жаждущими данных для обучения моделей ИИ.
«Наша инфраструктура рассчитана на обработку внезапных всплесков трафика от людей во время крупных событий, но объем трафика от ботов-скрейперов не имеет аналогов и создает нарастающие риски и затраты», — объясняется в посте.
Wikimedia Commons служит свободно доступным центром для изображений, видео и аудиофайлов, все из которых доступны по открытым лицензиям или находятся в общественном достоянии.
Углубляясь в детали, Викимедиа сообщила, что колоссальные 65% наиболее ресурсоемкого трафика — измеряемого по типу потребляемого контента — приходится на ботов. При этом эти боты составляют лишь 35% от общего числа просмотров страниц. Разрыв, по словам Викимедиа, объясняется тем, что часто запрашиваемый контент кэшируется ближе к пользователям, тогда как менее популярный контент, который часто выбирают боты, хранится в более дорогостоящем «основном центре данных».
«В то время как человеческие читатели склонны сосредотачиваться на конкретных, часто схожих темах, боты-краулеры склонны к ‘массовому чтению’ большего числа страниц и посещают менее популярные из них», — отметила Викимедиа. «Это приводит к тому, что такие запросы перенаправляются в основной центр данных, что значительно увеличивает наши затраты на потребление ресурсов».
В результате команда надежности сайта Фонда Викимедиа тратит значительное время и ресурсы на блокировку этих краулеров, чтобы предотвратить сбои для обычных пользователей. Это даже не затрагивает нарастающие расходы на облачные сервисы, с которыми сталкивается Фонд.
Эта ситуация является частью более широкой тенденции, угрожающей открытому интернету. В прошлом месяце инженер-программист и сторонник открытого исходного кода Дрю ДеВолт сетовал, что краулеры ИИ откровенно игнорируют файлы «robots.txt», предназначенные для сдерживания автоматического трафика. Аналогично, Гергели Орош, известный как «прагматичный инженер», недавно выразил свое разочарование тем, как скрейперы ИИ от компаний, таких как Meta, резко увеличили требования к пропускной способности для его проектов.
Хотя инфраструктуры с открытым исходным кодом особенно уязвимы, разработчики отвечают изобретательностью и решимостью. TechCrunch на прошлой неделе отметил, что некоторые технологические компании активизируются. Например, Cloudflare представила AI Labyrinth, разработанную для замедления краулеров с контентом, сгенерированным ИИ.
Тем не менее, это остается постоянной игрой в кошки-мышки, которая может подтолкнуть многих издателей к отступлению за логины и платные стены, что в конечном итоге вредит открытой природе интернета, на которую мы все полагаемся.
ElevenLabs объявила о привлечении в качестве новых инвесторов компаний BlackRock, Джейми Фокса и Евы Лонгории
Компания ElevenLabs, занимающаяся разработкой голосовых ИИ-технологий, раскрыла имена дополнительных инвесторов, участвовавших в раунде финансирования серии D на сумму 500 млн долларов, о котором перв
Генеральный директор OpenAI Альтман раскритиковал Anthropic за маркетинговые приемы, продиктованные паникой
Продолжающийся публичный спор между лидерами в области искусственного интеллекта — компаниями OpenAI и Anthropic — обострился. Сэм Альтман, генеральный директор OpenAI, недавно в ходе подкаста подверг
Стартап Cursor AI, занимающийся разработкой программного обеспечения, планирует нанять 200 сотрудников в Азиатско-Тихоокеанском регионе после получения значительных инвестиций от SpaceX
Стартап Cursor, занимающийся разработкой решений в области искусственного интеллекта, объявил о масштабной глобальной экспансии и планирует в течение ближайших шести месяцев нанять 200 сотрудников в А
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!





Дом






