AIクローラーはウィキメディアコモンズ帯域幅の需要を50%サージします

Wikimedia Foundationは、Wikipediaやその他のクラウドソーシングによる知識プラットフォームの親団体であり、2024年1月以来、Wikimedia Commonsからのマルチメディアダウンロードの帯域幅使用量が驚異的な50%増加したと水曜日に発表しました。この急増は、火曜日のブログ投稿で詳しく説明されているように、人間の好奇心の高まりによるものではなく、AIモデルを訓練するためのデータを求める自動スクレーパーによるものです。
「私たちのインフラストラクチャは、大きなイベント中に人間からの急激なトラフィック増加に対応するように設計されていますが、スクレーパーボットからのトラフィックの量は比類なく、増加するリスクとコストをもたらしています」と投稿は説明しています。
Wikimedia Commonsは、画像、ビデオ、オーディオファイルの自由にアクセス可能なハブとして機能し、すべてオープンライセンスまたはパブリックドメインで利用可能です。
さらに詳しく調べると、Wikimediaは、最もリソースを消費するトラフィックの驚くべき65%がボットによるものであり、消費されるコンテンツの種類によって測定されていることを明らかにしました。しかし、これらのボットは全体のページビューのわずか35%を占めています。Wikimediaによると、この差は、頻繁にアクセスされるコンテンツがユーザーに近い場所でキャッシュされる一方で、ボットがしばしばターゲットにするあまり人気のないコンテンツは、よりコストのかかる「コアデータセンター」に保存されていることに起因しています。
「人間の読者は特定の、しばしば類似したトピックに焦点を当てる傾向がありますが、クローラーボットはより多くのページを『一括読み込み』し、比較的人気のないページも訪れる傾向があります」とWikimediaは指摘しました。「これにより、これらのリクエストがコアデータセンターに転送され、リソース消費コストが大幅に増加します。」
その結果、Wikimedia Foundationのサイト信頼性チームは、日常のユーザーへの影響を防ぐために、これらのクローラーをブロックするのにかなりの時間とリソースを費やしています。これは、Foundationが直面しているクラウドコストの増大にすら触れていません。
この状況は、オープンインターネットを危険にさらすより広範なトレンドの一部です。先月、ソフトウェアエンジニアでオープンソースの提唱者であるDrew DeVaultは、AIクローラーが自動トラフィックを抑止するための「robots.txt」ファイルを無視していると嘆きました。同様に、「プラグマティックエンジニア」として知られるGergely Oroszは、最近、Metaなどの企業からのAIスクレーパーが彼のプロジェクトの帯域幅需要を急増させていることに不満を表明しました。
オープンソースのインフラストラクチャは特に脆弱ですが、開発者は創意工夫と決意で対応しています。TechCrunchは先週、いくつかのテクノロジー企業が対策を講じていると報じました。たとえば、Cloudflareは、AI生成コンテンツでクローラーを遅くするように設計されたAI Labyrinthを導入しました。
しかし、それは猫とネズミの終わりのないゲームであり、多くのパブリッシャーがログインやペイウォールの背後に退却する可能性があり、結局のところ私たち全員が依存するウェブのオープンな性質を損なう可能性があります。
関連記事
DaVinci Resolveでオーディオ編集を極める:プロフェッショナルサウンドのためのフェアライトガイド
クリアなオーディオは、アマチュア作品とプロのビデオコンテンツを分けます。DaVinci ResolveのFairlightページは、サウンドデザインを完成させる洗練されたツールを映像制作者やコンテンツ制作者に提供します。この詳細なチュートリアルでは、基本的なレコーディングから洗練されたポストプロダクションマスタリングまで、オーディオを向上させるために必要なテクニック、最適な機材の選択、プロフェッシ
グーグルのAIが電話を代行してくれるようになった
グーグルは、検索を通じたAI通話機能を米国の全ユーザーに拡大し、顧客が電話で会話することなく地元企業に価格や空き状況を問い合わせることを可能にした。1月にテストが開始されたこの機能は現在、ペットグルーミング、ランドリーサービス、自動車修理工場などのサービス業をサポートしている。検索者は、対象となるビジネス・リストの下に「AIに価格をチェックさせる」オプションが表示されていることに気づくだろう。ペッ
トランプ大統領、スマートフォン、コンピューター、チップを関税引き上げの対象から除外
ブルームバーグの報道によると、トランプ政権は、中国からの輸入品であっても、スマートフォン、コンピューター、各種電子機器について、最近の関税引き上げの対象から除外することを認めた。しかし、これらの製品は4月9日以前に実施された関税の対象であることに変わりはない。ブルームバーグの情報筋が確認したところによると、米国税関・国境警備局は水曜日遅く、スマートフォン、ノートパソコン、コンピューター部品、半導体
コメント (14)
0/200
KevinBrown
2025年8月24日 0:01:15 JST
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
0
CharlesWhite
2025年8月13日 22:00:59 JST
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
0
SamuelClark
2025年7月31日 20:35:39 JST
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
0
KennethJohnson
2025年7月31日 10:42:05 JST
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!
0
WillieAnderson
2025年4月18日 15:23:40 JST
Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔
0
RaymondGreen
2025年4月18日 15:01:01 JST
ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞
0
Wikimedia Foundationは、Wikipediaやその他のクラウドソーシングによる知識プラットフォームの親団体であり、2024年1月以来、Wikimedia Commonsからのマルチメディアダウンロードの帯域幅使用量が驚異的な50%増加したと水曜日に発表しました。この急増は、火曜日のブログ投稿で詳しく説明されているように、人間の好奇心の高まりによるものではなく、AIモデルを訓練するためのデータを求める自動スクレーパーによるものです。
「私たちのインフラストラクチャは、大きなイベント中に人間からの急激なトラフィック増加に対応するように設計されていますが、スクレーパーボットからのトラフィックの量は比類なく、増加するリスクとコストをもたらしています」と投稿は説明しています。
Wikimedia Commonsは、画像、ビデオ、オーディオファイルの自由にアクセス可能なハブとして機能し、すべてオープンライセンスまたはパブリックドメインで利用可能です。
さらに詳しく調べると、Wikimediaは、最もリソースを消費するトラフィックの驚くべき65%がボットによるものであり、消費されるコンテンツの種類によって測定されていることを明らかにしました。しかし、これらのボットは全体のページビューのわずか35%を占めています。Wikimediaによると、この差は、頻繁にアクセスされるコンテンツがユーザーに近い場所でキャッシュされる一方で、ボットがしばしばターゲットにするあまり人気のないコンテンツは、よりコストのかかる「コアデータセンター」に保存されていることに起因しています。
「人間の読者は特定の、しばしば類似したトピックに焦点を当てる傾向がありますが、クローラーボットはより多くのページを『一括読み込み』し、比較的人気のないページも訪れる傾向があります」とWikimediaは指摘しました。「これにより、これらのリクエストがコアデータセンターに転送され、リソース消費コストが大幅に増加します。」
その結果、Wikimedia Foundationのサイト信頼性チームは、日常のユーザーへの影響を防ぐために、これらのクローラーをブロックするのにかなりの時間とリソースを費やしています。これは、Foundationが直面しているクラウドコストの増大にすら触れていません。
この状況は、オープンインターネットを危険にさらすより広範なトレンドの一部です。先月、ソフトウェアエンジニアでオープンソースの提唱者であるDrew DeVaultは、AIクローラーが自動トラフィックを抑止するための「robots.txt」ファイルを無視していると嘆きました。同様に、「プラグマティックエンジニア」として知られるGergely Oroszは、最近、Metaなどの企業からのAIスクレーパーが彼のプロジェクトの帯域幅需要を急増させていることに不満を表明しました。
オープンソースのインフラストラクチャは特に脆弱ですが、開発者は創意工夫と決意で対応しています。TechCrunchは先週、いくつかのテクノロジー企業が対策を講じていると報じました。たとえば、Cloudflareは、AI生成コンテンツでクローラーを遅くするように設計されたAI Labyrinthを導入しました。
しかし、それは猫とネズミの終わりのないゲームであり、多くのパブリッシャーがログインやペイウォールの背後に退却する可能性があり、結局のところ私たち全員が依存するウェブのオープンな性質を損なう可能性があります。




Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.




Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?




Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅




Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!




Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔




ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞












