AIクローラーはウィキメディアコモンズ帯域幅の需要を50%サージします

Wikimedia Foundationは、Wikipediaやその他のクラウドソーシングによる知識プラットフォームの親団体であり、2024年1月以来、Wikimedia Commonsからのマルチメディアダウンロードの帯域幅使用量が驚異的な50%増加したと水曜日に発表しました。この急増は、火曜日のブログ投稿で詳しく説明されているように、人間の好奇心の高まりによるものではなく、AIモデルを訓練するためのデータを求める自動スクレーパーによるものです。
「私たちのインフラストラクチャは、大きなイベント中に人間からの急激なトラフィック増加に対応するように設計されていますが、スクレーパーボットからのトラフィックの量は比類なく、増加するリスクとコストをもたらしています」と投稿は説明しています。
Wikimedia Commonsは、画像、ビデオ、オーディオファイルの自由にアクセス可能なハブとして機能し、すべてオープンライセンスまたはパブリックドメインで利用可能です。
さらに詳しく調べると、Wikimediaは、最もリソースを消費するトラフィックの驚くべき65%がボットによるものであり、消費されるコンテンツの種類によって測定されていることを明らかにしました。しかし、これらのボットは全体のページビューのわずか35%を占めています。Wikimediaによると、この差は、頻繁にアクセスされるコンテンツがユーザーに近い場所でキャッシュされる一方で、ボットがしばしばターゲットにするあまり人気のないコンテンツは、よりコストのかかる「コアデータセンター」に保存されていることに起因しています。
「人間の読者は特定の、しばしば類似したトピックに焦点を当てる傾向がありますが、クローラーボットはより多くのページを『一括読み込み』し、比較的人気のないページも訪れる傾向があります」とWikimediaは指摘しました。「これにより、これらのリクエストがコアデータセンターに転送され、リソース消費コストが大幅に増加します。」
その結果、Wikimedia Foundationのサイト信頼性チームは、日常のユーザーへの影響を防ぐために、これらのクローラーをブロックするのにかなりの時間とリソースを費やしています。これは、Foundationが直面しているクラウドコストの増大にすら触れていません。
この状況は、オープンインターネットを危険にさらすより広範なトレンドの一部です。先月、ソフトウェアエンジニアでオープンソースの提唱者であるDrew DeVaultは、AIクローラーが自動トラフィックを抑止するための「robots.txt」ファイルを無視していると嘆きました。同様に、「プラグマティックエンジニア」として知られるGergely Oroszは、最近、Metaなどの企業からのAIスクレーパーが彼のプロジェクトの帯域幅需要を急増させていることに不満を表明しました。
オープンソースのインフラストラクチャは特に脆弱ですが、開発者は創意工夫と決意で対応しています。TechCrunchは先週、いくつかのテクノロジー企業が対策を講じていると報じました。たとえば、Cloudflareは、AI生成コンテンツでクローラーを遅くするように設計されたAI Labyrinthを導入しました。
しかし、それは猫とネズミの終わりのないゲームであり、多くのパブリッシャーがログインやペイウォールの背後に退却する可能性があり、結局のところ私たち全員が依存するウェブのオープンな性質を損なう可能性があります。
関連記事
PicLumenで創造性を解き放とう:無料AI画像生成ガイド
AIを駆使した画像作成ツールで、魅力的なビジュアルを簡単に作成できるようになりました。このチュートリアルでは、無制限の高品質画像生成を無料で提供する優れたプラットフォーム、PicLumenについて説明します。PicLumenは、アーティスト、マーケティング担当者、またはAIアートを活用したいすべての人に最適で、直感的な操作と驚くべき結果を提供します。あなたのイマジネーションに火をつけましょう!主な
AIを活用した大学のスケジューリング:学事時間割の合理化
今日のダイナミックなアカデミックな状況において、効果的なスケジューリングは成功のために不可欠です。キング・アブドゥルアジーズ大学のために設計されたAI Schedule Makerは、大学の時間割を自動化し、重複するクラスや管理上の非効率性などの問題に対処します。オーダーメイドで競合のないスケジュールを提供することで、学生と教員双方の経験を向上させます。主なハイライト従来の大学のスケジュール
愛コン2012:コスプレの創造性とコミュニティを祝う
カナダを代表するアニメコンベンションであるAi-Konは、長年コスプレファンの拠点となってきた。本記事では、Ai-Kon 2012を再訪し、忘れられないものとなった創造性、職人技、活気あるコミュニティにスポットを当てる。見事なコスチュームとアニメファンの情熱に迫る!ハイライトAi-Kon2012のコスプレショーケースで最高の瞬間を体験しよう。様々なキャラクターやコスチュームデザインを発見。
コメント (14)
0/200
KevinBrown
2025年8月24日 0:01:15 JST
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
0
CharlesWhite
2025年8月13日 22:00:59 JST
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
0
SamuelClark
2025年7月31日 20:35:39 JST
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
0
KennethJohnson
2025年7月31日 10:42:05 JST
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!
0
WillieAnderson
2025年4月18日 15:23:40 JST
Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔
0
RaymondGreen
2025年4月18日 15:01:01 JST
ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞
0
Wikimedia Foundationは、Wikipediaやその他のクラウドソーシングによる知識プラットフォームの親団体であり、2024年1月以来、Wikimedia Commonsからのマルチメディアダウンロードの帯域幅使用量が驚異的な50%増加したと水曜日に発表しました。この急増は、火曜日のブログ投稿で詳しく説明されているように、人間の好奇心の高まりによるものではなく、AIモデルを訓練するためのデータを求める自動スクレーパーによるものです。
「私たちのインフラストラクチャは、大きなイベント中に人間からの急激なトラフィック増加に対応するように設計されていますが、スクレーパーボットからのトラフィックの量は比類なく、増加するリスクとコストをもたらしています」と投稿は説明しています。
Wikimedia Commonsは、画像、ビデオ、オーディオファイルの自由にアクセス可能なハブとして機能し、すべてオープンライセンスまたはパブリックドメインで利用可能です。
さらに詳しく調べると、Wikimediaは、最もリソースを消費するトラフィックの驚くべき65%がボットによるものであり、消費されるコンテンツの種類によって測定されていることを明らかにしました。しかし、これらのボットは全体のページビューのわずか35%を占めています。Wikimediaによると、この差は、頻繁にアクセスされるコンテンツがユーザーに近い場所でキャッシュされる一方で、ボットがしばしばターゲットにするあまり人気のないコンテンツは、よりコストのかかる「コアデータセンター」に保存されていることに起因しています。
「人間の読者は特定の、しばしば類似したトピックに焦点を当てる傾向がありますが、クローラーボットはより多くのページを『一括読み込み』し、比較的人気のないページも訪れる傾向があります」とWikimediaは指摘しました。「これにより、これらのリクエストがコアデータセンターに転送され、リソース消費コストが大幅に増加します。」
その結果、Wikimedia Foundationのサイト信頼性チームは、日常のユーザーへの影響を防ぐために、これらのクローラーをブロックするのにかなりの時間とリソースを費やしています。これは、Foundationが直面しているクラウドコストの増大にすら触れていません。
この状況は、オープンインターネットを危険にさらすより広範なトレンドの一部です。先月、ソフトウェアエンジニアでオープンソースの提唱者であるDrew DeVaultは、AIクローラーが自動トラフィックを抑止するための「robots.txt」ファイルを無視していると嘆きました。同様に、「プラグマティックエンジニア」として知られるGergely Oroszは、最近、Metaなどの企業からのAIスクレーパーが彼のプロジェクトの帯域幅需要を急増させていることに不満を表明しました。
オープンソースのインフラストラクチャは特に脆弱ですが、開発者は創意工夫と決意で対応しています。TechCrunchは先週、いくつかのテクノロジー企業が対策を講じていると報じました。たとえば、Cloudflareは、AI生成コンテンツでクローラーを遅くするように設計されたAI Labyrinthを導入しました。
しかし、それは猫とネズミの終わりのないゲームであり、多くのパブリッシャーがログインやペイウォールの背後に退却する可能性があり、結局のところ私たち全員が依存するウェブのオープンな性質を損なう可能性があります。




Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.




Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?




Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅




Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!




Wikimedia Commons에서 AI 크롤러로 인한 대역폭 수요 증가는 미쳤어요! AI가 이렇게 널리 사용되는 건 멋지지만, 조금 걱정되기도 해요. 사용자 경험에 큰 영향을 주지 않으면서 이를 관리할 방법을 찾았으면 좋겠어요. 🤔




ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞












