AIクローラーはウィキメディアコモンズ帯域幅の需要を50%サージします

Wikimedia Foundationは、Wikipediaやその他のクラウドソーシングによる知識プラットフォームの親団体であり、2024年1月以来、Wikimedia Commonsからのマルチメディアダウンロードの帯域幅使用量が驚異的な50%増加したと水曜日に発表しました。この急増は、火曜日のブログ投稿で詳しく説明されているように、人間の好奇心の高まりによるものではなく、AIモデルを訓練するためのデータを求める自動スクレーパーによるものです。
「私たちのインフラストラクチャは、大きなイベント中に人間からの急激なトラフィック増加に対応するように設計されていますが、スクレーパーボットからのトラフィックの量は比類なく、増加するリスクとコストをもたらしています」と投稿は説明しています。
Wikimedia Commonsは、画像、ビデオ、オーディオファイルの自由にアクセス可能なハブとして機能し、すべてオープンライセンスまたはパブリックドメインで利用可能です。
さらに詳しく調べると、Wikimediaは、最もリソースを消費するトラフィックの驚くべき65%がボットによるものであり、消費されるコンテンツの種類によって測定されていることを明らかにしました。しかし、これらのボットは全体のページビューのわずか35%を占めています。Wikimediaによると、この差は、頻繁にアクセスされるコンテンツがユーザーに近い場所でキャッシュされる一方で、ボットがしばしばターゲットにするあまり人気のないコンテンツは、よりコストのかかる「コアデータセンター」に保存されていることに起因しています。
「人間の読者は特定の、しばしば類似したトピックに焦点を当てる傾向がありますが、クローラーボットはより多くのページを『一括読み込み』し、比較的人気のないページも訪れる傾向があります」とWikimediaは指摘しました。「これにより、これらのリクエストがコアデータセンターに転送され、リソース消費コストが大幅に増加します。」
その結果、Wikimedia Foundationのサイト信頼性チームは、日常のユーザーへの影響を防ぐために、これらのクローラーをブロックするのにかなりの時間とリソースを費やしています。これは、Foundationが直面しているクラウドコストの増大にすら触れていません。
この状況は、オープンインターネットを危険にさらすより広範なトレンドの一部です。先月、ソフトウェアエンジニアでオープンソースの提唱者であるDrew DeVaultは、AIクローラーが自動トラフィックを抑止するための「robots.txt」ファイルを無視していると嘆きました。同様に、「プラグマティックエンジニア」として知られるGergely Oroszは、最近、Metaなどの企業からのAIスクレーパーが彼のプロジェクトの帯域幅需要を急増させていることに不満を表明しました。
オープンソースのインフラストラクチャは特に脆弱ですが、開発者は創意工夫と決意で対応しています。TechCrunchは先週、いくつかのテクノロジー企業が対策を講じていると報じました。たとえば、Cloudflareは、AI生成コンテンツでクローラーを遅くするように設計されたAI Labyrinthを導入しました。
しかし、それは猫とネズミの終わりのないゲームであり、多くのパブリッシャーがログインやペイウォールの背後に退却する可能性があり、結局のところ私たち全員が依存するウェブのオープンな性質を損なう可能性があります。
関連記事
カーソルAIコーディングスタートアップ、スペースXからの多額の投資を受け、アジア太平洋地域で200人を採用へ
AIコーディングスタートアップのCursorは、大規模なグローバル展開を発表し、今後6か月間でアジア太平洋地域全体で200名の従業員を採用する計画だ。主な職種には、マーケティングエンジニア、フィールドエンジニア、AI導入エンジニアなどが含まれる。この動きは、サンフランシスコを拠点とするこのユニコーン企業が、自社の基盤技術を国際市場に展開しようとする取り組みを裏付けるものである。現在、Cursor
Claudeがマルウェア入りnpmパッケージの作成に悪用される:670件以上が侵害され、オープンソースが脅威にさらされる
最近のサイバーセキュリティインシデントにより、大規模言語モデル(LLM)が悪意のあるソフトウェア開発のために悪用されている実態が明らかになった。セキュリティ研究者のSibi Moosa氏は、「mousie-5212-super-formatter」という別名を使用する攻撃者が、Anthropic社のAI「Claude」を利用して有害なコードを生成し、npmパッケージエコシステムを汚染していることを
インドが技術開発を加速させる中、リライアンスが1,100億ドルのAI投資計画を発表
インドの複合企業リライアンスの会長で億万長者のムケシュ・アンバニ氏は木曜日、今後7年間にわたりインド全土にAIコンピューティングインフラを構築するための10兆ルピー(約1,100億ドル)規模の計画を発表しました。木曜日にニューデリーで開催された「インドAIインパクト・サミット」で講演したアンバニ氏は、この投資により、ギガワット規模のデータセンター、全国規模のエッジコンピューティング・ネットワーク、
関連特集おすすめ
コメント (15)
0/500
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

Wikimedia Foundationは、Wikipediaやその他のクラウドソーシングによる知識プラットフォームの親団体であり、2024年1月以来、Wikimedia Commonsからのマルチメディアダウンロードの帯域幅使用量が驚異的な50%増加したと水曜日に発表しました。この急増は、火曜日のブログ投稿で詳しく説明されているように、人間の好奇心の高まりによるものではなく、AIモデルを訓練するためのデータを求める自動スクレーパーによるものです。
「私たちのインフラストラクチャは、大きなイベント中に人間からの急激なトラフィック増加に対応するように設計されていますが、スクレーパーボットからのトラフィックの量は比類なく、増加するリスクとコストをもたらしています」と投稿は説明しています。
Wikimedia Commonsは、画像、ビデオ、オーディオファイルの自由にアクセス可能なハブとして機能し、すべてオープンライセンスまたはパブリックドメインで利用可能です。
さらに詳しく調べると、Wikimediaは、最もリソースを消費するトラフィックの驚くべき65%がボットによるものであり、消費されるコンテンツの種類によって測定されていることを明らかにしました。しかし、これらのボットは全体のページビューのわずか35%を占めています。Wikimediaによると、この差は、頻繁にアクセスされるコンテンツがユーザーに近い場所でキャッシュされる一方で、ボットがしばしばターゲットにするあまり人気のないコンテンツは、よりコストのかかる「コアデータセンター」に保存されていることに起因しています。
「人間の読者は特定の、しばしば類似したトピックに焦点を当てる傾向がありますが、クローラーボットはより多くのページを『一括読み込み』し、比較的人気のないページも訪れる傾向があります」とWikimediaは指摘しました。「これにより、これらのリクエストがコアデータセンターに転送され、リソース消費コストが大幅に増加します。」
その結果、Wikimedia Foundationのサイト信頼性チームは、日常のユーザーへの影響を防ぐために、これらのクローラーをブロックするのにかなりの時間とリソースを費やしています。これは、Foundationが直面しているクラウドコストの増大にすら触れていません。
この状況は、オープンインターネットを危険にさらすより広範なトレンドの一部です。先月、ソフトウェアエンジニアでオープンソースの提唱者であるDrew DeVaultは、AIクローラーが自動トラフィックを抑止するための「robots.txt」ファイルを無視していると嘆きました。同様に、「プラグマティックエンジニア」として知られるGergely Oroszは、最近、Metaなどの企業からのAIスクレーパーが彼のプロジェクトの帯域幅需要を急増させていることに不満を表明しました。
オープンソースのインフラストラクチャは特に脆弱ですが、開発者は創意工夫と決意で対応しています。TechCrunchは先週、いくつかのテクノロジー企業が対策を講じていると報じました。たとえば、Cloudflareは、AI生成コンテンツでクローラーを遅くするように設計されたAI Labyrinthを導入しました。
しかし、それは猫とネズミの終わりのないゲームであり、多くのパブリッシャーがログインやペイウォールの背後に退却する可能性があり、結局のところ私たち全員が依存するウェブのオープンな性質を損なう可能性があります。
カーソルAIコーディングスタートアップ、スペースXからの多額の投資を受け、アジア太平洋地域で200人を採用へ
AIコーディングスタートアップのCursorは、大規模なグローバル展開を発表し、今後6か月間でアジア太平洋地域全体で200名の従業員を採用する計画だ。主な職種には、マーケティングエンジニア、フィールドエンジニア、AI導入エンジニアなどが含まれる。この動きは、サンフランシスコを拠点とするこのユニコーン企業が、自社の基盤技術を国際市場に展開しようとする取り組みを裏付けるものである。現在、Cursor
Claudeがマルウェア入りnpmパッケージの作成に悪用される:670件以上が侵害され、オープンソースが脅威にさらされる
最近のサイバーセキュリティインシデントにより、大規模言語モデル(LLM)が悪意のあるソフトウェア開発のために悪用されている実態が明らかになった。セキュリティ研究者のSibi Moosa氏は、「mousie-5212-super-formatter」という別名を使用する攻撃者が、Anthropic社のAI「Claude」を利用して有害なコードを生成し、npmパッケージエコシステムを汚染していることを
インドが技術開発を加速させる中、リライアンスが1,100億ドルのAI投資計画を発表
インドの複合企業リライアンスの会長で億万長者のムケシュ・アンバニ氏は木曜日、今後7年間にわたりインド全土にAIコンピューティングインフラを構築するための10兆ルピー(約1,100億ドル)規模の計画を発表しました。木曜日にニューデリーで開催された「インドAIインパクト・サミット」で講演したアンバニ氏は、この投資により、ギガワット規模のデータセンター、全国規模のエッジコンピューティング・ネットワーク、
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!





家






