選項
首頁
消息
AI爬行者湧現Wikimedia Commons帶寬需求50%

AI爬行者湧現Wikimedia Commons帶寬需求50%

2025-04-17
62

AI爬行者湧現Wikimedia Commons帶寬需求50%

The Wikimedia Foundation, the parent body behind Wikipedia and numerous other crowd-sourced knowledge platforms, announced on Wednesday a staggering 50% increase in bandwidth usage for multimedia downloads from Wikimedia Commons since January 2024. This surge, as detailed in a blog post on Tuesday, isn't driven by an uptick in human curiosity, but rather by automated scrapers hungry for data to train AI models.

該帖子解釋說:“我們的基礎設施旨在處理重大事件中人類流量的突然激增,但是刮板機器人的交通量是無與倫比的,並且會增加風險和成本。”

Wikimedia Commons可作為圖像,視頻和音頻文件的自由訪問樞紐,所有這些都在開放許可下或在公共領域中可用。

維基梅迪亞(Wikimedia)深入研究,透露,來自機器人所消耗的內容類型的資源最密集的流量中有65%的流量為65%。但是,這些機器人僅佔整體瀏覽量的35%。根據Wikimedia的說法,這種差異源於訪問的內容的頻率更接近用戶,而較不受歡迎的內容(通常是機器人)卻是定位的,它存儲在更為昂貴的“核心數據中心”中。

Wikimedia指出:“儘管人類讀者傾向於專注於特定的,通常相似的主題,但爬網機器人傾向於'批量閱讀'大量頁面,並訪問較少流行的頁面。” “這導致這些請求被轉發給核心數據中心,這大大增加了我們的資源消費成本。”

結果,Wikimedia基金會的網站可靠性團隊正在花費大量時間和資源來阻止這些爬行者,以防止日常用戶的干擾。這甚至無法觸及基金會與之爭奪的云成本。

這種情況是危害開放互聯網的更廣泛趨勢的一部分。就在上個月,軟件工程師和開源倡導者Drew Devault哀嘆AI爬行者公然忽略了旨在阻止自動流量的“ robots.txt”文件。同樣,Gergely Orosz(被稱為“務實的工程師”)最近對他對像Meta這樣的公司的AI刮擦方式感到沮喪,對他的項目提出了帶寬的需求。

雖然開源基礎架構特別容易受到傷害,但開發人員正在以獨創性和決心做出回應。 TechCrunch上周強調說,一些科技公司正在加緊。例如,Cloudflare引入了AI迷宮,旨在減慢AI生成內容的慢速爬行者。

然而,它仍然是貓和老鼠的持續遊戲,它可能會促使許多發行商在登錄和付費牆後撤退,最終損害了我們所有人都依靠的網絡的開放性質。

相關文章
任正非:中國的AI未來與華為的長期策略 任正非:中國的AI未來與華為的長期策略 json收起自动换行复制{"content": ",[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object
Agentic AI革新投資,2025年超越華爾街 Agentic AI革新投資,2025年超越華爾街 多年來,華爾街公司憑藉優越資源主導股市,塑造利潤。如今,尖端技術,尤其是人工智慧,正平衡競爭天平。Agentic AI賦能個人投資者做出更精準、數據驅動的選擇,2025年有望超越華爾街。本文深入探討Agentic AI如何改變投資,提供提升回報的實用建議。關鍵要點Agentic AI正在重塑股市投資。個人投資者可利用AI獲得競爭優勢。掌握AI驅動策略對2025年成功至關重要。BestofUSInv
Perplexity上個月收到7.8億次查詢,首席執行官表示 Perplexity上個月收到7.8億次查詢,首席執行官表示 json收起自动换行复制{"content": ",[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],,[object Object],— Aravind Srinivas (@AravSrin
評論 (10)
0/200
ThomasJones
ThomasJones 2025-04-17 00:00:00

Wikimedia Commons bandwidth usage up by 50%? 😲 That's insane! I guess all those AI crawlers are hungry for our data. It's cool that Wikimedia is keeping us posted, but man, this is gonna slow things down. Hope they find a way to handle it without messing up our experience! 🤞

RaymondGreen
RaymondGreen 2025-04-18 00:00:00

ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞

RogerSanchez
RogerSanchez 2025-04-17 00:00:00

위키미디어 커먼즈의 대역폭 사용량이 50% 증가했다고? 😲 믿기지 않아! AI 크롤러들이 우리 데이터를 원하는 거겠지. 위키미디어가 정보를 공유해주는 건 좋지만, 이 때문에 느려지면 곤란해. 사용자 경험을 망치지 않고 해결할 방법을 찾았으면 좋겠어! 🤞

CarlTaylor
CarlTaylor 2025-04-17 00:00:00

O uso de banda do Wikimedia Commons aumentou 50%? 😲 Isso é loucura! Acho que esses rastreadores de IA estão famintos pelos nossos dados. É legal que o Wikimedia nos mantenha informados, mas cara, isso vai atrasar tudo. Espero que eles encontrem uma maneira de lidar com isso sem estragar nossa experiência! 🤞

AlbertLee
AlbertLee 2025-04-18 00:00:00

¿El uso de ancho de banda de Wikimedia Commons aumentó un 50%? 😲 ¡Eso es una locura! Supongo que esos rastreadores de IA están hambrientos de nuestros datos. Es genial que Wikimedia nos mantenga informados, pero hombre, esto va a ralentizar todo. Espero que encuentren una manera de manejarlo sin arruinar nuestra experiencia. 🤞

ThomasHernández
ThomasHernández 2025-04-17 00:00:00

The surge in bandwidth demand by AI crawlers on Wikimedia Commons is insane! It's cool to see AI being used so extensively, but it's also a bit worrying. Hope they find a way to manage it without affecting the user experience too much. 🤔

回到頂部
OR