lựa chọn
Trang chủ
Tin tức
AI Crawlers Surge Wikimedia Commons Băng thông Nhu cầu 50%

AI Crawlers Surge Wikimedia Commons Băng thông Nhu cầu 50%

Ngày 17 tháng 4 năm 2025
62

AI Crawlers Surge Wikimedia Commons Băng thông Nhu cầu 50%

Wikimedia Foundation, cơ thể phụ huynh đằng sau Wikipedia và nhiều nền tảng kiến ​​thức có nguồn gốc đám đông khác, đã công bố vào thứ Tư, việc sử dụng băng thông tăng đáng kinh ngạc 50% cho các bản tải xuống đa phương tiện từ Wikimedia Commons kể từ tháng 1 năm 2024.

Cơ sở hạ tầng của chúng tôi được thiết kế để xử lý sự gia tăng đột ngột trong giao thông từ con người trong các sự kiện lớn, nhưng lưu lượng giao thông từ bot cào là không thể so sánh được và đặt ra rủi ro và chi phí tăng lên, bài viết giải thích.

Wikimedia Commons phục vụ như một trung tâm có thể truy cập tự do cho hình ảnh, video và tệp âm thanh, tất cả đều có sẵn theo giấy phép mở hoặc trong phạm vi công cộng.

Delving sâu hơn, Wikimedia tiết lộ rằng một con số khổng lồ 65% lưu lượng truy cập tốn nhiều tài nguyên nhất có nghĩa là bởi loại nội dung được tiêu thụ từ các bot. Tuy nhiên, các bot này chỉ chiếm 35% tổng số lượt xem trang. Sự khác biệt, theo Wikimedia, bắt nguồn từ mức độ thường xuyên truy cập nội dung được lưu trữ gần hơn với người dùng, trong khi nội dung ít phổ biến hơn, mà các bot thường nhắm mục tiêu, được lưu trữ trong "trung tâm dữ liệu cốt lõi" tốn kém hơn.

Trong khi độc giả của con người có xu hướng tập trung vào các chủ đề cụ thể, thường giống nhau, các bot trình thu thập thông tin có xu hướng 'đọc số lượng lớn' một số lượng lớn hơn và truy cập các trang ít phổ biến hơn, theo Wikimedia. Điều này dẫn đến các yêu cầu này được chuyển tiếp đến trung tâm dữ liệu cốt lõi, làm tăng đáng kể chi phí tiêu thụ tài nguyên của chúng tôi.

Do đó, nhóm độ tin cậy trang web của Wikimedia Foundation đang dành thời gian và nguồn lực đáng kể để chặn các trình thu thập dữ liệu này để ngăn chặn sự gián đoạn cho người dùng hàng ngày. Điều này thậm chí không chạm vào chi phí đám mây leo thang mà nền tảng đang tranh cãi.

Kịch bản này là một phần của xu hướng rộng lớn hơn gây nguy hiểm cho Internet mở. Mới tháng trước, Kỹ sư phần mềm và người ủng hộ nguồn mở Drew Devault than thở rằng AI thu thập dữ liệu đang bỏ qua một cách trắng trợn các tệp robot.txt, nhằm ngăn chặn lưu lượng truy cập tự động. Tương tự, Gergely Orosz, được gọi là "Kỹ sư thực dụng", gần đây đã bày tỏ sự thất vọng của mình về cách AI Crapers từ các công ty như Meta đã tăng băng thông cho các dự án của mình.

Trong khi cơ sở hạ tầng nguồn mở đặc biệt dễ bị tổn thương, các nhà phát triển đang phản ứng với sự khéo léo và quyết tâm. TechCrunch nhấn mạnh vào tuần trước rằng một số công ty công nghệ đang đẩy mạnh. Chẳng hạn, Cloudflare đã giới thiệu AI Labyrinth, được thiết kế để làm chậm các trình thu thập thông tin với nội dung do AI tạo ra.

Tuy nhiên, nó vẫn là một trò chơi liên tục của mèo và chuột, một trò chơi có thể đẩy nhiều nhà xuất bản rút lui sau đăng nhập và trả tiền, cuối cùng gây hại cho bản chất mở của web mà tất cả chúng ta đều dựa vào.

Bài viết liên quan
Ren Zhengfei: Tương lai AI của Trung Quốc và chiến lược dài hạn của Huawei Ren Zhengfei: Tương lai AI của Trung Quốc và chiến lược dài hạn của Huawei json收起自动换行复制{"content": ",[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object
Cách mạng AI Chủ động Thay đổi Đầu tư để Vượt qua Phố Wall vào năm 2025 Cách mạng AI Chủ động Thay đổi Đầu tư để Vượt qua Phố Wall vào năm 2025 Trong nhiều năm, các công ty Phố Wall đã thống trị thị trường chứng khoán, tận dụng nguồn lực vượt trội để định hình lợi nhuận. Giờ đây, công nghệ tiên tiến, đặc biệt là Trí tuệ Nhân tạo, đang cân bằn
Perplexity nhận được 780 triệu truy vấn tháng trước, CEO cho biết Perplexity nhận được 780 triệu truy vấn tháng trước, CEO cho biết json收起自动换行复制{"content": ",[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],,[object Object],— Aravind Srinivas (@AravSrin
Nhận xét (10)
0/200
ThomasJones
ThomasJones 00:00:00 GMT+07:00 Ngày 17 tháng 4 năm 2025

Wikimedia Commons bandwidth usage up by 50%? 😲 That's insane! I guess all those AI crawlers are hungry for our data. It's cool that Wikimedia is keeping us posted, but man, this is gonna slow things down. Hope they find a way to handle it without messing up our experience! 🤞

RaymondGreen
RaymondGreen 00:00:00 GMT+07:00 Ngày 18 tháng 4 năm 2025

ウィキメディア・コモンズの帯域使用量が50%増えたって?😲 信じられない!AIクローラーがデータを欲しがってるんだね。ウィキメディアが情報を共有してくれるのはいいけど、これで遅くなるのは嫌だな。ユーザー体験を壊さずに対応できるといいね!🤞

RogerSanchez
RogerSanchez 00:00:00 GMT+07:00 Ngày 17 tháng 4 năm 2025

위키미디어 커먼즈의 대역폭 사용량이 50% 증가했다고? 😲 믿기지 않아! AI 크롤러들이 우리 데이터를 원하는 거겠지. 위키미디어가 정보를 공유해주는 건 좋지만, 이 때문에 느려지면 곤란해. 사용자 경험을 망치지 않고 해결할 방법을 찾았으면 좋겠어! 🤞

CarlTaylor
CarlTaylor 00:00:00 GMT+07:00 Ngày 17 tháng 4 năm 2025

O uso de banda do Wikimedia Commons aumentou 50%? 😲 Isso é loucura! Acho que esses rastreadores de IA estão famintos pelos nossos dados. É legal que o Wikimedia nos mantenha informados, mas cara, isso vai atrasar tudo. Espero que eles encontrem uma maneira de lidar com isso sem estragar nossa experiência! 🤞

AlbertLee
AlbertLee 00:00:00 GMT+07:00 Ngày 18 tháng 4 năm 2025

¿El uso de ancho de banda de Wikimedia Commons aumentó un 50%? 😲 ¡Eso es una locura! Supongo que esos rastreadores de IA están hambrientos de nuestros datos. Es genial que Wikimedia nos mantenga informados, pero hombre, esto va a ralentizar todo. Espero que encuentren una manera de manejarlo sin arruinar nuestra experiencia. 🤞

ThomasHernández
ThomasHernández 00:00:00 GMT+07:00 Ngày 17 tháng 4 năm 2025

The surge in bandwidth demand by AI crawlers on Wikimedia Commons is insane! It's cool to see AI being used so extensively, but it's also a bit worrying. Hope they find a way to manage it without affecting the user experience too much. 🤔

Quay lại đầu
OR