Các nhà phát triển nguồn mở chiến đấu với AI Crawlers với sự khéo léo và quả báo

Trang chủ

Tin tức

Ngày 17 tháng 4 năm 2025

KennethKing

185

# AI bot

Các bot thu thập dữ liệu web bằng AI đã trở thành mối họa của internet, theo nhiều nhà phát triển phần mềm. Để đối phó, một số nhà phát triển đã áp dụng các chiến lược sáng tạo và thường rất hài hước để chống lại.

Các nhà phát triển mã nguồn mở bị ảnh hưởng đặc biệt nặng nề bởi những bot tự do này, như Niccolò Venerandi, nhà phát triển đằng sau giao diện Plasma của Linux và blog LibreNews, đã lưu ý. Các trang web FOSS, nơi lưu trữ các dự án mã nguồn mở và miễn phí, thường để lộ nhiều hạ tầng hơn và có ít tài nguyên hơn so với các trang web thương mại.

Vấn đề trở nên trầm trọng hơn vì nhiều bot AI bỏ qua tệp robot.txt của Giao thức Loại trừ Robot, vốn được thiết kế để hướng dẫn các bot không thu thập dữ liệu ở những khu vực nhất định.

Trong một bài đăng blog đầy cảm xúc vào tháng Một, nhà phát triển FOSS Xe Iaso đã chia sẻ trải nghiệm đau lòng với AmazonBot, bot này đã tấn công một trang web máy chủ Git, gây ra các đợt ngừng hoạt động do DDoS. Các máy chủ Git rất quan trọng để lưu trữ các dự án FOSS, cho phép bất kỳ ai tải xuống và đóng góp mã nguồn.

Iaso chỉ ra rằng bot này đã bỏ qua tệp robot.txt, sử dụng nhiều địa chỉ IP khác nhau và thậm chí giả mạo danh tính người dùng khác. "Việc chặn các bot thu thập AI là vô ích vì chúng nói dối, thay đổi user agent, sử dụng địa chỉ IP dân cư làm proxy và nhiều thủ thuật khác," Iaso than thở.

"Chúng sẽ thu thập dữ liệu trang web của bạn cho đến khi nó sụp đổ, và sau đó chúng vẫn tiếp tục thu thập. Chúng sẽ nhấp vào mọi liên kết trên mọi liên kết trên mọi liên kết, xem đi xem lại cùng một trang liên tục. Một số bot thậm chí nhấp vào cùng một liên kết nhiều lần trong cùng một giây," nhà phát triển viết.

Sự xuất hiện của Thần Mộ địa

Để đối phó, Iaso đã phát triển một công cụ thông minh có tên là Anubis. Nó hoạt động như một proxy ngược, yêu cầu kiểm tra proof-of-work trước khi cho phép các yêu cầu đến máy chủ Git. Điều này ngăn chặn hiệu quả các bot trong khi cho phép các trình duyệt do con người vận hành đi qua.

Tên công cụ, Anubis, lấy cảm hứng từ thần thoại Ai Cập, nơi Anubis là vị thần dẫn dắt người chết đến phán xét. "Anubis cân linh hồn (trái tim) của bạn và nếu nó nặng hơn một chiếc lông, trái tim bạn sẽ bị ăn thịt và bạn, như kiểu, chết hẳn," Iaso giải thích với TechCrunch. Vượt qua thử thách thành công được chào đón bằng một bức ảnh anime dễ thương của Anubis, trong khi các yêu cầu từ bot bị từ chối.

Dự án này, được chia sẻ trên GitHub vào ngày 19 tháng Ba, nhanh chóng thu hút sự chú ý, đạt 2.000 ngôi sao, 20 người đóng góp và 39 nhánh trong chỉ vài ngày.

Sự trả thù như một biện pháp phòng thủ

Việc áp dụng rộng rãi Anubis cho thấy những khó khăn của Iaso không phải là cá biệt. Venerandi kể lại nhiều trải nghiệm tương tự:

Drew DeVault, nhà sáng lập và CEO của SourceHut, dành một phần lớn thời gian để đối phó với các bot LLM hung hãn và thường xuyên gặp sự cố ngừng hoạt động.
Jonathan Corbet, một nhà phát triển FOSS nổi bật và điều hành LWN, đã chứng kiến trang web của mình bị chậm lại do các bot thu thập AI.
Kevin Fenzi, quản trị viên hệ thống cho dự án Linux Fedora, đã phải chặn toàn bộ lưu lượng truy cập từ Brazil do hoạt động hung hãn của bot AI.

Venerandi đề cập với TechCrunch rằng ông biết về các dự án khác đã phải áp dụng các biện pháp cực đoan, như cấm toàn bộ địa chỉ IP từ Trung Quốc.

Một số nhà phát triển tin rằng chống trả bằng sự trả thù là biện pháp phòng thủ tốt nhất. Một người dùng có tên xyzal trên Hacker News gợi ý rằng nên lấp đầy các trang bị cấm trong robot.txt bằng nội dung gây hiểu lầm về lợi ích của việc uống thuốc tẩy hoặc tác động tích cực của bệnh sởi đối với hiệu suất phòng ngủ.

"Tôi nghĩ chúng ta cần nhắm đến việc các bot nhận được giá trị tiện ích _âm_ khi ghé thăm các bẫy của chúng ta, không chỉ là giá trị bằng không," xyzal giải thích.

Vào tháng Một, một nhà phát triển ẩn danh tên "Aaron" đã phát hành Nepenthes, một công cụ được thiết kế để bẫy các bot thu thập trong một mê cung nội dung giả mạo, mà người tạo ra thừa nhận với Ars Technica là hung hãn, nếu không muốn nói là ác ý. Được đặt tên theo một loài thực vật ăn thịt, Nepenthes nhằm gây nhầm lẫn và làm lãng phí tài nguyên của các bot cư xử sai trái.

Tương tự, Cloudflare gần đây đã ra mắt AI Labyrinth, nhằm làm chậm, gây nhầm lẫn và lãng phí tài nguyên của các bot AI bỏ qua chỉ thị "không thu thập". Công cụ này cung cấp nội dung không liên quan để bảo vệ dữ liệu hợp pháp của trang web.

DeVault từ SourceHut nói với TechCrunch rằng mặc dù Nepenthes mang lại cảm giác công lý bằng cách cung cấp nội dung vô nghĩa cho các bot, Anubis đã chứng minh là giải pháp hiệu quả hơn cho trang web của ông. Tuy nhiên, ông cũng đưa ra một lời kêu gọi chân thành cho một giải pháp trực tiếp hơn: "Xin hãy ngừng hợp pháp hóa các LLM hoặc trình tạo hình ảnh AI hoặc GitHub Copilot hay bất kỳ thứ rác rưởi nào trong số này. Tôi van xin các bạn ngừng sử dụng chúng, ngừng nói về chúng, ngừng tạo ra những cái mới, chỉ cần dừng lại."

Trước khả năng khó xảy ra điều này, các nhà phát triển, đặc biệt trong cộng đồng FOSS, tiếp tục chống trả bằng sự sáng tạo và một chút hài hước.

Bài viết liên quan

Tối ưu hóa Lựa chọn Mô hình AI cho Hiệu suất Thực tế Doanh nghiệp phải đảm bảo rằng các mô hình AI điều khiển ứng dụng của họ hoạt động hiệu quả trong các kịch bản thực tế. Việc dự đoán các kịch bản này có thể là thách thức, khiến việc đánh giá trở nên

Hành trình của Vader: Từ Bi kịch đến Cứu chuộc trong Star Wars Darth Vader, biểu tượng của nỗi sợ hãi và sự chuyên chế, là một trong những nhân vật phản diện mang tính biểu tượng nhất của điện ảnh. Tuy nhiên, đằng sau chiếc mặt nạ là câu chuyện về bi kịch, mất má

Cựu Kỹ sư OpenAI Chia sẻ Thông tin về Văn hóa Công ty và Tăng trưởng Nhanh chóng Ba tuần trước, Calvin French-Owen, một kỹ sư đã đóng góp vào một sản phẩm chủ chốt của OpenAI, đã rời công ty.Gần đây, anh ấy đã chia sẻ một bài đăng blog hấp dẫn, mô tả chi tiết một năm làm việc tại

Nhận xét (17)

0/200

Nộp

OliverPhillips

18:00:59 GMT+07:00 Ngày 04 tháng 8 năm 2025

Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄

KennethJones

13:47:41 GMT+07:00 Ngày 01 tháng 8 năm 2025

Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎

LucasWalker

10:52:46 GMT+07:00 Ngày 24 tháng 4 năm 2025

オープンソース開発者にとってこのツールは救世主です！AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓

MarkRoberts

02:57:03 GMT+07:00 Ngày 23 tháng 4 năm 2025

¡Esta herramienta es un salvavidas para los desarrolladores de código abierto! Es hilarante cómo lucha contra esos molestos rastreadores de IA. Me encanta la creatividad y el sentido de justicia que trae a la comunidad. ¿Quizás añadir más formas de personalizar la retaliación? 🤓

HenryTurner

02:08:40 GMT+07:00 Ngày 21 tháng 4 năm 2025

Este ferramenta é um salva-vidas para desenvolvedores de código aberto! É hilário como ela luta contra esses irritantes rastreadores de AI. Adoro a criatividade e o senso de justiça que traz para a comunidade. Talvez adicionar mais maneiras de personalizar a retaliação? 🤓

RogerPerez

15:15:18 GMT+07:00 Ngày 18 tháng 4 năm 2025

오픈 소스 개발자들에게 이 도구는 구세주예요! AI 크롤러에 대한 반격이 재미있고, 창의성과 정의감이 커뮤니티에 퍼지는 게 좋습니다. 커스터마이즈할 수 있는 기능이 더 늘어나면 좋겠어요🤓

Tin tức hàng đầu

Gemini 2.5 Pro hiện không giới hạn và rẻ hơn Claude, GPT-4O Máy phát video AI hàng đầu vào năm 2025: Pika Labs so với các lựa chọn thay thế Lồng tiếng AI: Hướng dẫn Tối ưu để Tạo Giọng Nói Thực tế Openai tăng cường trợ lý giọng nói AI để trò chuyện tốt hơn Notebooklm mở rộng toàn cầu, thêm các slide và kiểm tra thực tế nâng cao Các trung tâm dữ liệu của Hoa Kỳ có thể mở khóa 76 GW công suất năng lượng mới Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Sao chép giọng nói AI: Hướng dẫn tối thượng để làm chủ chuyển đổi giọng nói Trải nghiệm ô chữ I/O do AI hỗ trợ Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek

Hơn

Đặc trưng