Các nhà phát triển nguồn mở chiến đấu với AI Crawlers với sự khéo léo và quả báo
Theo nhiều nhà phát triển phần mềm. Đáp lại, một số nhà phát triển đã thực hiện để chiến đấu trở lại với các chiến lược sáng tạo và thường gây cười.
Các nhà phát triển nguồn mở bị ảnh hưởng đặc biệt khó khăn bởi những bot lừa đảo này, như được ghi nhận bởi Niccolò Venerandi, nhà phát triển đằng sau Plasma máy tính để bàn Linux và blog Librenews. Các trang web Foss, nơi lưu trữ các dự án nguồn mở và miễn phí, tiếp xúc nhiều cơ sở hạ tầng của họ và thường có ít tài nguyên hơn các trang web thương mại.
Vấn đề trở nên trầm trọng hơn vì nhiều bot AI bỏ qua tệp robot.txt của giao thức loại trừ robot, có nghĩa là hướng dẫn các bot về những gì không được bò.
Trong một bài đăng trên blog sâu sắc vào tháng 1, nhà phát triển Foss XE IASO đã chia sẻ trải nghiệm đau khổ với Amazonbot, nơi bắn phá một trang web Git Server, gây ra sự cố mất điện của DDoS. Các máy chủ Git rất quan trọng để lưu trữ các dự án FOSS, cho phép bất cứ ai tải xuống và đóng góp cho mã.
IASO chỉ ra rằng bot đã bỏ qua tệp robot.txt, đã sử dụng các địa chỉ IP khác nhau và thậm chí được giả mạo như những người dùng khác. "Thật vô ích khi chặn các bot của AI Crawler vì họ nói dối, thay đổi tác nhân người dùng của họ, sử dụng địa chỉ IP dân cư làm proxy, v.v."
"Họ sẽ cạo trang web của bạn cho đến khi nó rơi xuống, và sau đó họ sẽ cạo nó thêm một số nữa. Họ sẽ nhấp vào mọi liên kết trên mọi liên kết trên mỗi liên kết, xem cùng một trang và hơn và hơn.
Nhập Thần của Graves
Để chống lại điều này, IoSo đã phát triển một công cụ thông minh gọi là Anubis. Nó hoạt động như một proxy ngược yêu cầu kiểm tra bằng chứng trước khi cho phép các yêu cầu đến máy chủ Git. Điều này có hiệu quả chặn các bot trong khi cho phép các trình duyệt do con người đi qua.
Tên của công cụ, Anubis, rút ra từ thần thoại Ai Cập, nơi Anubis là Thiên Chúa dẫn người chết đến phán xét. "Anubis đã cân nhắc tâm hồn bạn (trái tim) và nếu nó nặng hơn một chiếc lông vũ, trái tim bạn đã ăn và bạn, như, Mega đã chết," IoSo giải thích với TechCrunch. Trải qua thành công thử thách được tổ chức với một bức ảnh anime dễ thương của Anubis, trong khi các yêu cầu của bot bị từ chối.
Dự án, được chia sẻ trên GitHub vào ngày 19 tháng 3, nhanh chóng đạt được lực kéo, tích lũy 2.000 sao, 20 người đóng góp và 39 dĩa chỉ trong vài ngày.

Báo thù như phòng thủ
Việc áp dụng rộng rãi Anubis chỉ ra rằng các cuộc đấu tranh của IoSo còn lâu mới bị cô lập. Venerandi kể lại rất nhiều kinh nghiệm tương tự:
- Drew Devault, người sáng lập và CEO của Sourcehut, dành một phần đáng kể thời gian của mình để đối phó với những người thu thập dữ liệu LLM tích cực và bị mất điện thường xuyên.
- Jonathan Corbet, một nhà phát triển và nhà điều hành FOSS nổi tiếng của LWN, đã thấy trang web của anh ta bị chậm lại bởi AI Scraper Bots.
- Kevin Fenzi, Sysadmin cho dự án Linux Fedora, đã phải chặn tất cả lưu lượng truy cập từ Brazil do hoạt động bot AI tích cực.
Venerandi đã đề cập với TechCrunch rằng anh ta biết về các dự án khác đã phải dùng đến các biện pháp cực đoan, như cấm tất cả các địa chỉ IP của Trung Quốc.
Một số nhà phát triển tin rằng chiến đấu trở lại với sự báo thù là phòng thủ tốt nhất. Một người dùng có tên Xyzal trên tin tức tin tức đã đề xuất điền robot.txt các trang bị cấm nội dung sai lệch về lợi ích của việc uống thuốc tẩy hoặc ảnh hưởng tích cực của bệnh sởi đối với hiệu suất phòng ngủ.
"Hãy nghĩ rằng chúng ta cần nhắm đến các bot để có được giá trị tiện ích _Negative_ từ việc truy cập bẫy của chúng tôi, không chỉ là giá trị bằng không", Xyzal giải thích.
Vào tháng 1, một nhà phát triển ẩn danh có tên là "Aaron" đã phát hành Nepenthes, một công cụ được thiết kế để bẫy các trình thu thập thông tin trong một mê cung của nội dung giả, mà người sáng tạo thừa nhận với ARS Technica là rất tích cực, nếu không hoàn toàn độc hại. Được đặt theo tên của một cây ăn thịt, Nepenthes nhằm nhằm nhằm và lãng phí các nguồn lực của các bot hành vi sai.
Tương tự, Cloudflare gần đây đã ra mắt AI Labyrinth, dự định làm chậm, nhầm lẫn và lãng phí tài nguyên của AI Crawlers mà bỏ qua các chỉ thị "không thu thập thông tin". Công cụ cung cấp cho các bot này nội dung không liên quan để bảo vệ dữ liệu trang web hợp pháp.
Devault từ Sourcehut nói với TechCrunch rằng trong khi Nepenthes đưa ra ý thức về công lý bằng cách nuôi dưỡng những điều vô nghĩa cho những người thu thập thông tin, Anubis đã được chứng minh là giải pháp hiệu quả hơn cho trang web của anh ta. Tuy nhiên, anh ta cũng đã đưa ra một lời cầu xin chân thành cho một giải pháp trực tiếp hơn: "Xin hãy ngừng hợp pháp hóa LLMS hoặc AI Image Generators hoặc GitHub Copilot hoặc bất kỳ thùng rác nào trong số này. Tôi đang cầu xin bạn ngừng sử dụng chúng, ngừng nói về chúng, ngừng làm những cái mới, chỉ dừng lại."
Với sự không thể hiện tại của điều này xảy ra, các nhà phát triển, đặc biệt là trong cộng đồng Foss, tiếp tục chiến đấu trở lại với sự khéo léo và một chút hài hước.
Bài viết liên quan
AI Comics: Khám phá Tiền tuyến của Sáng tạo
Ngành công nghiệp truyện tranh đang trải qua một sự thay đổi lớn, nhờ vào sự tích hợp của trí tuệ nhân tạo. Thời kỳ AI chỉ là giấc mơ xa vời đã qua; giờ đây nó là một công cụ thực tiễn mà các nhà sáng
Viggle AI: Cách mạng hóa VFX video với AI Motion Mixing
Cách mạng hóa Hiệu ứng Video với Viggle AIViggle AI đang định hình lại thế giới hiệu ứng video, giúp việc tạo ra các tác phẩm hình ảnh tiên tiến trở nên dễ tiếp cận hơn bao giờ hết. Thời kỳ của các th
In ấn theo yêu cầu với Nghệ thuật AI: Hướng dẫn từng bước cho Etsy
Bạn muốn bắt đầu kinh doanh thương mại điện tử nhưng ngại quản lý hàng tồn kho hoặc tự tạo sản phẩm? In ấn theo yêu cầu (POD) kết hợp với tạo nghệ thuật AI có thể là giải pháp cho một doanh nghiệp trự
Nhận xét (15)
0/200
TerryGonzález
00:00:00 GMT Ngày 18 tháng 4 năm 2025
This tool is a lifesaver for open source devs! It's hilarious how it fights back against those annoying AI crawlers. I love the creativity and the sense of justice it brings to the community. Maybe add more ways to customize the retaliation? 🤓
0
LucasWalker
00:00:00 GMT Ngày 24 tháng 4 năm 2025
オープンソース開発者にとってこのツールは救世主です!AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓
0
RogerPerez
00:00:00 GMT Ngày 18 tháng 4 năm 2025
오픈 소스 개발자들에게 이 도구는 구세주예요! AI 크롤러에 대한 반격이 재미있고, 창의성과 정의감이 커뮤니티에 퍼지는 게 좋습니다. 커스터마이즈할 수 있는 기능이 더 늘어나면 좋겠어요🤓
0
HenryTurner
00:00:00 GMT Ngày 21 tháng 4 năm 2025
Este ferramenta é um salva-vidas para desenvolvedores de código aberto! É hilário como ela luta contra esses irritantes rastreadores de AI. Adoro a criatividade e o senso de justiça que traz para a comunidade. Talvez adicionar mais maneiras de personalizar a retaliação? 🤓
0
MarkRoberts
00:00:00 GMT Ngày 23 tháng 4 năm 2025
¡Esta herramienta es un salvavidas para los desarrolladores de código abierto! Es hilarante cómo lucha contra esos molestos rastreadores de IA. Me encanta la creatividad y el sentido de justicia que trae a la comunidad. ¿Quizás añadir más formas de personalizar la retaliación? 🤓
0
FredGreen
00:00:00 GMT Ngày 17 tháng 4 năm 2025
This tool is a lifesaver for open source devs! It's hilarious how they're fighting back against those pesky AI crawlers. The creativity and retribution are top-notch, though sometimes the solutions can be a bit too complex for newbies. Still, it's a must-have for anyone in the field! 😂
0
Theo nhiều nhà phát triển phần mềm. Đáp lại, một số nhà phát triển đã thực hiện để chiến đấu trở lại với các chiến lược sáng tạo và thường gây cười.
Các nhà phát triển nguồn mở bị ảnh hưởng đặc biệt khó khăn bởi những bot lừa đảo này, như được ghi nhận bởi Niccolò Venerandi, nhà phát triển đằng sau Plasma máy tính để bàn Linux và blog Librenews. Các trang web Foss, nơi lưu trữ các dự án nguồn mở và miễn phí, tiếp xúc nhiều cơ sở hạ tầng của họ và thường có ít tài nguyên hơn các trang web thương mại.
Vấn đề trở nên trầm trọng hơn vì nhiều bot AI bỏ qua tệp robot.txt của giao thức loại trừ robot, có nghĩa là hướng dẫn các bot về những gì không được bò.
Trong một bài đăng trên blog sâu sắc vào tháng 1, nhà phát triển Foss XE IASO đã chia sẻ trải nghiệm đau khổ với Amazonbot, nơi bắn phá một trang web Git Server, gây ra sự cố mất điện của DDoS. Các máy chủ Git rất quan trọng để lưu trữ các dự án FOSS, cho phép bất cứ ai tải xuống và đóng góp cho mã.
IASO chỉ ra rằng bot đã bỏ qua tệp robot.txt, đã sử dụng các địa chỉ IP khác nhau và thậm chí được giả mạo như những người dùng khác. "Thật vô ích khi chặn các bot của AI Crawler vì họ nói dối, thay đổi tác nhân người dùng của họ, sử dụng địa chỉ IP dân cư làm proxy, v.v."
"Họ sẽ cạo trang web của bạn cho đến khi nó rơi xuống, và sau đó họ sẽ cạo nó thêm một số nữa. Họ sẽ nhấp vào mọi liên kết trên mọi liên kết trên mỗi liên kết, xem cùng một trang và hơn và hơn.
Nhập Thần của Graves
Để chống lại điều này, IoSo đã phát triển một công cụ thông minh gọi là Anubis. Nó hoạt động như một proxy ngược yêu cầu kiểm tra bằng chứng trước khi cho phép các yêu cầu đến máy chủ Git. Điều này có hiệu quả chặn các bot trong khi cho phép các trình duyệt do con người đi qua.
Tên của công cụ, Anubis, rút ra từ thần thoại Ai Cập, nơi Anubis là Thiên Chúa dẫn người chết đến phán xét. "Anubis đã cân nhắc tâm hồn bạn (trái tim) và nếu nó nặng hơn một chiếc lông vũ, trái tim bạn đã ăn và bạn, như, Mega đã chết," IoSo giải thích với TechCrunch. Trải qua thành công thử thách được tổ chức với một bức ảnh anime dễ thương của Anubis, trong khi các yêu cầu của bot bị từ chối.
Dự án, được chia sẻ trên GitHub vào ngày 19 tháng 3, nhanh chóng đạt được lực kéo, tích lũy 2.000 sao, 20 người đóng góp và 39 dĩa chỉ trong vài ngày.
Báo thù như phòng thủ
Việc áp dụng rộng rãi Anubis chỉ ra rằng các cuộc đấu tranh của IoSo còn lâu mới bị cô lập. Venerandi kể lại rất nhiều kinh nghiệm tương tự:
- Drew Devault, người sáng lập và CEO của Sourcehut, dành một phần đáng kể thời gian của mình để đối phó với những người thu thập dữ liệu LLM tích cực và bị mất điện thường xuyên.
- Jonathan Corbet, một nhà phát triển và nhà điều hành FOSS nổi tiếng của LWN, đã thấy trang web của anh ta bị chậm lại bởi AI Scraper Bots.
- Kevin Fenzi, Sysadmin cho dự án Linux Fedora, đã phải chặn tất cả lưu lượng truy cập từ Brazil do hoạt động bot AI tích cực.
Venerandi đã đề cập với TechCrunch rằng anh ta biết về các dự án khác đã phải dùng đến các biện pháp cực đoan, như cấm tất cả các địa chỉ IP của Trung Quốc.
Một số nhà phát triển tin rằng chiến đấu trở lại với sự báo thù là phòng thủ tốt nhất. Một người dùng có tên Xyzal trên tin tức tin tức đã đề xuất điền robot.txt các trang bị cấm nội dung sai lệch về lợi ích của việc uống thuốc tẩy hoặc ảnh hưởng tích cực của bệnh sởi đối với hiệu suất phòng ngủ.
"Hãy nghĩ rằng chúng ta cần nhắm đến các bot để có được giá trị tiện ích _Negative_ từ việc truy cập bẫy của chúng tôi, không chỉ là giá trị bằng không", Xyzal giải thích.
Vào tháng 1, một nhà phát triển ẩn danh có tên là "Aaron" đã phát hành Nepenthes, một công cụ được thiết kế để bẫy các trình thu thập thông tin trong một mê cung của nội dung giả, mà người sáng tạo thừa nhận với ARS Technica là rất tích cực, nếu không hoàn toàn độc hại. Được đặt theo tên của một cây ăn thịt, Nepenthes nhằm nhằm nhằm và lãng phí các nguồn lực của các bot hành vi sai.
Tương tự, Cloudflare gần đây đã ra mắt AI Labyrinth, dự định làm chậm, nhầm lẫn và lãng phí tài nguyên của AI Crawlers mà bỏ qua các chỉ thị "không thu thập thông tin". Công cụ cung cấp cho các bot này nội dung không liên quan để bảo vệ dữ liệu trang web hợp pháp.
Devault từ Sourcehut nói với TechCrunch rằng trong khi Nepenthes đưa ra ý thức về công lý bằng cách nuôi dưỡng những điều vô nghĩa cho những người thu thập thông tin, Anubis đã được chứng minh là giải pháp hiệu quả hơn cho trang web của anh ta. Tuy nhiên, anh ta cũng đã đưa ra một lời cầu xin chân thành cho một giải pháp trực tiếp hơn: "Xin hãy ngừng hợp pháp hóa LLMS hoặc AI Image Generators hoặc GitHub Copilot hoặc bất kỳ thùng rác nào trong số này. Tôi đang cầu xin bạn ngừng sử dụng chúng, ngừng nói về chúng, ngừng làm những cái mới, chỉ dừng lại."
Với sự không thể hiện tại của điều này xảy ra, các nhà phát triển, đặc biệt là trong cộng đồng Foss, tiếp tục chiến đấu trở lại với sự khéo léo và một chút hài hước.




This tool is a lifesaver for open source devs! It's hilarious how it fights back against those annoying AI crawlers. I love the creativity and the sense of justice it brings to the community. Maybe add more ways to customize the retaliation? 🤓




オープンソース開発者にとってこのツールは救世主です!AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓




오픈 소스 개발자들에게 이 도구는 구세주예요! AI 크롤러에 대한 반격이 재미있고, 창의성과 정의감이 커뮤니티에 퍼지는 게 좋습니다. 커스터마이즈할 수 있는 기능이 더 늘어나면 좋겠어요🤓




Este ferramenta é um salva-vidas para desenvolvedores de código aberto! É hilário como ela luta contra esses irritantes rastreadores de AI. Adoro a criatividade e o senso de justiça que traz para a comunidade. Talvez adicionar mais maneiras de personalizar a retaliação? 🤓




¡Esta herramienta es un salvavidas para los desarrolladores de código abierto! Es hilarante cómo lucha contra esos molestos rastreadores de IA. Me encanta la creatividad y el sentido de justicia que trae a la comunidad. ¿Quizás añadir más formas de personalizar la retaliación? 🤓




This tool is a lifesaver for open source devs! It's hilarious how they're fighting back against those pesky AI crawlers. The creativity and retribution are top-notch, though sometimes the solutions can be a bit too complex for newbies. Still, it's a must-have for anyone in the field! 😂












