开源开发人员用独创性和报应来对抗AI爬行者
人工智能网络爬虫已成为许多软件开发者的噩梦。据称,一些开发者开始以创意且常常有趣的策略进行反击。
开源开发者尤其受到这些恶意爬虫的严重影响,正如Linux桌面Plasma和博客LibreNews的开发者Niccolò Venerandi所指出的。托管免费和开源项目的FOSS网站暴露了更多基础设施,且通常比商业网站资源更少。
问题因许多人工智能爬虫忽略Robots Exclusion Protocol的robot.txt文件而加剧,该文件旨在指示爬虫哪些内容不可抓取。
在一篇1月发表的感人博客文章中,FOSS开发者Xe Iaso分享了与AmazonBot的痛苦经历,该爬虫轰炸了一个Git服务器网站,导致DDoS中断。Git服务器对托管FOSS项目至关重要,允许任何人下载并贡献代码。
Iaso指出,该爬虫无视robot.txt文件,使用不同的IP地址,甚至伪装成其他用户。“阻止人工智能爬虫是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理等等,”Iaso感叹道。
“它们会抓取你的网站直到它崩溃,然后继续抓取。它们会点击每个链接的每个链接的每个链接,反复查看相同的页面。有些甚至会在同一秒内多次点击同一个链接,”这位开发者写道。
墓地之神的出现
为应对这一问题,Iaso开发了一个巧妙的工具Anubis。它作为一个反向代理,要求在允许请求到达Git服务器之前进行工作量证明检查。这有效地阻止了爬虫,同时允许人类操作的浏览器通过。
该工具以埃及神话中的Anubis命名,Anubis是将死者引领到审判的神。Iaso向TechCrunch解释说:“Anubis会称量你的灵魂(心脏),如果它比羽毛重,你的心脏会被吃掉,你就会彻底死亡。”成功通过挑战会得到一张可爱的Anubis动漫图片,而爬虫请求则被拒绝。
该项目于3月19日在GitHub上分享,迅速获得关注,仅几天就积累了2000个星标、20个贡献者和39个分叉。

以报复为防御
Anubis的广泛采用表明Iaso的困境并非孤立。Venerandi讲述了许多类似的经历:
- SourceHut的创始人兼首席执行官Drew DeVault花费大量时间应对激进的LLM爬虫,并遭受频繁的中断。
- 著名FOSS开发者兼LWN运营商Jonathan Corbet看到他的网站因人工智能爬虫而变慢。
- Linux Fedora项目的系统管理员Kevin Fenzi因激进的人工智能爬虫活动不得不屏蔽来自巴西的所有流量。
Venerandi向TechCrunch提到,他知道其他项目不得不采取极端措施,比如禁止所有中国IP地址。
一些开发者认为以报复的方式进行防御是最佳策略。Hacker News上的一位名叫xyzal的用户建议在robot.txt禁止的页面中填充误导性内容,比如宣扬喝漂白水的好处或麻疹对卧室表现的积极影响。
“我们需要让爬虫访问我们的陷阱时获得负效用价值,而不仅仅是零价值,”xyzal解释说。
1月,一位匿名开发者“Aaron”发布了Nepenthes,这是一个旨在将爬虫困在虚假内容迷宫中的工具,其创作者向Ars Technica承认该工具激进,甚至有些恶意。以一种食肉植物命名的Nepenthes旨在迷惑并浪费不良爬虫的资源。
同样,Cloudflare最近推出了AI Labyrinth,旨在减缓、迷惑并浪费忽略“不可抓取”指令的人工智能爬虫的资源。该工具向这些爬虫提供无关内容,以保护合法网站数据。
SourceHut的DeVault向TechCrunch表示,虽然Nepenthes通过向爬虫提供无意义内容带来一种正义感,但Anubis已被证明是他的网站更有效的解决方案。然而,他也发出了一个恳切的请求:“请停止合法化LLM、人工智能图像生成器或GitHub Copilot等垃圾。我恳求你们停止使用它们,停止讨论它们,停止创造新的,只是停止。”
鉴于这种情况不太可能发生,开发者,尤其是FOSS社区的开发者,继续以聪明才智和一丝幽默进行反击。
相关文章
在怀疑论盛行的时代寻求信仰和目标
在科学探索和批判性思维盛行的现代,保持精神信仰常常让人感觉逆流而行。许多人努力调和永恒的信仰与当代的怀疑主义,使他们渴望更深刻的意义。这本书探讨了在疑虑重重的环境中如何培养信仰,为我们提供了锚定目标、培养持久精神韧性的实用智慧。要点在日益世俗化的世界中应对信仰挑战应对精神不确定性的建设性方法社区在维系信仰体系中的重要作用同情和服务如何重申精神目标平衡理性思考与直觉智慧在困难时期保持精神希望现代性的
ChatGPT 的工作原理:功能、应用和未来影响
人工智能的快速发展正在改变数字互动和通信。引领这一变革的是 ChatGPT,它是一种先进的对话式人工智能,为自然语言处理设定了新标准。本报告将深入探讨 ChatGPT 的运行方式、其在各行各业的开创性能力,以及它所引发的重要伦理讨论。了解这项技术如何重新定义人机交互。要点ChatGPT 由 OpenAI 开发,代表了对话式人工智能的一大进步。其复杂的深度学习架构可以生成非常类似人类的文本。实际应用
Salesforce 的 Transformer 模型指南:人工智能文本摘要解析
在信息过载成为常态的时代,人工智能驱动的文本摘要已成为从冗长文档中提取关键见解的不可或缺的工具。本综合指南研究了 Salesforce 的开创性人工智能摘要技术,向您展示如何使用极少的代码实现自己的复杂摘要器。我们将探索底层技术,介绍实际的实施步骤,并检查能证明其变革潜力的实际应用。主要亮点Salesforce 人工智能摘要器:利用尖端技术将冗长的文档转化为简洁的摘要转换器架构:了解驱动现代摘要工
评论 (18)
0/200
KennethMartin
2025-08-19 03:01:01
These AI crawlers are like uninvited guests at a party, munching on all the free code! 😅 Devs fighting back with clever traps is pure genius—love the creativity!
0
OliverPhillips
2025-08-04 19:00:59
Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄
0
KennethJones
2025-08-01 14:47:41
Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎
0
LucasWalker
2025-04-24 11:52:46
オープンソース開発者にとってこのツールは救世主です!AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓
0
MarkRoberts
2025-04-23 03:57:03
¡Esta herramienta es un salvavidas para los desarrolladores de código abierto! Es hilarante cómo lucha contra esos molestos rastreadores de IA. Me encanta la creatividad y el sentido de justicia que trae a la comunidad. ¿Quizás añadir más formas de personalizar la retaliación? 🤓
0
HenryTurner
2025-04-21 03:08:40
Este ferramenta é um salva-vidas para desenvolvedores de código aberto! É hilário como ela luta contra esses irritantes rastreadores de AI. Adoro a criatividade e o senso de justiça que traz para a comunidade. Talvez adicionar mais maneiras de personalizar a retaliação? 🤓
0
人工智能网络爬虫已成为许多软件开发者的噩梦。据称,一些开发者开始以创意且常常有趣的策略进行反击。
开源开发者尤其受到这些恶意爬虫的严重影响,正如Linux桌面Plasma和博客LibreNews的开发者Niccolò Venerandi所指出的。托管免费和开源项目的FOSS网站暴露了更多基础设施,且通常比商业网站资源更少。
问题因许多人工智能爬虫忽略Robots Exclusion Protocol的robot.txt文件而加剧,该文件旨在指示爬虫哪些内容不可抓取。
在一篇1月发表的感人博客文章中,FOSS开发者Xe Iaso分享了与AmazonBot的痛苦经历,该爬虫轰炸了一个Git服务器网站,导致DDoS中断。Git服务器对托管FOSS项目至关重要,允许任何人下载并贡献代码。
Iaso指出,该爬虫无视robot.txt文件,使用不同的IP地址,甚至伪装成其他用户。“阻止人工智能爬虫是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理等等,”Iaso感叹道。
“它们会抓取你的网站直到它崩溃,然后继续抓取。它们会点击每个链接的每个链接的每个链接,反复查看相同的页面。有些甚至会在同一秒内多次点击同一个链接,”这位开发者写道。
墓地之神的出现
为应对这一问题,Iaso开发了一个巧妙的工具Anubis。它作为一个反向代理,要求在允许请求到达Git服务器之前进行工作量证明检查。这有效地阻止了爬虫,同时允许人类操作的浏览器通过。
该工具以埃及神话中的Anubis命名,Anubis是将死者引领到审判的神。Iaso向TechCrunch解释说:“Anubis会称量你的灵魂(心脏),如果它比羽毛重,你的心脏会被吃掉,你就会彻底死亡。”成功通过挑战会得到一张可爱的Anubis动漫图片,而爬虫请求则被拒绝。
该项目于3月19日在GitHub上分享,迅速获得关注,仅几天就积累了2000个星标、20个贡献者和39个分叉。
以报复为防御
Anubis的广泛采用表明Iaso的困境并非孤立。Venerandi讲述了许多类似的经历:
- SourceHut的创始人兼首席执行官Drew DeVault花费大量时间应对激进的LLM爬虫,并遭受频繁的中断。
- 著名FOSS开发者兼LWN运营商Jonathan Corbet看到他的网站因人工智能爬虫而变慢。
- Linux Fedora项目的系统管理员Kevin Fenzi因激进的人工智能爬虫活动不得不屏蔽来自巴西的所有流量。
Venerandi向TechCrunch提到,他知道其他项目不得不采取极端措施,比如禁止所有中国IP地址。
一些开发者认为以报复的方式进行防御是最佳策略。Hacker News上的一位名叫xyzal的用户建议在robot.txt禁止的页面中填充误导性内容,比如宣扬喝漂白水的好处或麻疹对卧室表现的积极影响。
“我们需要让爬虫访问我们的陷阱时获得负效用价值,而不仅仅是零价值,”xyzal解释说。
1月,一位匿名开发者“Aaron”发布了Nepenthes,这是一个旨在将爬虫困在虚假内容迷宫中的工具,其创作者向Ars Technica承认该工具激进,甚至有些恶意。以一种食肉植物命名的Nepenthes旨在迷惑并浪费不良爬虫的资源。
同样,Cloudflare最近推出了AI Labyrinth,旨在减缓、迷惑并浪费忽略“不可抓取”指令的人工智能爬虫的资源。该工具向这些爬虫提供无关内容,以保护合法网站数据。
SourceHut的DeVault向TechCrunch表示,虽然Nepenthes通过向爬虫提供无意义内容带来一种正义感,但Anubis已被证明是他的网站更有效的解决方案。然而,他也发出了一个恳切的请求:“请停止合法化LLM、人工智能图像生成器或GitHub Copilot等垃圾。我恳求你们停止使用它们,停止讨论它们,停止创造新的,只是停止。”
鉴于这种情况不太可能发生,开发者,尤其是FOSS社区的开发者,继续以聪明才智和一丝幽默进行反击。




These AI crawlers are like uninvited guests at a party, munching on all the free code! 😅 Devs fighting back with clever traps is pure genius—love the creativity!




Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄




Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎




オープンソース開発者にとってこのツールは救世主です!AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓




¡Esta herramienta es un salvavidas para los desarrolladores de código abierto! Es hilarante cómo lucha contra esos molestos rastreadores de IA. Me encanta la creatividad y el sentido de justicia que trae a la comunidad. ¿Quizás añadir más formas de personalizar la retaliación? 🤓




Este ferramenta é um salva-vidas para desenvolvedores de código aberto! É hilário como ela luta contra esses irritantes rastreadores de AI. Adoro a criatividade e o senso de justiça que traz para a comunidade. Talvez adicionar mais maneiras de personalizar a retaliação? 🤓












