开源开发人员用独创性和报应来对抗AI爬行者
人工智能网络爬虫已成为许多软件开发者的噩梦。据称,一些开发者开始以创意且常常有趣的策略进行反击。
开源开发者尤其受到这些恶意爬虫的严重影响,正如Linux桌面Plasma和博客LibreNews的开发者Niccolò Venerandi所指出的。托管免费和开源项目的FOSS网站暴露了更多基础设施,且通常比商业网站资源更少。
问题因许多人工智能爬虫忽略Robots Exclusion Protocol的robot.txt文件而加剧,该文件旨在指示爬虫哪些内容不可抓取。
在一篇1月发表的感人博客文章中,FOSS开发者Xe Iaso分享了与AmazonBot的痛苦经历,该爬虫轰炸了一个Git服务器网站,导致DDoS中断。Git服务器对托管FOSS项目至关重要,允许任何人下载并贡献代码。
Iaso指出,该爬虫无视robot.txt文件,使用不同的IP地址,甚至伪装成其他用户。“阻止人工智能爬虫是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理等等,”Iaso感叹道。
“它们会抓取你的网站直到它崩溃,然后继续抓取。它们会点击每个链接的每个链接的每个链接,反复查看相同的页面。有些甚至会在同一秒内多次点击同一个链接,”这位开发者写道。
墓地之神的出现
为应对这一问题,Iaso开发了一个巧妙的工具Anubis。它作为一个反向代理,要求在允许请求到达Git服务器之前进行工作量证明检查。这有效地阻止了爬虫,同时允许人类操作的浏览器通过。
该工具以埃及神话中的Anubis命名,Anubis是将死者引领到审判的神。Iaso向TechCrunch解释说:“Anubis会称量你的灵魂(心脏),如果它比羽毛重,你的心脏会被吃掉,你就会彻底死亡。”成功通过挑战会得到一张可爱的Anubis动漫图片,而爬虫请求则被拒绝。
该项目于3月19日在GitHub上分享,迅速获得关注,仅几天就积累了2000个星标、20个贡献者和39个分叉。

以报复为防御
Anubis的广泛采用表明Iaso的困境并非孤立。Venerandi讲述了许多类似的经历:
- SourceHut的创始人兼首席执行官Drew DeVault花费大量时间应对激进的LLM爬虫,并遭受频繁的中断。
- 著名FOSS开发者兼LWN运营商Jonathan Corbet看到他的网站因人工智能爬虫而变慢。
- Linux Fedora项目的系统管理员Kevin Fenzi因激进的人工智能爬虫活动不得不屏蔽来自巴西的所有流量。
Venerandi向TechCrunch提到,他知道其他项目不得不采取极端措施,比如禁止所有中国IP地址。
一些开发者认为以报复的方式进行防御是最佳策略。Hacker News上的一位名叫xyzal的用户建议在robot.txt禁止的页面中填充误导性内容,比如宣扬喝漂白水的好处或麻疹对卧室表现的积极影响。
“我们需要让爬虫访问我们的陷阱时获得负效用价值,而不仅仅是零价值,”xyzal解释说。
1月,一位匿名开发者“Aaron”发布了Nepenthes,这是一个旨在将爬虫困在虚假内容迷宫中的工具,其创作者向Ars Technica承认该工具激进,甚至有些恶意。以一种食肉植物命名的Nepenthes旨在迷惑并浪费不良爬虫的资源。
同样,Cloudflare最近推出了AI Labyrinth,旨在减缓、迷惑并浪费忽略“不可抓取”指令的人工智能爬虫的资源。该工具向这些爬虫提供无关内容,以保护合法网站数据。
SourceHut的DeVault向TechCrunch表示,虽然Nepenthes通过向爬虫提供无意义内容带来一种正义感,但Anubis已被证明是他的网站更有效的解决方案。然而,他也发出了一个恳切的请求:“请停止合法化LLM、人工智能图像生成器或GitHub Copilot等垃圾。我恳求你们停止使用它们,停止讨论它们,停止创造新的,只是停止。”
鉴于这种情况不太可能发生,开发者,尤其是FOSS社区的开发者,继续以聪明才智和一丝幽默进行反击。
相关文章
优化AI模型选择以实现现实世界性能
企业必须确保其驱动应用的AI模型在现实世界场景中有效运行。预测这些场景可能具有挑战性,使评估复杂化。更新后的RewardBench 2基准为组织提供了更清晰的模型实际性能洞察。艾伦人工智能研究所(Ai2)推出了RewardBench 2,这是其RewardBench基准的增强版,旨在全面评估模型性能以及与企业目标的契合度。Ai2开发了RewardBench,包含分类任务,通过推理时计算和下游训练评
维德的旅程:从《星球大战》中的悲剧到救赎
达斯·维德,恐惧与暴政的象征,是电影中最具标志性的反派之一。然而,在面具之下隐藏着悲剧、失去和最终救赎的故事。本文探讨了安纳金·天行者转变为达斯·维德的过程,分析了《星球大战》系列中定义他道路的关键时刻、情感和选择。关键要点安纳金·天行者的早年和绝地训练受到情感挣扎和深厚依恋的塑造。他对失去亲人的恐惧和对控制的渴望使他落入帕尔帕廷皇帝的掌控。穆斯塔法之战给他留下了严重的身体和情感创伤,确立了他作为
前OpenAI工程师分享公司文化与快速增长的见解
三周前,为OpenAI关键产品做出贡献的工程师Calvin French-Owen离开公司。他最近发表了一篇引人入胜的博客,详细描述了在OpenAI的一年,包括开发Codex的紧张努力,Codex是一个与Cursor和Anthropic的Claude Code竞争的编码代理。French-Owen澄清,他的离开并非因内部冲突,而是源于回归创业生活的愿望。他之前共同创立了Segment,一家2020
评论 (17)
0/200
OliverPhillips
2025-08-04 19:00:59
Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄
0
KennethJones
2025-08-01 14:47:41
Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎
0
LucasWalker
2025-04-24 11:52:46
オープンソース開発者にとってこのツールは救世主です!AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓
0
MarkRoberts
2025-04-23 03:57:03
¡Esta herramienta es un salvavidas para los desarrolladores de código abierto! Es hilarante cómo lucha contra esos molestos rastreadores de IA. Me encanta la creatividad y el sentido de justicia que trae a la comunidad. ¿Quizás añadir más formas de personalizar la retaliación? 🤓
0
HenryTurner
2025-04-21 03:08:40
Este ferramenta é um salva-vidas para desenvolvedores de código aberto! É hilário como ela luta contra esses irritantes rastreadores de AI. Adoro a criatividade e o senso de justiça que traz para a comunidade. Talvez adicionar mais maneiras de personalizar a retaliação? 🤓
0
RogerPerez
2025-04-18 16:15:18
오픈 소스 개발자들에게 이 도구는 구세주예요! AI 크롤러에 대한 반격이 재미있고, 창의성과 정의감이 커뮤니티에 퍼지는 게 좋습니다. 커스터마이즈할 수 있는 기능이 더 늘어나면 좋겠어요🤓
0
人工智能网络爬虫已成为许多软件开发者的噩梦。据称,一些开发者开始以创意且常常有趣的策略进行反击。
开源开发者尤其受到这些恶意爬虫的严重影响,正如Linux桌面Plasma和博客LibreNews的开发者Niccolò Venerandi所指出的。托管免费和开源项目的FOSS网站暴露了更多基础设施,且通常比商业网站资源更少。
问题因许多人工智能爬虫忽略Robots Exclusion Protocol的robot.txt文件而加剧,该文件旨在指示爬虫哪些内容不可抓取。
在一篇1月发表的感人博客文章中,FOSS开发者Xe Iaso分享了与AmazonBot的痛苦经历,该爬虫轰炸了一个Git服务器网站,导致DDoS中断。Git服务器对托管FOSS项目至关重要,允许任何人下载并贡献代码。
Iaso指出,该爬虫无视robot.txt文件,使用不同的IP地址,甚至伪装成其他用户。“阻止人工智能爬虫是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理等等,”Iaso感叹道。
“它们会抓取你的网站直到它崩溃,然后继续抓取。它们会点击每个链接的每个链接的每个链接,反复查看相同的页面。有些甚至会在同一秒内多次点击同一个链接,”这位开发者写道。
墓地之神的出现
为应对这一问题,Iaso开发了一个巧妙的工具Anubis。它作为一个反向代理,要求在允许请求到达Git服务器之前进行工作量证明检查。这有效地阻止了爬虫,同时允许人类操作的浏览器通过。
该工具以埃及神话中的Anubis命名,Anubis是将死者引领到审判的神。Iaso向TechCrunch解释说:“Anubis会称量你的灵魂(心脏),如果它比羽毛重,你的心脏会被吃掉,你就会彻底死亡。”成功通过挑战会得到一张可爱的Anubis动漫图片,而爬虫请求则被拒绝。
该项目于3月19日在GitHub上分享,迅速获得关注,仅几天就积累了2000个星标、20个贡献者和39个分叉。
以报复为防御
Anubis的广泛采用表明Iaso的困境并非孤立。Venerandi讲述了许多类似的经历:
- SourceHut的创始人兼首席执行官Drew DeVault花费大量时间应对激进的LLM爬虫,并遭受频繁的中断。
- 著名FOSS开发者兼LWN运营商Jonathan Corbet看到他的网站因人工智能爬虫而变慢。
- Linux Fedora项目的系统管理员Kevin Fenzi因激进的人工智能爬虫活动不得不屏蔽来自巴西的所有流量。
Venerandi向TechCrunch提到,他知道其他项目不得不采取极端措施,比如禁止所有中国IP地址。
一些开发者认为以报复的方式进行防御是最佳策略。Hacker News上的一位名叫xyzal的用户建议在robot.txt禁止的页面中填充误导性内容,比如宣扬喝漂白水的好处或麻疹对卧室表现的积极影响。
“我们需要让爬虫访问我们的陷阱时获得负效用价值,而不仅仅是零价值,”xyzal解释说。
1月,一位匿名开发者“Aaron”发布了Nepenthes,这是一个旨在将爬虫困在虚假内容迷宫中的工具,其创作者向Ars Technica承认该工具激进,甚至有些恶意。以一种食肉植物命名的Nepenthes旨在迷惑并浪费不良爬虫的资源。
同样,Cloudflare最近推出了AI Labyrinth,旨在减缓、迷惑并浪费忽略“不可抓取”指令的人工智能爬虫的资源。该工具向这些爬虫提供无关内容,以保护合法网站数据。
SourceHut的DeVault向TechCrunch表示,虽然Nepenthes通过向爬虫提供无意义内容带来一种正义感,但Anubis已被证明是他的网站更有效的解决方案。然而,他也发出了一个恳切的请求:“请停止合法化LLM、人工智能图像生成器或GitHub Copilot等垃圾。我恳求你们停止使用它们,停止讨论它们,停止创造新的,只是停止。”
鉴于这种情况不太可能发生,开发者,尤其是FOSS社区的开发者,继续以聪明才智和一丝幽默进行反击。




Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄




Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎




オープンソース開発者にとってこのツールは救世主です!AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓




¡Esta herramienta es un salvavidas para los desarrolladores de código abierto! Es hilarante cómo lucha contra esos molestos rastreadores de IA. Me encanta la creatividad y el sentido de justicia que trae a la comunidad. ¿Quizás añadir más formas de personalizar la retaliación? 🤓




Este ferramenta é um salva-vidas para desenvolvedores de código aberto! É hilário como ela luta contra esses irritantes rastreadores de AI. Adoro a criatividade e o senso de justiça que traz para a comunidade. Talvez adicionar mais maneiras de personalizar a retaliação? 🤓




오픈 소스 개발자들에게 이 도구는 구세주예요! AI 크롤러에 대한 반격이 재미있고, 창의성과 정의감이 커뮤니티에 퍼지는 게 좋습니다. 커스터마이즈할 수 있는 기능이 더 늘어나면 좋겠어요🤓












