开源开发人员用独创性和报应来对抗AI爬行者
人工智能网络爬虫已成为许多软件开发者的噩梦。据称,一些开发者开始以创意且常常有趣的策略进行反击。
开源开发者尤其受到这些恶意爬虫的严重影响,正如Linux桌面Plasma和博客LibreNews的开发者Niccolò Venerandi所指出的。托管免费和开源项目的FOSS网站暴露了更多基础设施,且通常比商业网站资源更少。
问题因许多人工智能爬虫忽略Robots Exclusion Protocol的robot.txt文件而加剧,该文件旨在指示爬虫哪些内容不可抓取。
在一篇1月发表的感人博客文章中,FOSS开发者Xe Iaso分享了与AmazonBot的痛苦经历,该爬虫轰炸了一个Git服务器网站,导致DDoS中断。Git服务器对托管FOSS项目至关重要,允许任何人下载并贡献代码。
Iaso指出,该爬虫无视robot.txt文件,使用不同的IP地址,甚至伪装成其他用户。“阻止人工智能爬虫是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理等等,”Iaso感叹道。
“它们会抓取你的网站直到它崩溃,然后继续抓取。它们会点击每个链接的每个链接的每个链接,反复查看相同的页面。有些甚至会在同一秒内多次点击同一个链接,”这位开发者写道。
墓地之神的出现
为应对这一问题,Iaso开发了一个巧妙的工具Anubis。它作为一个反向代理,要求在允许请求到达Git服务器之前进行工作量证明检查。这有效地阻止了爬虫,同时允许人类操作的浏览器通过。
该工具以埃及神话中的Anubis命名,Anubis是将死者引领到审判的神。Iaso向TechCrunch解释说:“Anubis会称量你的灵魂(心脏),如果它比羽毛重,你的心脏会被吃掉,你就会彻底死亡。”成功通过挑战会得到一张可爱的Anubis动漫图片,而爬虫请求则被拒绝。
该项目于3月19日在GitHub上分享,迅速获得关注,仅几天就积累了2000个星标、20个贡献者和39个分叉。

以报复为防御
Anubis的广泛采用表明Iaso的困境并非孤立。Venerandi讲述了许多类似的经历:
- SourceHut的创始人兼首席执行官Drew DeVault花费大量时间应对激进的LLM爬虫,并遭受频繁的中断。
- 著名FOSS开发者兼LWN运营商Jonathan Corbet看到他的网站因人工智能爬虫而变慢。
- Linux Fedora项目的系统管理员Kevin Fenzi因激进的人工智能爬虫活动不得不屏蔽来自巴西的所有流量。
Venerandi向TechCrunch提到,他知道其他项目不得不采取极端措施,比如禁止所有中国IP地址。
一些开发者认为以报复的方式进行防御是最佳策略。Hacker News上的一位名叫xyzal的用户建议在robot.txt禁止的页面中填充误导性内容,比如宣扬喝漂白水的好处或麻疹对卧室表现的积极影响。
“我们需要让爬虫访问我们的陷阱时获得负效用价值,而不仅仅是零价值,”xyzal解释说。
1月,一位匿名开发者“Aaron”发布了Nepenthes,这是一个旨在将爬虫困在虚假内容迷宫中的工具,其创作者向Ars Technica承认该工具激进,甚至有些恶意。以一种食肉植物命名的Nepenthes旨在迷惑并浪费不良爬虫的资源。
同样,Cloudflare最近推出了AI Labyrinth,旨在减缓、迷惑并浪费忽略“不可抓取”指令的人工智能爬虫的资源。该工具向这些爬虫提供无关内容,以保护合法网站数据。
SourceHut的DeVault向TechCrunch表示,虽然Nepenthes通过向爬虫提供无意义内容带来一种正义感,但Anubis已被证明是他的网站更有效的解决方案。然而,他也发出了一个恳切的请求:“请停止合法化LLM、人工智能图像生成器或GitHub Copilot等垃圾。我恳求你们停止使用它们,停止讨论它们,停止创造新的,只是停止。”
鉴于这种情况不太可能发生,开发者,尤其是FOSS社区的开发者,继续以聪明才智和一丝幽默进行反击。
相关文章
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势?
埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度
在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解
Meta AI 现已在 Facebook Marketplace 上回复买家消息
Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
相关专题推荐
评论 (20)
0/500
Interesting read! It's wild how AI crawlers are basically the new internet pests. I've seen some devs use fake data traps or even redirect bots to weird sites 😂. But honestly, should we be worried about a future where only big companies can afford to protect their content? Feels like a digital arms race.
¡Qué creatividad la de estos desarrolladores! 😃 Me preocupa que esta 'lucha' contra los crawlers de IA consuma tanto tiempo y energía que podría desviarlos de lo realmente importante: programar. Ojalá hubiera soluciones más estandarizadas, porque esto parece una carrera armamentística sin fin.
These AI crawlers are like uninvited guests at a party, munching on all the free code! 😅 Devs fighting back with clever traps is pure genius—love the creativity!
Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄
Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎
人工智能网络爬虫已成为许多软件开发者的噩梦。据称,一些开发者开始以创意且常常有趣的策略进行反击。
开源开发者尤其受到这些恶意爬虫的严重影响,正如Linux桌面Plasma和博客LibreNews的开发者Niccolò Venerandi所指出的。托管免费和开源项目的FOSS网站暴露了更多基础设施,且通常比商业网站资源更少。
问题因许多人工智能爬虫忽略Robots Exclusion Protocol的robot.txt文件而加剧,该文件旨在指示爬虫哪些内容不可抓取。
在一篇1月发表的感人博客文章中,FOSS开发者Xe Iaso分享了与AmazonBot的痛苦经历,该爬虫轰炸了一个Git服务器网站,导致DDoS中断。Git服务器对托管FOSS项目至关重要,允许任何人下载并贡献代码。
Iaso指出,该爬虫无视robot.txt文件,使用不同的IP地址,甚至伪装成其他用户。“阻止人工智能爬虫是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理等等,”Iaso感叹道。
“它们会抓取你的网站直到它崩溃,然后继续抓取。它们会点击每个链接的每个链接的每个链接,反复查看相同的页面。有些甚至会在同一秒内多次点击同一个链接,”这位开发者写道。
墓地之神的出现
为应对这一问题,Iaso开发了一个巧妙的工具Anubis。它作为一个反向代理,要求在允许请求到达Git服务器之前进行工作量证明检查。这有效地阻止了爬虫,同时允许人类操作的浏览器通过。
该工具以埃及神话中的Anubis命名,Anubis是将死者引领到审判的神。Iaso向TechCrunch解释说:“Anubis会称量你的灵魂(心脏),如果它比羽毛重,你的心脏会被吃掉,你就会彻底死亡。”成功通过挑战会得到一张可爱的Anubis动漫图片,而爬虫请求则被拒绝。
该项目于3月19日在GitHub上分享,迅速获得关注,仅几天就积累了2000个星标、20个贡献者和39个分叉。

以报复为防御
Anubis的广泛采用表明Iaso的困境并非孤立。Venerandi讲述了许多类似的经历:
- SourceHut的创始人兼首席执行官Drew DeVault花费大量时间应对激进的LLM爬虫,并遭受频繁的中断。
- 著名FOSS开发者兼LWN运营商Jonathan Corbet看到他的网站因人工智能爬虫而变慢。
- Linux Fedora项目的系统管理员Kevin Fenzi因激进的人工智能爬虫活动不得不屏蔽来自巴西的所有流量。
Venerandi向TechCrunch提到,他知道其他项目不得不采取极端措施,比如禁止所有中国IP地址。
一些开发者认为以报复的方式进行防御是最佳策略。Hacker News上的一位名叫xyzal的用户建议在robot.txt禁止的页面中填充误导性内容,比如宣扬喝漂白水的好处或麻疹对卧室表现的积极影响。
“我们需要让爬虫访问我们的陷阱时获得负效用价值,而不仅仅是零价值,”xyzal解释说。
1月,一位匿名开发者“Aaron”发布了Nepenthes,这是一个旨在将爬虫困在虚假内容迷宫中的工具,其创作者向Ars Technica承认该工具激进,甚至有些恶意。以一种食肉植物命名的Nepenthes旨在迷惑并浪费不良爬虫的资源。
同样,Cloudflare最近推出了AI Labyrinth,旨在减缓、迷惑并浪费忽略“不可抓取”指令的人工智能爬虫的资源。该工具向这些爬虫提供无关内容,以保护合法网站数据。
SourceHut的DeVault向TechCrunch表示,虽然Nepenthes通过向爬虫提供无意义内容带来一种正义感,但Anubis已被证明是他的网站更有效的解决方案。然而,他也发出了一个恳切的请求:“请停止合法化LLM、人工智能图像生成器或GitHub Copilot等垃圾。我恳求你们停止使用它们,停止讨论它们,停止创造新的,只是停止。”
鉴于这种情况不太可能发生,开发者,尤其是FOSS社区的开发者,继续以聪明才智和一丝幽默进行反击。
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势?
埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度
在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解
Meta AI 现已在 Facebook Marketplace 上回复买家消息
Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
Interesting read! It's wild how AI crawlers are basically the new internet pests. I've seen some devs use fake data traps or even redirect bots to weird sites 😂. But honestly, should we be worried about a future where only big companies can afford to protect their content? Feels like a digital arms race.
¡Qué creatividad la de estos desarrolladores! 😃 Me preocupa que esta 'lucha' contra los crawlers de IA consuma tanto tiempo y energía que podría desviarlos de lo realmente importante: programar. Ojalá hubiera soluciones más estandarizadas, porque esto parece una carrera armamentística sin fin.
These AI crawlers are like uninvited guests at a party, munching on all the free code! 😅 Devs fighting back with clever traps is pure genius—love the creativity!
Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄
Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎





首页






