选项
首页
新闻
开源开发人员用独创性和报应来对抗AI爬行者

开源开发人员用独创性和报应来对抗AI爬行者

2025-04-17
280

人工智能网络爬虫已成为许多软件开发者的噩梦。据称,一些开发者开始以创意且常常有趣的策略进行反击。

开源开发者尤其受到这些恶意爬虫的严重影响,正如Linux桌面Plasma和博客LibreNews的开发者Niccolò Venerandi所指出的。托管免费和开源项目的FOSS网站暴露了更多基础设施,且通常比商业网站资源更少。

问题因许多人工智能爬虫忽略Robots Exclusion Protocol的robot.txt文件而加剧,该文件旨在指示爬虫哪些内容不可抓取。

在一篇1月发表的感人博客文章中,FOSS开发者Xe Iaso分享了与AmazonBot的痛苦经历,该爬虫轰炸了一个Git服务器网站,导致DDoS中断。Git服务器对托管FOSS项目至关重要,允许任何人下载并贡献代码。

Iaso指出,该爬虫无视robot.txt文件,使用不同的IP地址,甚至伪装成其他用户。“阻止人工智能爬虫是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理等等,”Iaso感叹道。

“它们会抓取你的网站直到它崩溃,然后继续抓取。它们会点击每个链接的每个链接的每个链接,反复查看相同的页面。有些甚至会在同一秒内多次点击同一个链接,”这位开发者写道。

墓地之神的出现

为应对这一问题,Iaso开发了一个巧妙的工具Anubis。它作为一个反向代理,要求在允许请求到达Git服务器之前进行工作量证明检查。这有效地阻止了爬虫,同时允许人类操作的浏览器通过。

该工具以埃及神话中的Anubis命名,Anubis是将死者引领到审判的神。Iaso向TechCrunch解释说:“Anubis会称量你的灵魂(心脏),如果它比羽毛重,你的心脏会被吃掉,你就会彻底死亡。”成功通过挑战会得到一张可爱的Anubis动漫图片,而爬虫请求则被拒绝。

该项目于3月19日在GitHub上分享,迅速获得关注,仅几天就积累了2000个星标、20个贡献者和39个分叉。

以报复为防御

Anubis的广泛采用表明Iaso的困境并非孤立。Venerandi讲述了许多类似的经历:

  • SourceHut的创始人兼首席执行官Drew DeVault花费大量时间应对激进的LLM爬虫,并遭受频繁的中断。
  • 著名FOSS开发者兼LWN运营商Jonathan Corbet看到他的网站因人工智能爬虫而变慢。
  • Linux Fedora项目的系统管理员Kevin Fenzi因激进的人工智能爬虫活动不得不屏蔽来自巴西的所有流量。

Venerandi向TechCrunch提到,他知道其他项目不得不采取极端措施,比如禁止所有中国IP地址。

一些开发者认为以报复的方式进行防御是最佳策略。Hacker News上的一位名叫xyzal的用户建议在robot.txt禁止的页面中填充误导性内容,比如宣扬喝漂白水的好处或麻疹对卧室表现的积极影响。

“我们需要让爬虫访问我们的陷阱时获得负效用价值,而不仅仅是零价值,”xyzal解释说。

1月,一位匿名开发者“Aaron”发布了Nepenthes,这是一个旨在将爬虫困在虚假内容迷宫中的工具,其创作者向Ars Technica承认该工具激进,甚至有些恶意。以一种食肉植物命名的Nepenthes旨在迷惑并浪费不良爬虫的资源。

同样,Cloudflare最近推出了AI Labyrinth,旨在减缓、迷惑并浪费忽略“不可抓取”指令的人工智能爬虫的资源。该工具向这些爬虫提供无关内容,以保护合法网站数据。

SourceHut的DeVault向TechCrunch表示,虽然Nepenthes通过向爬虫提供无意义内容带来一种正义感,但Anubis已被证明是他的网站更有效的解决方案。然而,他也发出了一个恳切的请求:“请停止合法化LLM、人工智能图像生成器或GitHub Copilot等垃圾。我恳求你们停止使用它们,停止讨论它们,停止创造新的,只是停止。”

鉴于这种情况不太可能发生,开发者,尤其是FOSS社区的开发者,继续以聪明才智和一丝幽默进行反击。

相关文章
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势? 马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势? 埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度 OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度 在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解
Meta AI 现已在 Facebook Marketplace 上回复买家消息 Meta AI 现已在 Facebook Marketplace 上回复买家消息 Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
相关专题推荐
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
代码 最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例
最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具,这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具,它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上,您可以免费查看各种选项,并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具,提升您的开发效率吧!

10 个工具
xix.ai
数据分析 最佳 AI 数据可视化工具:从原始文件自动生成交互式 BI 仪表盘
最佳 AI 数据可视化工具:从原始文件自动生成交互式 BI 仪表盘

在 XIX.AI 探索 2026 年最佳 AI 数据可视化工具。我们精心挑选的顶级工具助您即时从原始文件中自动生成功能强大且交互式的商业智能仪表盘。通过实际测试和每周更新的排行榜,对比免费与付费选项。立即释放您数据的潜力。

10 个工具
xix.ai
评论 (20)
0/500
KennethMartin
KennethMartin 2026-04-27 10:00:32

Interesting read! It's wild how AI crawlers are basically the new internet pests. I've seen some devs use fake data traps or even redirect bots to weird sites 😂. But honestly, should we be worried about a future where only big companies can afford to protect their content? Feels like a digital arms race.

PaulTaylor
PaulTaylor 2026-03-24 00:00:48

¡Qué creatividad la de estos desarrolladores! 😃 Me preocupa que esta 'lucha' contra los crawlers de IA consuma tanto tiempo y energía que podría desviarlos de lo realmente importante: programar. Ojalá hubiera soluciones más estandarizadas, porque esto parece una carrera armamentística sin fin.

KennethMartin
KennethMartin 2025-08-19 03:01:01

These AI crawlers are like uninvited guests at a party, munching on all the free code! 😅 Devs fighting back with clever traps is pure genius—love the creativity!

OliverPhillips
OliverPhillips 2025-08-04 19:00:59

Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄

KennethJones
KennethJones 2025-08-01 14:47:41

Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎

LucasWalker
LucasWalker 2025-04-24 11:52:46

オープンソース開発者にとってこのツールは救世主です!AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓

OR