開源開發人員用獨創性和報應來對抗AI爬行者
AI網路爬蟲機器人已成為網路的禍害,許多軟體開發者均持此觀點。為因應此問題,一些開發者開始以創意且往往有趣的策略進行反擊。
開源軟體開發者尤其深受這些流氓機器人的影響,正如Linux桌面環境Plasma及LibreNews部落格的開發者Niccolò Venerandi所指出的。FOSS網站,作為免費開源項目的托管平台,暴露了更多的基礎架構,且通常比商業網站擁有更少的資源。
問題因許多AI機器人無視Robots Exclusion Protocol的robot.txt檔案而加劇,該檔案本應指示機器人哪些內容不可爬取。
在一篇於一月發表的感人部落格文章中,FOSS開發者Xe Iaso分享了與AmazonBot的痛苦經歷,該機器人對Git伺服器網站進行了猛烈攻擊,導致DDoS中斷。Git伺服器對於托管FOSS項目至關重要,允許任何人下載並貢獻程式碼。
Iaso指出,該機器人無視robot.txt檔案,使用不同的IP位址,甚至偽裝成其他用戶。Iaso感嘆道:「試圖阻止AI爬蟲機器人是徒勞的,因為它們會撒謊、變更用戶代理、使用住宅IP位址作為代理等等。」
該開發者寫道:「它們會不斷刮取你的網站直到它崩潰,然後繼續刮取。它們會點擊每個連結上的每個連結,無休止地重複瀏覽相同的頁面。有些甚至在同一秒內多次點擊同一連結。」
墓地之神的登場
為對抗此問題,Iaso開發了一個名為Anubis的巧妙工具。它作為反向代理,要求在允許請求到達Git伺服器之前進行工作量證明檢查。這有效阻擋了機器人,同時允許人類操作的瀏覽器通過。
該工具名為Anubis,源自埃及神話中引導死者接受審判的神祇。Iaso向TechCrunch解釋:「Anubis會稱量你的靈魂(心臟),如果它比羽毛還重,你的心臟會被吞噬,你將徹底死亡。」成功通過挑戰的用戶會看到一張可愛的Anubis動漫圖片,而機器人請求則被拒絕。
該項目於3月19日在GitHub上分享,迅速獲得關注,僅數天內便累積了2000顆星、20位貢獻者及39個分支。

以復仇作為防禦
Anubis的廣泛採用顯示Iaso的困境並非個案。Venerandi回顧了許多類似的經歷:
- SourceHut的創始人兼執行長Drew DeVault花費大量時間處理激進的LLM爬蟲,並頻繁遭遇中斷。
- 知名FOSS開發者及LWN運營者Jonathan Corbet發現其網站因AI刮取機器人而變慢。
- Linux Fedora項目的系統管理員Kevin Fenzi因激進的AI機器人活動,不得不封鎖來自巴西的所有流量。
Venerandi向TechCrunch提到,他知道其他項目不得不採取極端措施,例如禁止所有中國IP位址。
一些開發者認為,以復仇的方式反擊是最佳防禦。Hacker News上名為xyzal的用戶建議在robot.txt禁止的頁面中填充誤導性內容,例如宣揚飲用漂白水的好處或麻疹對臥室表現的正面影響。
xyzal解釋道:「我們需要讓機器人從訪問我們的陷阱中獲得負面的效用價值,而不僅僅是零價值。」
一月,一位匿名開發者「Aaron」發布了Nepenthes,一款旨在將爬蟲困在虛假內容迷宮中的工具,其創作者向Ars Technica承認這是激進的,甚至近乎惡意。Nepenthes以肉食性植物命名,旨在迷惑並浪費不良機器人的資源。
同樣地,Cloudflare最近推出了AI Labyrinth,旨在減緩、迷惑並浪費無視「禁止爬取」指令的AI爬蟲的資源。該工具向這些機器人提供無關內容,以保護合法網站數據。
SourceHut的DeVault向TechCrunch表示,雖然Nepenthes通過向爬蟲提供無意義內容帶來正義感,但Anubis對其網站證明更為有效。然而,他也真誠地呼籲更直接的解決方案:「請停止為LLM、AI圖像生成器或GitHub Copilot等垃圾產品正名。我懇求你們停止使用它們,停止討論它們,停止創造新的產品,就此停下。」
鑑於這不太可能實現,特別是FOSS社群的開發者們繼續以創意和一絲幽默進行反擊。
相關文章
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
OpenAI 悄悄修改章程,使解僱阿爾特曼變得更困難
繼 2023 年的「政變式」事件後,OpenAI 透過更新公司章程,進一步鞏固了對執行長山姆·奧特曼(Sam Altman)的保障。近期公布的法院文件顯示,奧特曼的職位如今已穩如磐石,面對外部干預或內部董事會試圖罷免他的行動,其職位設有大幅提高的防線。在伊隆·馬斯克(Elon Musk)對 OpenAI 提起的訴訟中,一名專家證人指出,這些變更是在公司轉型為營利模式的過程中悄然進行的。與先前僅需簡
相關專題推薦
評論 (20)
0/500
Interesting read! It's wild how AI crawlers are basically the new internet pests. I've seen some devs use fake data traps or even redirect bots to weird sites 😂. But honestly, should we be worried about a future where only big companies can afford to protect their content? Feels like a digital arms race.
¡Qué creatividad la de estos desarrolladores! 😃 Me preocupa que esta 'lucha' contra los crawlers de IA consuma tanto tiempo y energía que podría desviarlos de lo realmente importante: programar. Ojalá hubiera soluciones más estandarizadas, porque esto parece una carrera armamentística sin fin.
These AI crawlers are like uninvited guests at a party, munching on all the free code! 😅 Devs fighting back with clever traps is pure genius—love the creativity!
Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄
Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎
AI網路爬蟲機器人已成為網路的禍害,許多軟體開發者均持此觀點。為因應此問題,一些開發者開始以創意且往往有趣的策略進行反擊。
開源軟體開發者尤其深受這些流氓機器人的影響,正如Linux桌面環境Plasma及LibreNews部落格的開發者Niccolò Venerandi所指出的。FOSS網站,作為免費開源項目的托管平台,暴露了更多的基礎架構,且通常比商業網站擁有更少的資源。
問題因許多AI機器人無視Robots Exclusion Protocol的robot.txt檔案而加劇,該檔案本應指示機器人哪些內容不可爬取。
在一篇於一月發表的感人部落格文章中,FOSS開發者Xe Iaso分享了與AmazonBot的痛苦經歷,該機器人對Git伺服器網站進行了猛烈攻擊,導致DDoS中斷。Git伺服器對於托管FOSS項目至關重要,允許任何人下載並貢獻程式碼。
Iaso指出,該機器人無視robot.txt檔案,使用不同的IP位址,甚至偽裝成其他用戶。Iaso感嘆道:「試圖阻止AI爬蟲機器人是徒勞的,因為它們會撒謊、變更用戶代理、使用住宅IP位址作為代理等等。」
該開發者寫道:「它們會不斷刮取你的網站直到它崩潰,然後繼續刮取。它們會點擊每個連結上的每個連結,無休止地重複瀏覽相同的頁面。有些甚至在同一秒內多次點擊同一連結。」
墓地之神的登場
為對抗此問題,Iaso開發了一個名為Anubis的巧妙工具。它作為反向代理,要求在允許請求到達Git伺服器之前進行工作量證明檢查。這有效阻擋了機器人,同時允許人類操作的瀏覽器通過。
該工具名為Anubis,源自埃及神話中引導死者接受審判的神祇。Iaso向TechCrunch解釋:「Anubis會稱量你的靈魂(心臟),如果它比羽毛還重,你的心臟會被吞噬,你將徹底死亡。」成功通過挑戰的用戶會看到一張可愛的Anubis動漫圖片,而機器人請求則被拒絕。
該項目於3月19日在GitHub上分享,迅速獲得關注,僅數天內便累積了2000顆星、20位貢獻者及39個分支。

以復仇作為防禦
Anubis的廣泛採用顯示Iaso的困境並非個案。Venerandi回顧了許多類似的經歷:
- SourceHut的創始人兼執行長Drew DeVault花費大量時間處理激進的LLM爬蟲,並頻繁遭遇中斷。
- 知名FOSS開發者及LWN運營者Jonathan Corbet發現其網站因AI刮取機器人而變慢。
- Linux Fedora項目的系統管理員Kevin Fenzi因激進的AI機器人活動,不得不封鎖來自巴西的所有流量。
Venerandi向TechCrunch提到,他知道其他項目不得不採取極端措施,例如禁止所有中國IP位址。
一些開發者認為,以復仇的方式反擊是最佳防禦。Hacker News上名為xyzal的用戶建議在robot.txt禁止的頁面中填充誤導性內容,例如宣揚飲用漂白水的好處或麻疹對臥室表現的正面影響。
xyzal解釋道:「我們需要讓機器人從訪問我們的陷阱中獲得負面的效用價值,而不僅僅是零價值。」
一月,一位匿名開發者「Aaron」發布了Nepenthes,一款旨在將爬蟲困在虛假內容迷宮中的工具,其創作者向Ars Technica承認這是激進的,甚至近乎惡意。Nepenthes以肉食性植物命名,旨在迷惑並浪費不良機器人的資源。
同樣地,Cloudflare最近推出了AI Labyrinth,旨在減緩、迷惑並浪費無視「禁止爬取」指令的AI爬蟲的資源。該工具向這些機器人提供無關內容,以保護合法網站數據。
SourceHut的DeVault向TechCrunch表示,雖然Nepenthes通過向爬蟲提供無意義內容帶來正義感,但Anubis對其網站證明更為有效。然而,他也真誠地呼籲更直接的解決方案:「請停止為LLM、AI圖像生成器或GitHub Copilot等垃圾產品正名。我懇求你們停止使用它們,停止討論它們,停止創造新的產品,就此停下。」
鑑於這不太可能實現,特別是FOSS社群的開發者們繼續以創意和一絲幽默進行反擊。
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
OpenAI 悄悄修改章程,使解僱阿爾特曼變得更困難
繼 2023 年的「政變式」事件後,OpenAI 透過更新公司章程,進一步鞏固了對執行長山姆·奧特曼(Sam Altman)的保障。近期公布的法院文件顯示,奧特曼的職位如今已穩如磐石,面對外部干預或內部董事會試圖罷免他的行動,其職位設有大幅提高的防線。在伊隆·馬斯克(Elon Musk)對 OpenAI 提起的訴訟中,一名專家證人指出,這些變更是在公司轉型為營利模式的過程中悄然進行的。與先前僅需簡
Interesting read! It's wild how AI crawlers are basically the new internet pests. I've seen some devs use fake data traps or even redirect bots to weird sites 😂. But honestly, should we be worried about a future where only big companies can afford to protect their content? Feels like a digital arms race.
¡Qué creatividad la de estos desarrolladores! 😃 Me preocupa que esta 'lucha' contra los crawlers de IA consuma tanto tiempo y energía que podría desviarlos de lo realmente importante: programar. Ojalá hubiera soluciones más estandarizadas, porque esto parece una carrera armamentística sin fin.
These AI crawlers are like uninvited guests at a party, munching on all the free code! 😅 Devs fighting back with clever traps is pure genius—love the creativity!
Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄
Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎





首頁






