Los desarrolladores de código abierto combaten los rastreadores de IA con ingenio y retribución
Los bots de rastreo web de IA se han convertido en la pesadilla de internet, según muchos desarrolladores de software. En respuesta, algunos desarrolladores han optado por contraatacar con estrategias creativas y a menudo divertidas.
Los desarrolladores de código abierto son especialmente afectados por estos bots rebeldes, como señaló Niccolò Venerandi, el desarrollador detrás del escritorio Linux Plasma y el blog LibreNews. Los sitios FOSS, que alojan proyectos gratuitos y de código abierto, exponen más de su infraestructura y generalmente tienen menos recursos que los sitios comerciales.
El problema se agrava porque muchos bots de IA ignoran el archivo robot.txt del Protocolo de Exclusión de Robots, que está destinado a instruir a los bots sobre qué no rastrear.
En una publicación de blog conmovedora en enero, el desarrollador de FOSS Xe Iaso compartió una experiencia angustiante con AmazonBot, que bombardeó un sitio web de servidor Git, causando interrupciones por DDoS. Los servidores Git son cruciales para alojar proyectos FOSS, permitiendo a cualquiera descargar y contribuir al código.
Iaso señaló que el bot ignoró el archivo robot.txt, usó diferentes direcciones IP e incluso se hizo pasar por otros usuarios. "Es inútil bloquear los bots de rastreo de IA porque mienten, cambian su agente de usuario, usan direcciones IP residenciales como proxies, y más," lamentó Iaso.
"Rastrearán tu sitio hasta que colapse, y luego lo rastrearán aún más. Harán clic en cada enlace de cada enlace de cada enlace, viendo las mismas páginas una y otra vez. Algunos incluso harán clic en el mismo enlace varias veces en el mismo segundo," escribió el desarrollador.
Entra el Dios de las Tumbas
Para combatir esto, Iaso desarrolló una herramienta ingeniosa llamada Anubis. Actúa como un proxy inverso que requiere una verificación de prueba de trabajo antes de permitir que las solicitudes lleguen al servidor Git. Esto bloquea eficazmente a los bots mientras permite el paso de navegadores operados por humanos.
El nombre de la herramienta, Anubis, proviene de la mitología egipcia, donde Anubis es el dios que guía a los muertos al juicio. "Anubis pesaba tu alma (corazón) y si era más pesada que una pluma, tu corazón era devorado y, como, morías mega," explicó Iaso a TechCrunch. Superar el desafío con éxito se celebra con una linda imagen de anime de Anubis, mientras que las solicitudes de bots son denegadas.
El proyecto, compartido en GitHub el 19 de marzo, rápidamente ganó popularidad, acumulando 2,000 estrellas, 20 colaboradores y 39 forks en solo unos días.

La Venganza como Defensa
La amplia adopción de Anubis indica que las luchas de Iaso están lejos de ser aisladas. Venerandi relató numerosas experiencias similares:
- Drew DeVault, fundador y CEO de SourceHut, dedica una parte significativa de su tiempo a lidiar con rastreadores LLM agresivos y sufre frecuentes interrupciones.
- Jonathan Corbet, un destacado desarrollador de FOSS y operador de LWN, ha visto su sitio ralentizado por bots de raspado de IA.
- Kevin Fenzi, administrador de sistemas del proyecto Linux Fedora, tuvo que bloquear todo el tráfico desde Brasil debido a la actividad agresiva de bots de IA.
Venerandi mencionó a TechCrunch que conoce otros proyectos que han tenido que recurrir a medidas extremas, como prohibir todas las direcciones IP de China.
Algunos desarrolladores creen que contraatacar con venganza es la mejor defensa. Un usuario llamado xyzal en Hacker News sugirió llenar las páginas prohibidas de robot.txt con contenido engañoso sobre los beneficios de beber lejía o los efectos positivos del sarampión en el rendimiento en el dormitorio.
"Creo que debemos apuntar a que los bots obtengan un valor de utilidad _negativo_ al visitar nuestras trampas, no solo un valor cero," explicó xyzal.
En enero, un desarrollador anónimo llamado "Aaron" lanzó Nepenthes, una herramienta diseñada para atrapar a los rastreadores en un laberinto de contenido falso, que el creador admitió a Ars Technica era agresiva, si no francamente maliciosa. Nombrada en honor a una planta carnívora, Nepenthes busca confundir y desperdiciar los recursos de los bots que se portan mal.
De manera similar, Cloudflare lanzó recientemente AI Labyrinth, destinado a ralentizar, confundir y desperdiciar los recursos de los rastreadores de IA que ignoran las directivas de "no rastrear". La herramienta alimenta a estos bots con contenido irrelevante para proteger los datos legítimos del sitio web.
DeVault de SourceHut dijo a TechCrunch que, aunque Nepenthes ofrece una sensación de justicia al alimentar con disparates a los rastreadores, Anubis ha demostrado ser la solución más efectiva para su sitio. Sin embargo, también hizo un ruego sincero por una solución más directa: "Por favor, dejen de legitimar los LLM o los generadores de imágenes de IA o GitHub Copilot o cualquiera de estas basuras. Les ruego que dejen de usarlos, dejen de hablar de ellos, dejen de crear nuevos, solo paren."
Dada la improbabilidad de que esto ocurra, los desarrolladores, particularmente en la comunidad FOSS, continúan contraatacando con ingenio y un toque de humor.
Artículo relacionado
Optimización de la Selección de Modelos de IA para un Rendimiento en el Mundo Real
Las empresas deben asegurarse de que los modelos de IA que impulsan sus aplicaciones funcionen eficazmente en escenarios del mundo real. Predecir estos escenarios puede ser desafiante, lo que complica
El viaje de Vader: De la tragedia a la redención en Star Wars
Darth Vader, símbolo de temor y tiranía, es uno de los antagonistas más icónicos del cine. Sin embargo, tras la máscara yace una historia de tragedia, pérdida y redención final. Este artículo explora
Antigua ingeniera de OpenAI comparte perspectivas sobre la cultura de la empresa y su rápido crecimiento
Hace tres semanas, Calvin French-Owen, un ingeniero que contribuyó a un producto clave de OpenAI, dejó la empresa.Recientemente compartió una publicación de blog convincente detallando su año en OpenA
comentario (17)
0/200
OliverPhillips
4 de agosto de 2025 13:00:59 GMT+02:00
Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄
0
KennethJones
1 de agosto de 2025 08:47:41 GMT+02:00
Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎
0
LucasWalker
24 de abril de 2025 05:52:46 GMT+02:00
オープンソース開発者にとってこのツールは救世主です!AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓
0
MarkRoberts
22 de abril de 2025 21:57:03 GMT+02:00
¡Esta herramienta es un salvavidas para los desarrolladores de código abierto! Es hilarante cómo lucha contra esos molestos rastreadores de IA. Me encanta la creatividad y el sentido de justicia que trae a la comunidad. ¿Quizás añadir más formas de personalizar la retaliación? 🤓
0
HenryTurner
20 de abril de 2025 21:08:40 GMT+02:00
Este ferramenta é um salva-vidas para desenvolvedores de código aberto! É hilário como ela luta contra esses irritantes rastreadores de AI. Adoro a criatividade e o senso de justiça que traz para a comunidade. Talvez adicionar mais maneiras de personalizar a retaliação? 🤓
0
RogerPerez
18 de abril de 2025 10:15:18 GMT+02:00
오픈 소스 개발자들에게 이 도구는 구세주예요! AI 크롤러에 대한 반격이 재미있고, 창의성과 정의감이 커뮤니티에 퍼지는 게 좋습니다. 커스터마이즈할 수 있는 기능이 더 늘어나면 좋겠어요🤓
0
Los bots de rastreo web de IA se han convertido en la pesadilla de internet, según muchos desarrolladores de software. En respuesta, algunos desarrolladores han optado por contraatacar con estrategias creativas y a menudo divertidas.
Los desarrolladores de código abierto son especialmente afectados por estos bots rebeldes, como señaló Niccolò Venerandi, el desarrollador detrás del escritorio Linux Plasma y el blog LibreNews. Los sitios FOSS, que alojan proyectos gratuitos y de código abierto, exponen más de su infraestructura y generalmente tienen menos recursos que los sitios comerciales.
El problema se agrava porque muchos bots de IA ignoran el archivo robot.txt del Protocolo de Exclusión de Robots, que está destinado a instruir a los bots sobre qué no rastrear.
En una publicación de blog conmovedora en enero, el desarrollador de FOSS Xe Iaso compartió una experiencia angustiante con AmazonBot, que bombardeó un sitio web de servidor Git, causando interrupciones por DDoS. Los servidores Git son cruciales para alojar proyectos FOSS, permitiendo a cualquiera descargar y contribuir al código.
Iaso señaló que el bot ignoró el archivo robot.txt, usó diferentes direcciones IP e incluso se hizo pasar por otros usuarios. "Es inútil bloquear los bots de rastreo de IA porque mienten, cambian su agente de usuario, usan direcciones IP residenciales como proxies, y más," lamentó Iaso.
"Rastrearán tu sitio hasta que colapse, y luego lo rastrearán aún más. Harán clic en cada enlace de cada enlace de cada enlace, viendo las mismas páginas una y otra vez. Algunos incluso harán clic en el mismo enlace varias veces en el mismo segundo," escribió el desarrollador.
Entra el Dios de las Tumbas
Para combatir esto, Iaso desarrolló una herramienta ingeniosa llamada Anubis. Actúa como un proxy inverso que requiere una verificación de prueba de trabajo antes de permitir que las solicitudes lleguen al servidor Git. Esto bloquea eficazmente a los bots mientras permite el paso de navegadores operados por humanos.
El nombre de la herramienta, Anubis, proviene de la mitología egipcia, donde Anubis es el dios que guía a los muertos al juicio. "Anubis pesaba tu alma (corazón) y si era más pesada que una pluma, tu corazón era devorado y, como, morías mega," explicó Iaso a TechCrunch. Superar el desafío con éxito se celebra con una linda imagen de anime de Anubis, mientras que las solicitudes de bots son denegadas.
El proyecto, compartido en GitHub el 19 de marzo, rápidamente ganó popularidad, acumulando 2,000 estrellas, 20 colaboradores y 39 forks en solo unos días.
La Venganza como Defensa
La amplia adopción de Anubis indica que las luchas de Iaso están lejos de ser aisladas. Venerandi relató numerosas experiencias similares:
- Drew DeVault, fundador y CEO de SourceHut, dedica una parte significativa de su tiempo a lidiar con rastreadores LLM agresivos y sufre frecuentes interrupciones.
- Jonathan Corbet, un destacado desarrollador de FOSS y operador de LWN, ha visto su sitio ralentizado por bots de raspado de IA.
- Kevin Fenzi, administrador de sistemas del proyecto Linux Fedora, tuvo que bloquear todo el tráfico desde Brasil debido a la actividad agresiva de bots de IA.
Venerandi mencionó a TechCrunch que conoce otros proyectos que han tenido que recurrir a medidas extremas, como prohibir todas las direcciones IP de China.
Algunos desarrolladores creen que contraatacar con venganza es la mejor defensa. Un usuario llamado xyzal en Hacker News sugirió llenar las páginas prohibidas de robot.txt con contenido engañoso sobre los beneficios de beber lejía o los efectos positivos del sarampión en el rendimiento en el dormitorio.
"Creo que debemos apuntar a que los bots obtengan un valor de utilidad _negativo_ al visitar nuestras trampas, no solo un valor cero," explicó xyzal.
En enero, un desarrollador anónimo llamado "Aaron" lanzó Nepenthes, una herramienta diseñada para atrapar a los rastreadores en un laberinto de contenido falso, que el creador admitió a Ars Technica era agresiva, si no francamente maliciosa. Nombrada en honor a una planta carnívora, Nepenthes busca confundir y desperdiciar los recursos de los bots que se portan mal.
De manera similar, Cloudflare lanzó recientemente AI Labyrinth, destinado a ralentizar, confundir y desperdiciar los recursos de los rastreadores de IA que ignoran las directivas de "no rastrear". La herramienta alimenta a estos bots con contenido irrelevante para proteger los datos legítimos del sitio web.
DeVault de SourceHut dijo a TechCrunch que, aunque Nepenthes ofrece una sensación de justicia al alimentar con disparates a los rastreadores, Anubis ha demostrado ser la solución más efectiva para su sitio. Sin embargo, también hizo un ruego sincero por una solución más directa: "Por favor, dejen de legitimar los LLM o los generadores de imágenes de IA o GitHub Copilot o cualquiera de estas basuras. Les ruego que dejen de usarlos, dejen de hablar de ellos, dejen de crear nuevos, solo paren."
Dada la improbabilidad de que esto ocurra, los desarrolladores, particularmente en la comunidad FOSS, continúan contraatacando con ingenio y un toque de humor.




Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄




Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎




オープンソース開発者にとってこのツールは救世主です!AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓




¡Esta herramienta es un salvavidas para los desarrolladores de código abierto! Es hilarante cómo lucha contra esos molestos rastreadores de IA. Me encanta la creatividad y el sentido de justicia que trae a la comunidad. ¿Quizás añadir más formas de personalizar la retaliación? 🤓




Este ferramenta é um salva-vidas para desenvolvedores de código aberto! É hilário como ela luta contra esses irritantes rastreadores de AI. Adoro a criatividade e o senso de justiça que traz para a comunidade. Talvez adicionar mais maneiras de personalizar a retaliação? 🤓




오픈 소스 개발자들에게 이 도구는 구세주예요! AI 크롤러에 대한 반격이 재미있고, 창의성과 정의감이 커뮤니티에 퍼지는 게 좋습니다. 커스터마이즈할 수 있는 기능이 더 늘어나면 좋겠어요🤓












