Hogar
Los desarrolladores de código abierto combaten los rastreadores de IA con ingenio y retribución
Los bots de rastreo web de IA se han convertido en la pesadilla de internet, según muchos desarrolladores de software. En respuesta, algunos desarrolladores han optado por contraatacar con estrategias creativas y a menudo divertidas.
Los desarrolladores de código abierto son especialmente afectados por estos bots rebeldes, como señaló Niccolò Venerandi, el desarrollador detrás del escritorio Linux Plasma y el blog LibreNews. Los sitios FOSS, que alojan proyectos gratuitos y de código abierto, exponen más de su infraestructura y generalmente tienen menos recursos que los sitios comerciales.
El problema se agrava porque muchos bots de IA ignoran el archivo robot.txt del Protocolo de Exclusión de Robots, que está destinado a instruir a los bots sobre qué no rastrear.
En una publicación de blog conmovedora en enero, el desarrollador de FOSS Xe Iaso compartió una experiencia angustiante con AmazonBot, que bombardeó un sitio web de servidor Git, causando interrupciones por DDoS. Los servidores Git son cruciales para alojar proyectos FOSS, permitiendo a cualquiera descargar y contribuir al código.
Iaso señaló que el bot ignoró el archivo robot.txt, usó diferentes direcciones IP e incluso se hizo pasar por otros usuarios. "Es inútil bloquear los bots de rastreo de IA porque mienten, cambian su agente de usuario, usan direcciones IP residenciales como proxies, y más," lamentó Iaso.
"Rastrearán tu sitio hasta que colapse, y luego lo rastrearán aún más. Harán clic en cada enlace de cada enlace de cada enlace, viendo las mismas páginas una y otra vez. Algunos incluso harán clic en el mismo enlace varias veces en el mismo segundo," escribió el desarrollador.
Entra el Dios de las Tumbas
Para combatir esto, Iaso desarrolló una herramienta ingeniosa llamada Anubis. Actúa como un proxy inverso que requiere una verificación de prueba de trabajo antes de permitir que las solicitudes lleguen al servidor Git. Esto bloquea eficazmente a los bots mientras permite el paso de navegadores operados por humanos.
El nombre de la herramienta, Anubis, proviene de la mitología egipcia, donde Anubis es el dios que guía a los muertos al juicio. "Anubis pesaba tu alma (corazón) y si era más pesada que una pluma, tu corazón era devorado y, como, morías mega," explicó Iaso a TechCrunch. Superar el desafío con éxito se celebra con una linda imagen de anime de Anubis, mientras que las solicitudes de bots son denegadas.
El proyecto, compartido en GitHub el 19 de marzo, rápidamente ganó popularidad, acumulando 2,000 estrellas, 20 colaboradores y 39 forks en solo unos días.

La Venganza como Defensa
La amplia adopción de Anubis indica que las luchas de Iaso están lejos de ser aisladas. Venerandi relató numerosas experiencias similares:
- Drew DeVault, fundador y CEO de SourceHut, dedica una parte significativa de su tiempo a lidiar con rastreadores LLM agresivos y sufre frecuentes interrupciones.
- Jonathan Corbet, un destacado desarrollador de FOSS y operador de LWN, ha visto su sitio ralentizado por bots de raspado de IA.
- Kevin Fenzi, administrador de sistemas del proyecto Linux Fedora, tuvo que bloquear todo el tráfico desde Brasil debido a la actividad agresiva de bots de IA.
Venerandi mencionó a TechCrunch que conoce otros proyectos que han tenido que recurrir a medidas extremas, como prohibir todas las direcciones IP de China.
Algunos desarrolladores creen que contraatacar con venganza es la mejor defensa. Un usuario llamado xyzal en Hacker News sugirió llenar las páginas prohibidas de robot.txt con contenido engañoso sobre los beneficios de beber lejía o los efectos positivos del sarampión en el rendimiento en el dormitorio.
"Creo que debemos apuntar a que los bots obtengan un valor de utilidad _negativo_ al visitar nuestras trampas, no solo un valor cero," explicó xyzal.
En enero, un desarrollador anónimo llamado "Aaron" lanzó Nepenthes, una herramienta diseñada para atrapar a los rastreadores en un laberinto de contenido falso, que el creador admitió a Ars Technica era agresiva, si no francamente maliciosa. Nombrada en honor a una planta carnívora, Nepenthes busca confundir y desperdiciar los recursos de los bots que se portan mal.
De manera similar, Cloudflare lanzó recientemente AI Labyrinth, destinado a ralentizar, confundir y desperdiciar los recursos de los rastreadores de IA que ignoran las directivas de "no rastrear". La herramienta alimenta a estos bots con contenido irrelevante para proteger los datos legítimos del sitio web.
DeVault de SourceHut dijo a TechCrunch que, aunque Nepenthes ofrece una sensación de justicia al alimentar con disparates a los rastreadores, Anubis ha demostrado ser la solución más efectiva para su sitio. Sin embargo, también hizo un ruego sincero por una solución más directa: "Por favor, dejen de legitimar los LLM o los generadores de imágenes de IA o GitHub Copilot o cualquiera de estas basuras. Les ruego que dejen de usarlos, dejen de hablar de ellos, dejen de crear nuevos, solo paren."
Dada la improbabilidad de que esto ocurra, los desarrolladores, particularmente en la comunidad FOSS, continúan contraatacando con ingenio y un toque de humor.
Artículo relacionado
Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol?
Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca
OpenAI modifica en secreto sus estatutos para dificultar la destitución de Altman
Tras el incidente similar a un golpe de Estado ocurrido en 2023, OpenAI ha reforzado aún más las garantías de protección para su director ejecutivo, Sam Altman, mediante la actualización de sus estatu
Meta AI ya responde a los mensajes de los compradores en Facebook Marketplace
Facebook Marketplace presenta nuevas funciones de Meta AI, entre las que se incluyen respuestas automáticas a las consultas de los compradores, según anunció la empresa el jueves. La plataforma tambié
Recomendaciones de temas especiales relacionados
comentario (20)
0/500
Interesting read! It's wild how AI crawlers are basically the new internet pests. I've seen some devs use fake data traps or even redirect bots to weird sites 😂. But honestly, should we be worried about a future where only big companies can afford to protect their content? Feels like a digital arms race.
¡Qué creatividad la de estos desarrolladores! 😃 Me preocupa que esta 'lucha' contra los crawlers de IA consuma tanto tiempo y energía que podría desviarlos de lo realmente importante: programar. Ojalá hubiera soluciones más estandarizadas, porque esto parece una carrera armamentística sin fin.
These AI crawlers are like uninvited guests at a party, munching on all the free code! 😅 Devs fighting back with clever traps is pure genius—love the creativity!
Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄
Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎
Los bots de rastreo web de IA se han convertido en la pesadilla de internet, según muchos desarrolladores de software. En respuesta, algunos desarrolladores han optado por contraatacar con estrategias creativas y a menudo divertidas.
Los desarrolladores de código abierto son especialmente afectados por estos bots rebeldes, como señaló Niccolò Venerandi, el desarrollador detrás del escritorio Linux Plasma y el blog LibreNews. Los sitios FOSS, que alojan proyectos gratuitos y de código abierto, exponen más de su infraestructura y generalmente tienen menos recursos que los sitios comerciales.
El problema se agrava porque muchos bots de IA ignoran el archivo robot.txt del Protocolo de Exclusión de Robots, que está destinado a instruir a los bots sobre qué no rastrear.
En una publicación de blog conmovedora en enero, el desarrollador de FOSS Xe Iaso compartió una experiencia angustiante con AmazonBot, que bombardeó un sitio web de servidor Git, causando interrupciones por DDoS. Los servidores Git son cruciales para alojar proyectos FOSS, permitiendo a cualquiera descargar y contribuir al código.
Iaso señaló que el bot ignoró el archivo robot.txt, usó diferentes direcciones IP e incluso se hizo pasar por otros usuarios. "Es inútil bloquear los bots de rastreo de IA porque mienten, cambian su agente de usuario, usan direcciones IP residenciales como proxies, y más," lamentó Iaso.
"Rastrearán tu sitio hasta que colapse, y luego lo rastrearán aún más. Harán clic en cada enlace de cada enlace de cada enlace, viendo las mismas páginas una y otra vez. Algunos incluso harán clic en el mismo enlace varias veces en el mismo segundo," escribió el desarrollador.
Entra el Dios de las Tumbas
Para combatir esto, Iaso desarrolló una herramienta ingeniosa llamada Anubis. Actúa como un proxy inverso que requiere una verificación de prueba de trabajo antes de permitir que las solicitudes lleguen al servidor Git. Esto bloquea eficazmente a los bots mientras permite el paso de navegadores operados por humanos.
El nombre de la herramienta, Anubis, proviene de la mitología egipcia, donde Anubis es el dios que guía a los muertos al juicio. "Anubis pesaba tu alma (corazón) y si era más pesada que una pluma, tu corazón era devorado y, como, morías mega," explicó Iaso a TechCrunch. Superar el desafío con éxito se celebra con una linda imagen de anime de Anubis, mientras que las solicitudes de bots son denegadas.
El proyecto, compartido en GitHub el 19 de marzo, rápidamente ganó popularidad, acumulando 2,000 estrellas, 20 colaboradores y 39 forks en solo unos días.

La Venganza como Defensa
La amplia adopción de Anubis indica que las luchas de Iaso están lejos de ser aisladas. Venerandi relató numerosas experiencias similares:
- Drew DeVault, fundador y CEO de SourceHut, dedica una parte significativa de su tiempo a lidiar con rastreadores LLM agresivos y sufre frecuentes interrupciones.
- Jonathan Corbet, un destacado desarrollador de FOSS y operador de LWN, ha visto su sitio ralentizado por bots de raspado de IA.
- Kevin Fenzi, administrador de sistemas del proyecto Linux Fedora, tuvo que bloquear todo el tráfico desde Brasil debido a la actividad agresiva de bots de IA.
Venerandi mencionó a TechCrunch que conoce otros proyectos que han tenido que recurrir a medidas extremas, como prohibir todas las direcciones IP de China.
Algunos desarrolladores creen que contraatacar con venganza es la mejor defensa. Un usuario llamado xyzal en Hacker News sugirió llenar las páginas prohibidas de robot.txt con contenido engañoso sobre los beneficios de beber lejía o los efectos positivos del sarampión en el rendimiento en el dormitorio.
"Creo que debemos apuntar a que los bots obtengan un valor de utilidad _negativo_ al visitar nuestras trampas, no solo un valor cero," explicó xyzal.
En enero, un desarrollador anónimo llamado "Aaron" lanzó Nepenthes, una herramienta diseñada para atrapar a los rastreadores en un laberinto de contenido falso, que el creador admitió a Ars Technica era agresiva, si no francamente maliciosa. Nombrada en honor a una planta carnívora, Nepenthes busca confundir y desperdiciar los recursos de los bots que se portan mal.
De manera similar, Cloudflare lanzó recientemente AI Labyrinth, destinado a ralentizar, confundir y desperdiciar los recursos de los rastreadores de IA que ignoran las directivas de "no rastrear". La herramienta alimenta a estos bots con contenido irrelevante para proteger los datos legítimos del sitio web.
DeVault de SourceHut dijo a TechCrunch que, aunque Nepenthes ofrece una sensación de justicia al alimentar con disparates a los rastreadores, Anubis ha demostrado ser la solución más efectiva para su sitio. Sin embargo, también hizo un ruego sincero por una solución más directa: "Por favor, dejen de legitimar los LLM o los generadores de imágenes de IA o GitHub Copilot o cualquiera de estas basuras. Les ruego que dejen de usarlos, dejen de hablar de ellos, dejen de crear nuevos, solo paren."
Dada la improbabilidad de que esto ocurra, los desarrolladores, particularmente en la comunidad FOSS, continúan contraatacando con ingenio y un toque de humor.
Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol?
Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca
OpenAI modifica en secreto sus estatutos para dificultar la destitución de Altman
Tras el incidente similar a un golpe de Estado ocurrido en 2023, OpenAI ha reforzado aún más las garantías de protección para su director ejecutivo, Sam Altman, mediante la actualización de sus estatu
Meta AI ya responde a los mensajes de los compradores en Facebook Marketplace
Facebook Marketplace presenta nuevas funciones de Meta AI, entre las que se incluyen respuestas automáticas a las consultas de los compradores, según anunció la empresa el jueves. La plataforma tambié
Interesting read! It's wild how AI crawlers are basically the new internet pests. I've seen some devs use fake data traps or even redirect bots to weird sites 😂. But honestly, should we be worried about a future where only big companies can afford to protect their content? Feels like a digital arms race.
¡Qué creatividad la de estos desarrolladores! 😃 Me preocupa que esta 'lucha' contra los crawlers de IA consuma tanto tiempo y energía que podría desviarlos de lo realmente importante: programar. Ojalá hubiera soluciones más estandarizadas, porque esto parece una carrera armamentística sin fin.
These AI crawlers are like uninvited guests at a party, munching on all the free code! 😅 Devs fighting back with clever traps is pure genius—love the creativity!
Wow, open source devs are getting super creative fighting those AI crawlers! I love how they’re turning the tables with clever traps—kinda like digital pranksters. Makes me wonder how far this cat-and-mouse game will go! 😄
Super interesting read! It's wild how devs are outsmarting AI crawlers with such clever tricks. Gotta love the open-source community's creativity! 😎











