opción
Hogar
Noticias
Los desarrolladores de código abierto combaten los rastreadores de IA con ingenio y retribución

Los desarrolladores de código abierto combaten los rastreadores de IA con ingenio y retribución

17 de abril de 2025
150

Los bots de avance web de IA se han convertido en la ruina de Internet, según muchos desarrolladores de software. En respuesta, algunos desarrolladores se han vuelto a luchar con estrategias creativas y a menudo divertidas.

Los desarrolladores de código abierto se ven especialmente difíciles por estos bots deshonestos, como lo señalan Niccolò Venerandi, el desarrollador detrás del Linux Desktop Plasma y el blog LibreNews. Los sitios de FOSS, que organizan proyectos de código libre y de código abierto, exponen más de su infraestructura y generalmente tienen menos recursos que los sitios comerciales.

El problema se exacerba porque muchos bots de IA ignoran el archivo Robot.txt del protocolo de exclusión de Robots, que está destinado a instruir a los bots sobre qué no rastrear.

En una conmovedora publicación de blog en enero, el desarrollador de Foss Xe IASO compartió una experiencia angustiosa con Amazonbot, que bombardeó un sitio web del servidor GIT, causando interrupciones DDoS. Los servidores GIT son cruciales para alojar proyectos FOSS, lo que permite que cualquiera descargue y contribuya al código.

IASO señaló que el BOT ignoró el archivo robot.txt, usó diferentes direcciones IP e incluso se ha disfrazado de otros usuarios. "Es inútil bloquear los bots de IA Crawler porque mienten, cambian a su agente de usuarios, usan direcciones IP residenciales como proxies y más", se lamentó IASO.

"Rascarán su sitio hasta que se caiga, y luego lo rasparán un poco más. Harán clic en cada enlace en cada enlace de cada enlace, viendo las mismas páginas una y otra vez. Algunos de ellos incluso harán clic en el mismo enlace varias veces en el mismo segundo", escribió el desarrollador.

Entra el dios de las tumbas

Para combatir esto, IASO desarrolló una herramienta inteligente llamada Anubis. Actúa como un proxy inverso que requiere una verificación de prueba de trabajo antes de permitir que las solicitudes lleguen al servidor GIT. Esto bloquea efectivamente los bots al tiempo que permite que los navegadores operados por humanos pasen.

El nombre de la herramienta, Anubis, se basa en la mitología egipcia, donde Anubis es el Dios que lleva a los muertos al juicio. "Anubis pesó tu alma (corazón) y si era más pesado que una pluma, tu corazón se comió y tú, como, mega murió", explicó Iaso a TechCrunch. El paso con éxito que el desafío se celebra con una linda imagen de anime de Anubis, mientras que se niegan las solicitudes de BOT.

El proyecto, compartido en GitHub el 19 de marzo, rápidamente ganó tracción, acumulando 2.000 estrellas, 20 contribuyentes y 39 tenedores en solo unos días.

Venganza como defensa

La adopción generalizada de Anubis indica que las luchas de IASO están lejos de ser aisladas. Venerandi contó numerosas experiencias similares:

  • Drew Devault, fundador y CEO de SourceHut, pasa una parte significativa de su tiempo tratando con agresivos rastreadores de LLM y sufre interrupciones frecuentes.
  • Jonathan Corbet, un destacado desarrollador y operador de Foss de LWN, ha visto su sitio ralentizado por los bots de Ai Scraper.
  • Kevin Fenzi, Sysadmin para el Proyecto Fedora de Linux, tuvo que bloquear todo el tráfico de Brasil debido a la agresiva actividad de BOT de IA.

Venerandi mencionó a TechCrunch que conoce de otros proyectos que han tenido que recurrir a medidas extremas, como prohibir todas las direcciones IP chinas.

Algunos desarrolladores creen que luchar con la venganza es la mejor defensa. Un usuario llamado Xyzal en Hacker News sugirió llenar las páginas de robot.

"Creo que debemos apuntar a los bots para obtener el valor de utilidad _Egative_ de visitar nuestras trampas, no solo un valor cero", explicó Xyzal.

En enero, un desarrollador anónimo llamado "Aaron" lanzó Nepenthes, una herramienta diseñada para atrapar rastreadores en un laberinto de contenido falso, que el creador admitió a ARS Technica era agresivo, si no absolutamente malicioso. El nombre de una planta carnívora, Nepenthes tiene como objetivo confundir y desperdiciar los recursos de los bots de mal comportamiento.

Del mismo modo, Cloudflare lanzó recientemente el laberinto de IA, destinado a reducir la velocidad, confundir y desperdiciar los recursos de los rastreadores de IA que ignoran las directivas "sin rastreo". La herramienta alimenta estos bots contenido irrelevante para proteger los datos legítimos del sitio web.

Devault de SourceHut le dijo a TechCrunch que si bien Nepenthes ofrece un sentido de justicia al alimentar tonterías a los rastreadores, Anubis ha demostrado ser la solución más efectiva para su sitio. Sin embargo, también hizo una súplica sincera para una solución más directa: "Por favor, deje de legitimar los generadores de imágenes LLM o IA o el copiloto de GitHub o cualquiera de esta basura. Le ruego que deje de usarlos, deje de hablar de ellos, deje de hacer nuevos, simplemente deténgase".

Dada la improbabilidad de que esto suceda, los desarrolladores, particularmente en la comunidad de Foss, continúan luchando con el ingenio y una pizca de humor.

Artículo relacionado
Cómics de IA: Explorando la vanguardia de la creación Cómics de IA: Explorando la vanguardia de la creación La industria del cómic está experimentando un cambio sísmico gracias a la integración de la inteligencia artificial. Atrás quedaron los días en que la IA era solo un sueño lejano; ahora es una herrami
Viggle AI: Revolucionando los Efectos Visuales de Video con Mezcla de Movimiento AI Viggle AI: Revolucionando los Efectos Visuales de Video con Mezcla de Movimiento AI Revolucionando los Efectos de Video con Viggle AIViggle AI está transformando el mundo de los efectos de video, haciendo que las creaciones visuales de vanguardia sean más accesibles que nunca. Atrás
Impresión bajo demanda con arte de IA: Guía paso a paso para Etsy Impresión bajo demanda con arte de IA: Guía paso a paso para Etsy ¿Pensando en adentrarte en el comercio electrónico pero temes gestionar inventario o crear tus propios productos? La impresión bajo demanda (POD) junto con la generación de arte por IA podría ser tu s
comentario (15)
0/200
TerryGonzález
TerryGonzález 18 de abril de 2025 00:00:00 GMT

This tool is a lifesaver for open source devs! It's hilarious how it fights back against those annoying AI crawlers. I love the creativity and the sense of justice it brings to the community. Maybe add more ways to customize the retaliation? 🤓

LucasWalker
LucasWalker 24 de abril de 2025 00:00:00 GMT

オープンソース開発者にとってこのツールは救世主です!AIクローラーに対する反撃が面白くて、クリエイティブさと正義感がコミュニティに広がるのが好きです。もっとカスタマイズできる機能が増えるといいですね🤓

RogerPerez
RogerPerez 18 de abril de 2025 00:00:00 GMT

오픈 소스 개발자들에게 이 도구는 구세주예요! AI 크롤러에 대한 반격이 재미있고, 창의성과 정의감이 커뮤니티에 퍼지는 게 좋습니다. 커스터마이즈할 수 있는 기능이 더 늘어나면 좋겠어요🤓

HenryTurner
HenryTurner 21 de abril de 2025 00:00:00 GMT

Este ferramenta é um salva-vidas para desenvolvedores de código aberto! É hilário como ela luta contra esses irritantes rastreadores de AI. Adoro a criatividade e o senso de justiça que traz para a comunidade. Talvez adicionar mais maneiras de personalizar a retaliação? 🤓

MarkRoberts
MarkRoberts 23 de abril de 2025 00:00:00 GMT

¡Esta herramienta es un salvavidas para los desarrolladores de código abierto! Es hilarante cómo lucha contra esos molestos rastreadores de IA. Me encanta la creatividad y el sentido de justicia que trae a la comunidad. ¿Quizás añadir más formas de personalizar la retaliación? 🤓

FredGreen
FredGreen 17 de abril de 2025 00:00:00 GMT

This tool is a lifesaver for open source devs! It's hilarious how they're fighting back against those pesky AI crawlers. The creativity and retribution are top-notch, though sometimes the solutions can be a bit too complex for newbies. Still, it's a must-have for anyone in the field! 😂

Volver arriba
OR