opción
Hogar
Noticias
Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

1 de mayo de 2025
83

Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

La nueva estrategia de Wikipedia para gestionar el raspado de datos por IA

Wikipedia, a través de la Fundación Wikimedia, está tomando una medida proactiva para gestionar el impacto del raspado de datos por IA en sus servidores. El miércoles, anunciaron una colaboración con Kaggle, una plataforma propiedad de Google y dedicada a la ciencia de datos y el aprendizaje automático, para lanzar un conjunto de datos beta. Este conjunto de datos contiene "contenido estructurado de Wikipedia en inglés y francés," diseñado específicamente para propósitos de entrenamiento de IA.

El conjunto de datos, ahora disponible en Kaggle, ha sido creado pensando en los desarrolladores de IA, simplificando el proceso de acceso a datos de artículos legibles por máquina. Esto incluye desde resúmenes de investigación y descripciones cortas hasta enlaces de imágenes, datos de infoboxes y varias secciones de artículos. Es importante destacar que estos datos están licenciados abiertamente y no incluyen referencias ni elementos no textuales como archivos de audio, asegurando que estén optimizados para casos de uso de IA como modelado, ajuste fino y evaluación comparativa.

El enfoque de Wikimedia ofrece un formato JSON bien estructurado del contenido de Wikipedia, que esperan sea una opción más atractiva para los desarrolladores de IA en comparación con el método tradicional de raspado o análisis de texto de artículos en bruto. Esta medida responde en parte a la presión que los bots de IA han estado ejerciendo sobre los servidores de Wikipedia debido a su consumo de ancho de banda.

Ya, Wikimedia ha establecido acuerdos de intercambio de contenido con gigantes como Google y el Internet Archive. Sin embargo, la colaboración con Kaggle se espera que haga estos datos más accesibles para empresas más pequeñas y científicos de datos independientes, ampliando el alcance y la utilidad del contenido de Wikipedia.

Lo que Kaggle aporta

Brenda Flynn, líder de asociaciones de Kaggle, expresó entusiasmo por alojar los datos de Wikimedia. "Como el lugar al que la comunidad de aprendizaje automático acude por herramientas y pruebas, Kaggle está extremadamente emocionada de ser el anfitrión de los datos de la Fundación Wikimedia," afirmó. El rol de Kaggle es crucial para mantener estos datos no solo accesibles, sino también relevantes y útiles para la comunidad de aprendizaje automático.

Esta movida estratégica de Wikipedia no solo busca aliviar la carga en sus servidores, sino que también fomenta una relación más estructurada y beneficiosa con las comunidades de IA y aprendizaje automático.

Artículo relacionado
Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot Salesforce lanzó una nueva estrategia de IA para el lugar de trabajo, presentando “compañeros digitales” especializados integrados en las conversaciones de Slack, según reveló la compañía el lunes.La
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
Características de los auriculares Sony WH-1000XM6 reveladas antes del lanzamiento Características de los auriculares Sony WH-1000XM6 reveladas antes del lanzamiento Sony está listo para presentar el sucesor de sus auriculares con cancelación de ruido WH-1000XM5 el 15 de mayo, según detalles filtrados reportados por Dealabs y Android Authority.El próximo modelo, n
comentario (2)
0/200
JustinJohnson
JustinJohnson 15 de agosto de 2025 17:00:59 GMT+02:00

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin
EricMartin 31 de julio de 2025 03:41:20 GMT+02:00

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

Volver arriba
OR