Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

La nueva estrategia de Wikipedia para gestionar el raspado de datos por IA
Wikipedia, a través de la Fundación Wikimedia, está tomando una medida proactiva para gestionar el impacto del raspado de datos por IA en sus servidores. El miércoles, anunciaron una colaboración con Kaggle, una plataforma propiedad de Google y dedicada a la ciencia de datos y el aprendizaje automático, para lanzar un conjunto de datos beta. Este conjunto de datos contiene "contenido estructurado de Wikipedia en inglés y francés," diseñado específicamente para propósitos de entrenamiento de IA.
El conjunto de datos, ahora disponible en Kaggle, ha sido creado pensando en los desarrolladores de IA, simplificando el proceso de acceso a datos de artículos legibles por máquina. Esto incluye desde resúmenes de investigación y descripciones cortas hasta enlaces de imágenes, datos de infoboxes y varias secciones de artículos. Es importante destacar que estos datos están licenciados abiertamente y no incluyen referencias ni elementos no textuales como archivos de audio, asegurando que estén optimizados para casos de uso de IA como modelado, ajuste fino y evaluación comparativa.
El enfoque de Wikimedia ofrece un formato JSON bien estructurado del contenido de Wikipedia, que esperan sea una opción más atractiva para los desarrolladores de IA en comparación con el método tradicional de raspado o análisis de texto de artículos en bruto. Esta medida responde en parte a la presión que los bots de IA han estado ejerciendo sobre los servidores de Wikipedia debido a su consumo de ancho de banda.
Ya, Wikimedia ha establecido acuerdos de intercambio de contenido con gigantes como Google y el Internet Archive. Sin embargo, la colaboración con Kaggle se espera que haga estos datos más accesibles para empresas más pequeñas y científicos de datos independientes, ampliando el alcance y la utilidad del contenido de Wikipedia.
Lo que Kaggle aporta
Brenda Flynn, líder de asociaciones de Kaggle, expresó entusiasmo por alojar los datos de Wikimedia. "Como el lugar al que la comunidad de aprendizaje automático acude por herramientas y pruebas, Kaggle está extremadamente emocionada de ser el anfitrión de los datos de la Fundación Wikimedia," afirmó. El rol de Kaggle es crucial para mantener estos datos no solo accesibles, sino también relevantes y útiles para la comunidad de aprendizaje automático.
Esta movida estratégica de Wikipedia no solo busca aliviar la carga en sus servidores, sino que también fomenta una relación más estructurada y beneficiosa con las comunidades de IA y aprendizaje automático.
Artículo relacionado
EE.UU. sancionará a funcionarios extranjeros por la normativa sobre redes sociales
EE.UU. se posiciona contra la regulación mundial de contenidos digitalesEl Departamento de Estado ha lanzado esta semana una dura reprimenda diplomática contra las políticas europeas de gobernanza d
"Dot AI Companion App anuncia su cierre y suspende el servicio personalizado"
Dot, una aplicación de inteligencia artificial diseñada para funcionar como amigo personal y confidente, dejará de funcionar, según anunciaron el viernes sus desarrolladores. New Computer, la empresa
Anthropic resuelve un caso de piratería de libros generados por inteligencia artificial
Anthropic ha llegado a una resolución en un importante litigio sobre derechos de autor con autores estadounidenses, aceptando una propuesta de acuerdo de demanda colectiva que evita un juicio potencia
comentario (2)
0/200
JustinJohnson
15 de agosto de 2025 17:00:59 GMT+02:00
Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️
0
EricMartin
31 de julio de 2025 03:41:20 GMT+02:00
Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔
0
La nueva estrategia de Wikipedia para gestionar el raspado de datos por IA
Wikipedia, a través de la Fundación Wikimedia, está tomando una medida proactiva para gestionar el impacto del raspado de datos por IA en sus servidores. El miércoles, anunciaron una colaboración con Kaggle, una plataforma propiedad de Google y dedicada a la ciencia de datos y el aprendizaje automático, para lanzar un conjunto de datos beta. Este conjunto de datos contiene "contenido estructurado de Wikipedia en inglés y francés," diseñado específicamente para propósitos de entrenamiento de IA.
El conjunto de datos, ahora disponible en Kaggle, ha sido creado pensando en los desarrolladores de IA, simplificando el proceso de acceso a datos de artículos legibles por máquina. Esto incluye desde resúmenes de investigación y descripciones cortas hasta enlaces de imágenes, datos de infoboxes y varias secciones de artículos. Es importante destacar que estos datos están licenciados abiertamente y no incluyen referencias ni elementos no textuales como archivos de audio, asegurando que estén optimizados para casos de uso de IA como modelado, ajuste fino y evaluación comparativa.
El enfoque de Wikimedia ofrece un formato JSON bien estructurado del contenido de Wikipedia, que esperan sea una opción más atractiva para los desarrolladores de IA en comparación con el método tradicional de raspado o análisis de texto de artículos en bruto. Esta medida responde en parte a la presión que los bots de IA han estado ejerciendo sobre los servidores de Wikipedia debido a su consumo de ancho de banda.
Ya, Wikimedia ha establecido acuerdos de intercambio de contenido con gigantes como Google y el Internet Archive. Sin embargo, la colaboración con Kaggle se espera que haga estos datos más accesibles para empresas más pequeñas y científicos de datos independientes, ampliando el alcance y la utilidad del contenido de Wikipedia.
Lo que Kaggle aporta
Brenda Flynn, líder de asociaciones de Kaggle, expresó entusiasmo por alojar los datos de Wikimedia. "Como el lugar al que la comunidad de aprendizaje automático acude por herramientas y pruebas, Kaggle está extremadamente emocionada de ser el anfitrión de los datos de la Fundación Wikimedia," afirmó. El rol de Kaggle es crucial para mantener estos datos no solo accesibles, sino también relevantes y útiles para la comunidad de aprendizaje automático.
Esta movida estratégica de Wikipedia no solo busca aliviar la carga en sus servidores, sino que también fomenta una relación más estructurada y beneficiosa con las comunidades de IA y aprendizaje automático.



Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️




Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔












