opción
Hogar
Noticias
Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

1 de mayo de 2025
46

Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

La nueva estrategia de Wikipedia para gestionar el raspado de datos de IA

Wikipedia, a través de la Fundación Wikimedia, está dando un paso proactivo para gestionar el impacto del raspado de datos de IA en sus servidores. El miércoles, anunciaron una colaboración con Kaggle, una plataforma propiedad de Google y dedicada a la ciencia de datos y el aprendizaje automático, para lanzar un conjunto de datos beta. Este conjunto de datos contiene "contenido de Wikipedia estructurado en inglés y francés", adaptado específicamente para fines de capacitación de IA.

El conjunto de datos, ahora disponible en Kaggle, ha sido diseñado con los desarrolladores de IA en mente, simplificando el proceso de acceso a datos de artículos legibles por máquina. Esto incluye todo, desde resúmenes de investigación y descripciones breves hasta enlaces de imágenes, datos de Infobox y varias secciones de artículos. Es importante destacar que estos datos tienen licencia abierta y no incluyen referencias o elementos no textuales como archivos de audio, asegurando que esté optimizado para casos de uso de IA como modelado, ajuste fino y evaluación comparativa.

El enfoque de Wikimedia ofrece un formato JSON bien estructurado del contenido de Wikipedia, que esperan que sea una opción más atractiva para los desarrolladores de IA en comparación con el método tradicional de raspar o analizar el texto del artículo en bruto. Este movimiento es en parte en respuesta a la tensión que los bots de IA han estado poniendo en los servidores de Wikipedia debido a su consumo de ancho de banda.

Wikimedia ya ha establecido acuerdos de intercambio de contenido con gigantes como Google y el archivo de Internet. Sin embargo, se espera que la asociación con Kaggle haga que estos datos sean más accesibles para empresas más pequeñas y científicos de datos independientes, ampliando el alcance y la utilidad del contenido de Wikipedia.

Lo que Kaggle trae a la mesa

Brenda Flynn, liderazgo de Kaggle, expresó entusiasmo por alojar los datos de Wikimedia. "Como el lugar donde la comunidad de aprendizaje automático viene para herramientas y pruebas, Kaggle está extremadamente emocionada de ser el anfitrión de los datos de la Fundación Wikimedia", afirmó. El papel de Kaggle es crucial para mantener estos datos no solo accesibles sino también relevantes y útiles para la comunidad de aprendizaje automático.

Este movimiento estratégico de Wikipedia no solo tiene como objetivo aliviar la carga en sus servidores, sino que también fomenta una relación más estructurada y beneficiosa con las comunidades de IA y aprendizaje automático.

Artículo relacionado
xAI publica los prompts detrás de escena de Grok xAI publica los prompts detrás de escena de Grok xAI Publica los Prompts del Sistema de Grok Tras Respuestas Controvertidas sobre "Genocidio Blanco"En un movimiento inesperado, xAI ha decidido compartir públicamente los prompts del sistema de su cha
Google Fi Presenta Plan Ilimitado de $35 Mensuales Google Fi Presenta Plan Ilimitado de $35 Mensuales Google Fi Revoluciona Sus Planes: Más Datos, Precios Más Bajos y Soporte para eSIMGoogle Fi acaba de anunciar actualizaciones importantes en sus planes inalámbricos—y si buscas una opción ilimitada ec
Multimillonarios discuten la automatización de empleos en la actualización de IA de esta semana Multimillonarios discuten la automatización de empleos en la actualización de IA de esta semana Hola a todos, ¡bienvenidos de nuevo al boletín de IA de TechCrunch! Si aún no estás suscrito, puedes registrarte aquí para recibirlo directamente en tu bandeja de entrada todos los miércoles.Tomamos u
comentario (0)
0/200
Volver arriba
OR