Hogar Noticias Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

1 de mayo de 2025
PeterLopez
0

Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

La nueva estrategia de Wikipedia para gestionar el raspado de datos de IA

Wikipedia, a través de la Fundación Wikimedia, está dando un paso proactivo para gestionar el impacto del raspado de datos de IA en sus servidores. El miércoles, anunciaron una colaboración con Kaggle, una plataforma propiedad de Google y dedicada a la ciencia de datos y el aprendizaje automático, para lanzar un conjunto de datos beta. Este conjunto de datos contiene "contenido de Wikipedia estructurado en inglés y francés", adaptado específicamente para fines de capacitación de IA.

El conjunto de datos, ahora disponible en Kaggle, ha sido diseñado con los desarrolladores de IA en mente, simplificando el proceso de acceso a datos de artículos legibles por máquina. Esto incluye todo, desde resúmenes de investigación y descripciones breves hasta enlaces de imágenes, datos de Infobox y varias secciones de artículos. Es importante destacar que estos datos tienen licencia abierta y no incluyen referencias o elementos no textuales como archivos de audio, asegurando que esté optimizado para casos de uso de IA como modelado, ajuste fino y evaluación comparativa.

El enfoque de Wikimedia ofrece un formato JSON bien estructurado del contenido de Wikipedia, que esperan que sea una opción más atractiva para los desarrolladores de IA en comparación con el método tradicional de raspar o analizar el texto del artículo en bruto. Este movimiento es en parte en respuesta a la tensión que los bots de IA han estado poniendo en los servidores de Wikipedia debido a su consumo de ancho de banda.

Wikimedia ya ha establecido acuerdos de intercambio de contenido con gigantes como Google y el archivo de Internet. Sin embargo, se espera que la asociación con Kaggle haga que estos datos sean más accesibles para empresas más pequeñas y científicos de datos independientes, ampliando el alcance y la utilidad del contenido de Wikipedia.

Lo que Kaggle trae a la mesa

Brenda Flynn, liderazgo de Kaggle, expresó entusiasmo por alojar los datos de Wikimedia. "Como el lugar donde la comunidad de aprendizaje automático viene para herramientas y pruebas, Kaggle está extremadamente emocionada de ser el anfitrión de los datos de la Fundación Wikimedia", afirmó. El papel de Kaggle es crucial para mantener estos datos no solo accesibles sino también relevantes y útiles para la comunidad de aprendizaje automático.

Este movimiento estratégico de Wikipedia no solo tiene como objetivo aliviar la carga en sus servidores, sino que también fomenta una relación más estructurada y beneficiosa con las comunidades de IA y aprendizaje automático.

Artículo relacionado
A AI de hardware da Huawei representa um desafio ao domínio da NVIDIA A AI de hardware da Huawei representa um desafio ao domínio da NVIDIA A jogada ousada da Huawei na corrida global da AI Chip Huawei, a gigante da tecnologia chinesa, deu um passo significativo que poderia abalar a corrida global de chip de IA. Eles introduziram um novo sistema de computação chamado CloudMatrix 384 Supernode, que, de acordo com a mídia local, supera o techno semelhante
Como estamos usando a IA para ajudar as cidades a combater o calor extremo Como estamos usando a IA para ajudar as cidades a combater o calor extremo Parece que 2024 pode simplesmente quebrar o recorde do ano mais quente até agora, superando 2023. Essa tendência é particularmente difícil para as pessoas que vivem em ilhas de calor urbano - aquelas manchas nas cidades onde o concreto e o asfalto absorvem os raios do sol e depois irradiam o calor de volta. Essas áreas podem aquecer
A Pesquisa do Google apresenta 'modo AI' para consultas complexas e multi-partes A Pesquisa do Google apresenta 'modo AI' para consultas complexas e multi-partes O Google revela o "modo AI" em pesquisa para rivalizar com a perplexidade AI e o ChatgptGoogle está intensificando seu jogo na arena da AI com o lançamento de um recurso experimental "AI" em seu mecanismo de pesquisa. Com o objetivo de assumir pessoas como Perplexity AI e OpenAI's ChatGPT Search, este novo modo foi anunciado na quarta -feira
Comentario (0)
0/200
Back to Top
OR