Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

Hogar

Noticias

1 de mayo de 2025

PeterLopez

# ai # News # Tech # Web

Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots

La nueva estrategia de Wikipedia para gestionar el raspado de datos por IA

Wikipedia, a través de la Fundación Wikimedia, está tomando una medida proactiva para gestionar el impacto del raspado de datos por IA en sus servidores. El miércoles, anunciaron una colaboración con Kaggle, una plataforma propiedad de Google y dedicada a la ciencia de datos y el aprendizaje automático, para lanzar un conjunto de datos beta. Este conjunto de datos contiene "contenido estructurado de Wikipedia en inglés y francés," diseñado específicamente para propósitos de entrenamiento de IA.

El conjunto de datos, ahora disponible en Kaggle, ha sido creado pensando en los desarrolladores de IA, simplificando el proceso de acceso a datos de artículos legibles por máquina. Esto incluye desde resúmenes de investigación y descripciones cortas hasta enlaces de imágenes, datos de infoboxes y varias secciones de artículos. Es importante destacar que estos datos están licenciados abiertamente y no incluyen referencias ni elementos no textuales como archivos de audio, asegurando que estén optimizados para casos de uso de IA como modelado, ajuste fino y evaluación comparativa.

El enfoque de Wikimedia ofrece un formato JSON bien estructurado del contenido de Wikipedia, que esperan sea una opción más atractiva para los desarrolladores de IA en comparación con el método tradicional de raspado o análisis de texto de artículos en bruto. Esta medida responde en parte a la presión que los bots de IA han estado ejerciendo sobre los servidores de Wikipedia debido a su consumo de ancho de banda.

Ya, Wikimedia ha establecido acuerdos de intercambio de contenido con gigantes como Google y el Internet Archive. Sin embargo, la colaboración con Kaggle se espera que haga estos datos más accesibles para empresas más pequeñas y científicos de datos independientes, ampliando el alcance y la utilidad del contenido de Wikipedia.

Lo que Kaggle aporta

Brenda Flynn, líder de asociaciones de Kaggle, expresó entusiasmo por alojar los datos de Wikimedia. "Como el lugar al que la comunidad de aprendizaje automático acude por herramientas y pruebas, Kaggle está extremadamente emocionada de ser el anfitrión de los datos de la Fundación Wikimedia," afirmó. El rol de Kaggle es crucial para mantener estos datos no solo accesibles, sino también relevantes y útiles para la comunidad de aprendizaje automático.

Esta movida estratégica de Wikipedia no solo busca aliviar la carga en sus servidores, sino que también fomenta una relación más estructurada y beneficiosa con las comunidades de IA y aprendizaje automático.

Artículo relacionado

EE.UU. sancionará a funcionarios extranjeros por la normativa sobre redes sociales EE.UU. se posiciona contra la regulación mundial de contenidos digitalesEl Departamento de Estado ha lanzado esta semana una dura reprimenda diplomática contra las políticas europeas de gobernanza d

"Dot AI Companion App anuncia su cierre y suspende el servicio personalizado" Dot, una aplicación de inteligencia artificial diseñada para funcionar como amigo personal y confidente, dejará de funcionar, según anunciaron el viernes sus desarrolladores. New Computer, la empresa

Anthropic resuelve un caso de piratería de libros generados por inteligencia artificial Anthropic ha llegado a una resolución en un importante litigio sobre derechos de autor con autores estadounidenses, aceptando una propuesta de acuerdo de demanda colectiva que evita un juicio potencia

comentario (2)

0/200

Entregar

JustinJohnson

15 de agosto de 2025 17:00:59 GMT+02:00

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin

31 de julio de 2025 03:41:20 GMT+02:00

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

Noticias principales

Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Doblaje AI: Guía Definitiva para la Creación de Voz Realista La IA de Cambium transforma la madera de los desechos en madera AI Builder y Power Automate Revolucionan la Sumarización de Documentos Operai mejora el asistente de voz de IA para mejores chats Cómo garantizar que sus datos sean confiables para la integración de IA Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia Google utiliza IA para suspender más de 39 millones de cuentas publicitarias por sospecha de fraude

Más

Presentado