opção
Lar
Notícias
A Wikipedia está dando aos desenvolvedores de IA seus dados para afastar os raspadores de bot

A Wikipedia está dando aos desenvolvedores de IA seus dados para afastar os raspadores de bot

1 de Maio de 2025
46

A Wikipedia está dando aos desenvolvedores de IA seus dados para afastar os raspadores de bot

A nova estratégia da Wikipedia para gerenciar a eliminação de dados da IA

A Wikipedia, através da Wikimedia Foundation, está dando uma etapa proativa para gerenciar o impacto dos dados de dados de AI em seus servidores. Na quarta -feira, eles anunciaram uma colaboração com a Kaggle, uma plataforma de propriedade do Google e dedicada à ciência de dados e aprendizado de máquina, para lançar um conjunto de dados beta. Esse conjunto de dados contém "conteúdo estruturado da Wikipedia em inglês e francês", adaptado especificamente para fins de treinamento de IA.

O conjunto de dados, agora disponível em Kaggle, foi criado com os desenvolvedores de IA em mente, simplificando o processo de acesso aos dados do artigo legível por máquina. Isso inclui tudo, desde resumos de pesquisa e descrições curtas a links de imagem, dados InfoBox e várias seções de artigos. É importante ressaltar que esses dados são licenciados abertamente e não incluem referências ou elementos não textuais, como arquivos de áudio, garantindo que sejam otimizados para casos de uso de IA, como modelagem, ajuste fino e benchmarking.

A abordagem da Wikimedia oferece um formato JSON bem estruturado do conteúdo da Wikipedia, que eles esperam que seja uma opção mais atraente para os desenvolvedores de IA em comparação com o método tradicional de raspar ou analisar o texto do artigo bruto. Esse movimento é parcialmente em resposta à tensão que os bots de IA estão colocando nos servidores da Wikipedia devido ao seu consumo de largura de banda.

A Wikimedia já estabeleceu acordos de compartilhamento de conteúdo com gigantes como o Google e o Internet Archive. No entanto, espera -se que a parceria com a Kaggle torne esses dados mais acessíveis a empresas menores e cientistas de dados independentes, ampliando o alcance e a utilidade do conteúdo da Wikipedia.

O que Kaggle traz para a mesa

Brenda Flynn, líder de parcerias de Kaggle, expressou entusiasmo por hospedar os dados da Wikimedia. "Como o local da comunidade de aprendizado de máquina vem para ferramentas e testes, Kaggle está extremamente empolgado por ser o host dos dados da Wikimedia Foundation", afirmou. O papel de Kaggle é crucial para manter esses dados não apenas acessíveis, mas também relevantes e úteis para a comunidade de aprendizado de máquina.

Esse movimento estratégico da Wikipedia não apenas visa aliviar a carga em seus servidores, mas também promove um relacionamento mais estruturado e benéfico com as comunidades de IA e aprendizado de máquina.

Artigo relacionado
xAI publica los prompts detrás de escena de Grok xAI publica los prompts detrás de escena de Grok xAI Publica los Prompts del Sistema de Grok Tras Respuestas Controvertidas sobre "Genocidio Blanco"En un movimiento inesperado, xAI ha decidido compartir públicamente los prompts del sistema de su cha
Google Fi Presenta Plan Ilimitado de $35 Mensuales Google Fi Presenta Plan Ilimitado de $35 Mensuales Google Fi Revoluciona Sus Planes: Más Datos, Precios Más Bajos y Soporte para eSIMGoogle Fi acaba de anunciar actualizaciones importantes en sus planes inalámbricos—y si buscas una opción ilimitada ec
Multimillonarios discuten la automatización de empleos en la actualización de IA de esta semana Multimillonarios discuten la automatización de empleos en la actualización de IA de esta semana Hola a todos, ¡bienvenidos de nuevo al boletín de IA de TechCrunch! Si aún no estás suscrito, puedes registrarte aquí para recibirlo directamente en tu bandeja de entrada todos los miércoles.Tomamos u
Comentários (0)
0/200
De volta ao topo
OR