A Wikipedia está dando aos desenvolvedores de IA seus dados para afastar os raspadores de bot

Lar

Notícias

1 de Maio de 2025

PeterLopez

# ai # News # Tech # Web

A Wikipedia está dando aos desenvolvedores de IA seus dados para afastar os raspadores de bot

Nova Estratégia da Wikipédia para Gerenciar a Extração de Dados por IA

A Wikipédia, por meio da Wikimedia Foundation, está tomando uma medida proativa para gerenciar o impacto da extração de dados por IA em seus servidores. Na quarta-feira, eles anunciaram uma colaboração com o Kaggle, uma plataforma pertencente ao Google e dedicada à ciência de dados e aprendizado de máquina, para lançar um conjunto de dados beta. Este conjunto de dados contém "conteúdo estruturado da Wikipédia em inglês e francês", projetado especificamente para fins de treinamento de IA.

O conjunto de dados, agora disponível no Kaggle, foi criado pensando nos desenvolvedores de IA, simplificando o processo de acesso a dados de artigos legíveis por máquina. Isso inclui desde resumos de pesquisa e descrições curtas até links de imagens, dados de infobox e várias seções de artigos. Importante, esses dados são licenciados abertamente e não incluem referências ou elementos não textuais, como arquivos de áudio, garantindo que sejam otimizados para casos de uso de IA, como modelagem, ajuste fino e benchmarking.

A abordagem da Wikimedia oferece um formato JSON bem estruturado do conteúdo da Wikipédia, que eles esperam ser uma opção mais atraente para os desenvolvedores de IA em comparação com o método tradicional de extração ou análise de texto bruto de artigos. Essa medida responde, em parte, à pressão que os bots de IA têm causado nos servidores da Wikipédia devido ao consumo de largura de banda.

Já existem acordos de compartilhamento de conteúdo estabelecidos pela Wikimedia com gigantes como Google e o Internet Archive. No entanto, a parceria com o Kaggle deve tornar esses dados mais acessíveis para empresas menores e cientistas de dados independentes, ampliando o alcance e a utilidade do conteúdo da Wikipédia.

O que o Kaggle Traz para a Mesa

Brenda Flynn, líder de parcerias do Kaggle, expressou entusiasmo por hospedar os dados da Wikimedia. "Como o lugar onde a comunidade de aprendizado de máquina busca ferramentas e testes, o Kaggle está extremamente animado por ser o anfitrião dos dados da Wikimedia Foundation", afirmou. O papel do Kaggle é crucial para manter esses dados não apenas acessíveis, mas também relevantes e úteis para a comunidade de aprendizado de máquina.

Essa jogada estratégica da Wikipédia visa não apenas aliviar a carga em seus servidores, mas também fomentar uma relação mais estruturada e benéfica com as comunidades de IA e aprendizado de máquina.

Artigo relacionado

A IA do Google agora atende a chamadas telefônicas para você O Google expandiu seu recurso de chamadas com IA para todos os usuários dos EUA por meio da Pesquisa, permitindo que os clientes consultem preços e disponibilidade com empresas locais sem conversas te

Trump isenta smartphones, computadores e chips de aumentos de tarifas O governo Trump concedeu exclusões para smartphones, computadores e vários dispositivos eletrônicos dos recentes aumentos de tarifas, mesmo quando importados da China, de acordo com informações da Blo

EUA sancionarão autoridades estrangeiras por causa de regulamentações de mídia social EUA se posicionam contra as regulamentações globais de conteúdo digitalO Departamento de Estado emitiu uma forte repreensão diplomática nesta semana, visando às políticas europeias de governança dig

Comentários (2)

0/200

Enviar

JustinJohnson

15 de Agosto de 2025 à59 16:00:59 WEST

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin

31 de Julho de 2025 à20 02:41:20 WEST

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

Principais notícias

Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada AI Builder e Power Automate Revolucionam a Sumarização de Documentos O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Duolingo Muda para Sistema de Energia Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia

Mais

Apresentou