opção
Lar
Notícias
A Wikipedia está dando aos desenvolvedores de IA seus dados para afastar os raspadores de bot

A Wikipedia está dando aos desenvolvedores de IA seus dados para afastar os raspadores de bot

1 de Maio de 2025
83

A Wikipedia está dando aos desenvolvedores de IA seus dados para afastar os raspadores de bot

Nova Estratégia da Wikipédia para Gerenciar a Extração de Dados por IA

A Wikipédia, por meio da Wikimedia Foundation, está tomando uma medida proativa para gerenciar o impacto da extração de dados por IA em seus servidores. Na quarta-feira, eles anunciaram uma colaboração com o Kaggle, uma plataforma pertencente ao Google e dedicada à ciência de dados e aprendizado de máquina, para lançar um conjunto de dados beta. Este conjunto de dados contém "conteúdo estruturado da Wikipédia em inglês e francês", projetado especificamente para fins de treinamento de IA.

O conjunto de dados, agora disponível no Kaggle, foi criado pensando nos desenvolvedores de IA, simplificando o processo de acesso a dados de artigos legíveis por máquina. Isso inclui desde resumos de pesquisa e descrições curtas até links de imagens, dados de infobox e várias seções de artigos. Importante, esses dados são licenciados abertamente e não incluem referências ou elementos não textuais, como arquivos de áudio, garantindo que sejam otimizados para casos de uso de IA, como modelagem, ajuste fino e benchmarking.

A abordagem da Wikimedia oferece um formato JSON bem estruturado do conteúdo da Wikipédia, que eles esperam ser uma opção mais atraente para os desenvolvedores de IA em comparação com o método tradicional de extração ou análise de texto bruto de artigos. Essa medida responde, em parte, à pressão que os bots de IA têm causado nos servidores da Wikipédia devido ao consumo de largura de banda.

Já existem acordos de compartilhamento de conteúdo estabelecidos pela Wikimedia com gigantes como Google e o Internet Archive. No entanto, a parceria com o Kaggle deve tornar esses dados mais acessíveis para empresas menores e cientistas de dados independentes, ampliando o alcance e a utilidade do conteúdo da Wikipédia.

O que o Kaggle Traz para a Mesa

Brenda Flynn, líder de parcerias do Kaggle, expressou entusiasmo por hospedar os dados da Wikimedia. "Como o lugar onde a comunidade de aprendizado de máquina busca ferramentas e testes, o Kaggle está extremamente animado por ser o anfitrião dos dados da Wikimedia Foundation", afirmou. O papel do Kaggle é crucial para manter esses dados não apenas acessíveis, mas também relevantes e úteis para a comunidade de aprendizado de máquina.

Essa jogada estratégica da Wikipédia visa não apenas aliviar a carga em seus servidores, mas também fomentar uma relação mais estruturada e benéfica com as comunidades de IA e aprendizado de máquina.

Artigo relacionado
Salesforce Apresenta Companheiros Digitais de IA no Slack para Rivalizar com o Microsoft Copilot Salesforce Apresenta Companheiros Digitais de IA no Slack para Rivalizar com o Microsoft Copilot A Salesforce lançou uma nova estratégia de IA para o local de trabalho, introduzindo “companheiros digitais” especializados integrados às conversas do Slack, revelou a empresa na segunda-feira.A nova
Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este
Recursos do Fone de Ouvido Sony WH-1000XM6 Revelados Antes do Lançamento Recursos do Fone de Ouvido Sony WH-1000XM6 Revelados Antes do Lançamento A Sony está pronta para revelar o sucessor de seus fones de ouvido com cancelamento de ruído WH-1000XM5 em 15 de maio, com base em detalhes vazados relatados por Dealabs e Android Authority.O próximo
Comentários (2)
0/200
JustinJohnson
JustinJohnson 15 de Agosto de 2025 à59 16:00:59 WEST

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin
EricMartin 31 de Julho de 2025 à20 02:41:20 WEST

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

De volta ao topo
OR