

A Wikipedia está dando aos desenvolvedores de IA seus dados para afastar os raspadores de bot
1 de Maio de 2025
PeterLopez
0

A nova estratégia da Wikipedia para gerenciar a eliminação de dados da IA
A Wikipedia, através da Wikimedia Foundation, está dando uma etapa proativa para gerenciar o impacto dos dados de dados de AI em seus servidores. Na quarta -feira, eles anunciaram uma colaboração com a Kaggle, uma plataforma de propriedade do Google e dedicada à ciência de dados e aprendizado de máquina, para lançar um conjunto de dados beta. Esse conjunto de dados contém "conteúdo estruturado da Wikipedia em inglês e francês", adaptado especificamente para fins de treinamento de IA.
O conjunto de dados, agora disponível em Kaggle, foi criado com os desenvolvedores de IA em mente, simplificando o processo de acesso aos dados do artigo legível por máquina. Isso inclui tudo, desde resumos de pesquisa e descrições curtas a links de imagem, dados InfoBox e várias seções de artigos. É importante ressaltar que esses dados são licenciados abertamente e não incluem referências ou elementos não textuais, como arquivos de áudio, garantindo que sejam otimizados para casos de uso de IA, como modelagem, ajuste fino e benchmarking.
A abordagem da Wikimedia oferece um formato JSON bem estruturado do conteúdo da Wikipedia, que eles esperam que seja uma opção mais atraente para os desenvolvedores de IA em comparação com o método tradicional de raspar ou analisar o texto do artigo bruto. Esse movimento é parcialmente em resposta à tensão que os bots de IA estão colocando nos servidores da Wikipedia devido ao seu consumo de largura de banda.
A Wikimedia já estabeleceu acordos de compartilhamento de conteúdo com gigantes como o Google e o Internet Archive. No entanto, espera -se que a parceria com a Kaggle torne esses dados mais acessíveis a empresas menores e cientistas de dados independentes, ampliando o alcance e a utilidade do conteúdo da Wikipedia.
O que Kaggle traz para a mesa
Brenda Flynn, líder de parcerias de Kaggle, expressou entusiasmo por hospedar os dados da Wikimedia. "Como o local da comunidade de aprendizado de máquina vem para ferramentas e testes, Kaggle está extremamente empolgado por ser o host dos dados da Wikimedia Foundation", afirmou. O papel de Kaggle é crucial para manter esses dados não apenas acessíveis, mas também relevantes e úteis para a comunidade de aprendizado de máquina.
Esse movimento estratégico da Wikipedia não apenas visa aliviar a carga em seus servidores, mas também promove um relacionamento mais estruturado e benéfico com as comunidades de IA e aprendizado de máquina.
Artigo relacionado
A AI de hardware da Huawei representa um desafio ao domínio da NVIDIA
A jogada ousada da Huawei na corrida global da AI Chip Huawei, a gigante da tecnologia chinesa, deu um passo significativo que poderia abalar a corrida global de chip de IA. Eles introduziram um novo sistema de computação chamado CloudMatrix 384 Supernode, que, de acordo com a mídia local, supera o techno semelhante
Como estamos usando a IA para ajudar as cidades a combater o calor extremo
Parece que 2024 pode simplesmente quebrar o recorde do ano mais quente até agora, superando 2023. Essa tendência é particularmente difícil para as pessoas que vivem em ilhas de calor urbano - aquelas manchas nas cidades onde o concreto e o asfalto absorvem os raios do sol e depois irradiam o calor de volta. Essas áreas podem aquecer
A Pesquisa do Google apresenta 'modo AI' para consultas complexas e multi-partes
O Google revela o "modo AI" em pesquisa para rivalizar com a perplexidade AI e o ChatgptGoogle está intensificando seu jogo na arena da AI com o lançamento de um recurso experimental "AI" em seu mecanismo de pesquisa. Com o objetivo de assumir pessoas como Perplexity AI e OpenAI's ChatGPT Search, este novo modo foi anunciado na quarta -feira
Comentários (0)
0/200






A nova estratégia da Wikipedia para gerenciar a eliminação de dados da IA
A Wikipedia, através da Wikimedia Foundation, está dando uma etapa proativa para gerenciar o impacto dos dados de dados de AI em seus servidores. Na quarta -feira, eles anunciaram uma colaboração com a Kaggle, uma plataforma de propriedade do Google e dedicada à ciência de dados e aprendizado de máquina, para lançar um conjunto de dados beta. Esse conjunto de dados contém "conteúdo estruturado da Wikipedia em inglês e francês", adaptado especificamente para fins de treinamento de IA.
O conjunto de dados, agora disponível em Kaggle, foi criado com os desenvolvedores de IA em mente, simplificando o processo de acesso aos dados do artigo legível por máquina. Isso inclui tudo, desde resumos de pesquisa e descrições curtas a links de imagem, dados InfoBox e várias seções de artigos. É importante ressaltar que esses dados são licenciados abertamente e não incluem referências ou elementos não textuais, como arquivos de áudio, garantindo que sejam otimizados para casos de uso de IA, como modelagem, ajuste fino e benchmarking.
A abordagem da Wikimedia oferece um formato JSON bem estruturado do conteúdo da Wikipedia, que eles esperam que seja uma opção mais atraente para os desenvolvedores de IA em comparação com o método tradicional de raspar ou analisar o texto do artigo bruto. Esse movimento é parcialmente em resposta à tensão que os bots de IA estão colocando nos servidores da Wikipedia devido ao seu consumo de largura de banda.
A Wikimedia já estabeleceu acordos de compartilhamento de conteúdo com gigantes como o Google e o Internet Archive. No entanto, espera -se que a parceria com a Kaggle torne esses dados mais acessíveis a empresas menores e cientistas de dados independentes, ampliando o alcance e a utilidade do conteúdo da Wikipedia.
O que Kaggle traz para a mesa
Brenda Flynn, líder de parcerias de Kaggle, expressou entusiasmo por hospedar os dados da Wikimedia. "Como o local da comunidade de aprendizado de máquina vem para ferramentas e testes, Kaggle está extremamente empolgado por ser o host dos dados da Wikimedia Foundation", afirmou. O papel de Kaggle é crucial para manter esses dados não apenas acessíveis, mas também relevantes e úteis para a comunidade de aprendizado de máquina.
Esse movimento estratégico da Wikipedia não apenas visa aliviar a carga em seus servidores, mas também promove um relacionamento mais estruturado e benéfico com as comunidades de IA e aprendizado de máquina.











