Wikipedia donne aux développeurs de l'IA ses données pour repousser les grattoirs de bot

La nouvelle stratégie de Wikipedia pour gérer le grattage des données d'IA
Wikipedia, via la Wikimedia Foundation, prend une mesure proactive pour gérer l'impact du grattage des données d'IA sur ses serveurs. Mercredi, ils ont annoncé une collaboration avec Kaggle, une plate-forme appartenant à Google et dédiée à la science des données et à l'apprentissage automatique, pour lancer un ensemble de données bêta. Cet ensemble de données contient «le contenu Wikipedia structuré en anglais et en français», spécifiquement adapté à des fins de formation d'IA.
L'ensemble de données, désormais disponible sur Kaggle, a été conçu avec les développeurs d'IA à l'esprit, simplifiant le processus d'accès à des données d'article lisible par machine. Cela comprend tout, des résumés de recherche et des descriptions courtes aux liens d'image, aux données Infobox et aux diverses sections d'articles. Surtout, ces données sont ouvertement sous licence et n'incluent pas de références ou d'éléments non textuels comme les fichiers audio, garantissant qu'il est optimisé pour les cas d'utilisation de l'IA comme la modélisation, le réglage fin et l'analyse comparative.
L'approche de Wikimedia offre un format JSON bien structuré du contenu de Wikipedia, qui, selon eux, sera une option plus attrayante pour les développeurs d'IA par rapport à la méthode traditionnelle de gratter ou d'analyser le texte de l'article brut. Cette décision est en partie en réponse à la pression que les robots AI ont mis sur les serveurs de Wikipedia en raison de leur consommation de bande passante.
Déjà, Wikimedia a établi des accords de partage de contenu avec des géants comme Google et Internet Archive. Cependant, le partenariat avec Kaggle devrait rendre ces données plus accessibles aux petites entreprises et aux scientifiques indépendants des données, élargissant la portée et l'utilité du contenu de Wikipedia.
Ce que Kaggle apporte à la table
Brenda Flynn, le tête des partenariats de Kaggle, a exprimé son enthousiasme à l'idée d'héberger les données de Wikimedia. "Comme l'endroit où la communauté d'apprentissage automatique vient pour des outils et des tests, Kaggle est extrêmement excité d'être l'hôte des données de la Wikimedia Foundation", a-t-elle déclaré. Le rôle de Kaggle est crucial pour garder ces données non seulement accessibles mais également pertinentes et utiles pour la communauté d'apprentissage automatique.
Cette décision stratégique de Wikipedia vise non seulement à atténuer la charge sur ses serveurs, mais favorise également une relation plus structurée et bénéfique avec l'IA et les communautés d'apprentissage automatique.
Article connexe
xAI publie les prompts en coulisses de Grok
xAI dévoile les prompts système de Grok après des réponses controversées sur le "génocide blanc"Dans une décision inattendue, xAI a choisi de partager publiquement les prompts système de son chatbot I
Google Fi dévoile un plan illimité à 35 $ par mois
Google Fi remanie ses plans : plus de données, prix plus bas et support eSIMGoogle Fi vient de lancer des mises à jour majeures pour ses plans sans fil. Bonne nouvelle pour ceux qui cherchent une opti
Les milliardaires discutent de l'automatisation des emplois dans la mise à jour IA de cette semaine
Salut à tous, bienvenue dans la newsletter IA de TechCrunch ! Si vous n'êtes pas encore abonné, vous pouvez vous inscrire ici pour la recevoir directement dans votre boîte de réception tous les mercre
commentaires (0)
0/200
La nouvelle stratégie de Wikipedia pour gérer le grattage des données d'IA
Wikipedia, via la Wikimedia Foundation, prend une mesure proactive pour gérer l'impact du grattage des données d'IA sur ses serveurs. Mercredi, ils ont annoncé une collaboration avec Kaggle, une plate-forme appartenant à Google et dédiée à la science des données et à l'apprentissage automatique, pour lancer un ensemble de données bêta. Cet ensemble de données contient «le contenu Wikipedia structuré en anglais et en français», spécifiquement adapté à des fins de formation d'IA.
L'ensemble de données, désormais disponible sur Kaggle, a été conçu avec les développeurs d'IA à l'esprit, simplifiant le processus d'accès à des données d'article lisible par machine. Cela comprend tout, des résumés de recherche et des descriptions courtes aux liens d'image, aux données Infobox et aux diverses sections d'articles. Surtout, ces données sont ouvertement sous licence et n'incluent pas de références ou d'éléments non textuels comme les fichiers audio, garantissant qu'il est optimisé pour les cas d'utilisation de l'IA comme la modélisation, le réglage fin et l'analyse comparative.
L'approche de Wikimedia offre un format JSON bien structuré du contenu de Wikipedia, qui, selon eux, sera une option plus attrayante pour les développeurs d'IA par rapport à la méthode traditionnelle de gratter ou d'analyser le texte de l'article brut. Cette décision est en partie en réponse à la pression que les robots AI ont mis sur les serveurs de Wikipedia en raison de leur consommation de bande passante.
Déjà, Wikimedia a établi des accords de partage de contenu avec des géants comme Google et Internet Archive. Cependant, le partenariat avec Kaggle devrait rendre ces données plus accessibles aux petites entreprises et aux scientifiques indépendants des données, élargissant la portée et l'utilité du contenu de Wikipedia.
Ce que Kaggle apporte à la table
Brenda Flynn, le tête des partenariats de Kaggle, a exprimé son enthousiasme à l'idée d'héberger les données de Wikimedia. "Comme l'endroit où la communauté d'apprentissage automatique vient pour des outils et des tests, Kaggle est extrêmement excité d'être l'hôte des données de la Wikimedia Foundation", a-t-elle déclaré. Le rôle de Kaggle est crucial pour garder ces données non seulement accessibles mais également pertinentes et utiles pour la communauté d'apprentissage automatique.
Cette décision stratégique de Wikipedia vise non seulement à atténuer la charge sur ses serveurs, mais favorise également une relation plus structurée et bénéfique avec l'IA et les communautés d'apprentissage automatique.












