Maison
Wikipedia donne aux développeurs de l'IA ses données pour repousser les grattoirs de bot

La nouvelle stratégie de Wikipédia pour gérer l'extraction de données par l'IA
Wikipédia, par l'intermédiaire de la Wikimedia Foundation, prend des mesures proactives pour gérer l'impact de l'extraction de données par l'IA sur ses serveurs. Mercredi, ils ont annoncé une collaboration avec Kaggle, une plateforme appartenant à Google et dédiée à la science des données et à l'apprentissage automatique, pour lancer un ensemble de données bêta. Cet ensemble de données contient du "contenu structuré de Wikipédia en anglais et en français", conçu spécifiquement pour les besoins de formation de l'IA.
L'ensemble de données, maintenant disponible sur Kaggle, a été conçu en pensant aux développeurs d'IA, simplifiant le processus d'accès aux données d'articles lisibles par machine. Cela inclut tout, des résumés de recherche et des descriptions courtes aux liens d'images, aux données des infobox et aux différentes sections d'articles. De manière importante, ces données sont sous licence ouverte et n'incluent pas de références ou d'éléments non textuels comme des fichiers audio, garantissant qu'elles sont optimisées pour des cas d'utilisation de l'IA tels que la modélisation, l'ajustement fin et l'évaluation des performances.
L'approche de Wikimedia propose un format JSON bien structuré du contenu de Wikipédia, qu'ils espèrent être une option plus attrayante pour les développeurs d'IA par rapport à la méthode traditionnelle d'extraction ou d'analyse du texte brut des articles. Cette initiative répond en partie à la pression exercée par les bots d'IA sur les serveurs de Wikipédia en raison de leur consommation de bande passante.
Déjà, Wikimedia a établi des accords de partage de contenu avec des géants comme Google et l'Internet Archive. Cependant, le partenariat avec Kaggle devrait rendre ces données plus accessibles aux petites entreprises et aux scientifiques de données indépendants, élargissant ainsi la portée et l'utilité du contenu de Wikipédia.
Ce que Kaggle apporte à la table
Brenda Flynn, responsable des partenariats chez Kaggle, a exprimé son enthousiasme à l'idée d'héberger les données de Wikimedia. "En tant que lieu où la communauté de l'apprentissage automatique vient chercher des outils et des tests, Kaggle est extrêmement enthousiaste d'être l'hôte des données de la Wikimedia Foundation", a-t-elle déclaré. Le rôle de Kaggle est crucial pour maintenir ces données non seulement accessibles, mais aussi pertinentes et utiles pour la communauté de l'apprentissage automatique.
Cette démarche stratégique de Wikipédia vise non seulement à réduire la charge sur ses serveurs, mais également à favoriser une relation plus structurée et bénéfique avec les communautés de l'IA et de l'apprentissage automatique.
Article connexe
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Kakao Mobility présente sa feuille de route pour la conduite autonome de niveau 4 basée sur l'IA physique
Kakao Mobility prévoit de développer en interne des technologies de conduite autonome de niveau 4 dans le cadre de sa stratégie d'IA physique.Lors de la conférence World IT Show 2026 qui s'est tenue
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se
Recommandations de sujets spéciaux liés
commentaires (3)
Me pregunto si esto realmente resolverá el problema de los scrapers 🤔. Wikipedia dando sus datos podría ser un arma de doble filo, pero al menos están intentando algo diferente. ¡Bravo por la iniciativa!
Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

La nouvelle stratégie de Wikipédia pour gérer l'extraction de données par l'IA
Wikipédia, par l'intermédiaire de la Wikimedia Foundation, prend des mesures proactives pour gérer l'impact de l'extraction de données par l'IA sur ses serveurs. Mercredi, ils ont annoncé une collaboration avec Kaggle, une plateforme appartenant à Google et dédiée à la science des données et à l'apprentissage automatique, pour lancer un ensemble de données bêta. Cet ensemble de données contient du "contenu structuré de Wikipédia en anglais et en français", conçu spécifiquement pour les besoins de formation de l'IA.
L'ensemble de données, maintenant disponible sur Kaggle, a été conçu en pensant aux développeurs d'IA, simplifiant le processus d'accès aux données d'articles lisibles par machine. Cela inclut tout, des résumés de recherche et des descriptions courtes aux liens d'images, aux données des infobox et aux différentes sections d'articles. De manière importante, ces données sont sous licence ouverte et n'incluent pas de références ou d'éléments non textuels comme des fichiers audio, garantissant qu'elles sont optimisées pour des cas d'utilisation de l'IA tels que la modélisation, l'ajustement fin et l'évaluation des performances.
L'approche de Wikimedia propose un format JSON bien structuré du contenu de Wikipédia, qu'ils espèrent être une option plus attrayante pour les développeurs d'IA par rapport à la méthode traditionnelle d'extraction ou d'analyse du texte brut des articles. Cette initiative répond en partie à la pression exercée par les bots d'IA sur les serveurs de Wikipédia en raison de leur consommation de bande passante.
Déjà, Wikimedia a établi des accords de partage de contenu avec des géants comme Google et l'Internet Archive. Cependant, le partenariat avec Kaggle devrait rendre ces données plus accessibles aux petites entreprises et aux scientifiques de données indépendants, élargissant ainsi la portée et l'utilité du contenu de Wikipédia.
Ce que Kaggle apporte à la table
Brenda Flynn, responsable des partenariats chez Kaggle, a exprimé son enthousiasme à l'idée d'héberger les données de Wikimedia. "En tant que lieu où la communauté de l'apprentissage automatique vient chercher des outils et des tests, Kaggle est extrêmement enthousiaste d'être l'hôte des données de la Wikimedia Foundation", a-t-elle déclaré. Le rôle de Kaggle est crucial pour maintenir ces données non seulement accessibles, mais aussi pertinentes et utiles pour la communauté de l'apprentissage automatique.
Cette démarche stratégique de Wikipédia vise non seulement à réduire la charge sur ses serveurs, mais également à favoriser une relation plus structurée et bénéfique avec les communautés de l'IA et de l'apprentissage automatique.
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se
Me pregunto si esto realmente resolverá el problema de los scrapers 🤔. Wikipedia dando sus datos podría ser un arma de doble filo, pero al menos están intentando algo diferente. ¡Bravo por la iniciativa!
Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️











