

Wikipedia donne aux développeurs de l'IA ses données pour repousser les grattoirs de bot
1 mai 2025
PeterLopez
0

La nouvelle stratégie de Wikipedia pour gérer le grattage des données d'IA
Wikipedia, via la Wikimedia Foundation, prend une mesure proactive pour gérer l'impact du grattage des données d'IA sur ses serveurs. Mercredi, ils ont annoncé une collaboration avec Kaggle, une plate-forme appartenant à Google et dédiée à la science des données et à l'apprentissage automatique, pour lancer un ensemble de données bêta. Cet ensemble de données contient «le contenu Wikipedia structuré en anglais et en français», spécifiquement adapté à des fins de formation d'IA.
L'ensemble de données, désormais disponible sur Kaggle, a été conçu avec les développeurs d'IA à l'esprit, simplifiant le processus d'accès à des données d'article lisible par machine. Cela comprend tout, des résumés de recherche et des descriptions courtes aux liens d'image, aux données Infobox et aux diverses sections d'articles. Surtout, ces données sont ouvertement sous licence et n'incluent pas de références ou d'éléments non textuels comme les fichiers audio, garantissant qu'il est optimisé pour les cas d'utilisation de l'IA comme la modélisation, le réglage fin et l'analyse comparative.
L'approche de Wikimedia offre un format JSON bien structuré du contenu de Wikipedia, qui, selon eux, sera une option plus attrayante pour les développeurs d'IA par rapport à la méthode traditionnelle de gratter ou d'analyser le texte de l'article brut. Cette décision est en partie en réponse à la pression que les robots AI ont mis sur les serveurs de Wikipedia en raison de leur consommation de bande passante.
Déjà, Wikimedia a établi des accords de partage de contenu avec des géants comme Google et Internet Archive. Cependant, le partenariat avec Kaggle devrait rendre ces données plus accessibles aux petites entreprises et aux scientifiques indépendants des données, élargissant la portée et l'utilité du contenu de Wikipedia.
Ce que Kaggle apporte à la table
Brenda Flynn, le tête des partenariats de Kaggle, a exprimé son enthousiasme à l'idée d'héberger les données de Wikimedia. "Comme l'endroit où la communauté d'apprentissage automatique vient pour des outils et des tests, Kaggle est extrêmement excité d'être l'hôte des données de la Wikimedia Foundation", a-t-elle déclaré. Le rôle de Kaggle est crucial pour garder ces données non seulement accessibles mais également pertinentes et utiles pour la communauté d'apprentissage automatique.
Cette décision stratégique de Wikipedia vise non seulement à atténuer la charge sur ses serveurs, mais favorise également une relation plus structurée et bénéfique avec l'IA et les communautés d'apprentissage automatique.
Article connexe
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance
Huawei's Bold Move in the Global AI Chip Race
Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
How we’re using AI to help cities tackle extreme heat
It's looking like 2024 might just break the record for the hottest year yet, surpassing 2023. This trend is particularly tough on folks living in urban heat islands—those spots in cities where concrete and asphalt soak up the sun's rays and then radiate the heat right back out. These areas can warm
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries
Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
Commentaires (0)
0/200






La nouvelle stratégie de Wikipedia pour gérer le grattage des données d'IA
Wikipedia, via la Wikimedia Foundation, prend une mesure proactive pour gérer l'impact du grattage des données d'IA sur ses serveurs. Mercredi, ils ont annoncé une collaboration avec Kaggle, une plate-forme appartenant à Google et dédiée à la science des données et à l'apprentissage automatique, pour lancer un ensemble de données bêta. Cet ensemble de données contient «le contenu Wikipedia structuré en anglais et en français», spécifiquement adapté à des fins de formation d'IA.
L'ensemble de données, désormais disponible sur Kaggle, a été conçu avec les développeurs d'IA à l'esprit, simplifiant le processus d'accès à des données d'article lisible par machine. Cela comprend tout, des résumés de recherche et des descriptions courtes aux liens d'image, aux données Infobox et aux diverses sections d'articles. Surtout, ces données sont ouvertement sous licence et n'incluent pas de références ou d'éléments non textuels comme les fichiers audio, garantissant qu'il est optimisé pour les cas d'utilisation de l'IA comme la modélisation, le réglage fin et l'analyse comparative.
L'approche de Wikimedia offre un format JSON bien structuré du contenu de Wikipedia, qui, selon eux, sera une option plus attrayante pour les développeurs d'IA par rapport à la méthode traditionnelle de gratter ou d'analyser le texte de l'article brut. Cette décision est en partie en réponse à la pression que les robots AI ont mis sur les serveurs de Wikipedia en raison de leur consommation de bande passante.
Déjà, Wikimedia a établi des accords de partage de contenu avec des géants comme Google et Internet Archive. Cependant, le partenariat avec Kaggle devrait rendre ces données plus accessibles aux petites entreprises et aux scientifiques indépendants des données, élargissant la portée et l'utilité du contenu de Wikipedia.
Ce que Kaggle apporte à la table
Brenda Flynn, le tête des partenariats de Kaggle, a exprimé son enthousiasme à l'idée d'héberger les données de Wikimedia. "Comme l'endroit où la communauté d'apprentissage automatique vient pour des outils et des tests, Kaggle est extrêmement excité d'être l'hôte des données de la Wikimedia Foundation", a-t-elle déclaré. Le rôle de Kaggle est crucial pour garder ces données non seulement accessibles mais également pertinentes et utiles pour la communauté d'apprentissage automatique.
Cette décision stratégique de Wikipedia vise non seulement à atténuer la charge sur ses serveurs, mais favorise également une relation plus structurée et bénéfique avec l'IA et les communautés d'apprentissage automatique.











