option
Maison
Nouvelles
Wikipedia donne aux développeurs de l'IA ses données pour repousser les grattoirs de bot

Wikipedia donne aux développeurs de l'IA ses données pour repousser les grattoirs de bot

1 mai 2025
83

Wikipedia donne aux développeurs de l'IA ses données pour repousser les grattoirs de bot

La nouvelle stratégie de Wikipédia pour gérer l'extraction de données par l'IA

Wikipédia, par l'intermédiaire de la Wikimedia Foundation, prend des mesures proactives pour gérer l'impact de l'extraction de données par l'IA sur ses serveurs. Mercredi, ils ont annoncé une collaboration avec Kaggle, une plateforme appartenant à Google et dédiée à la science des données et à l'apprentissage automatique, pour lancer un ensemble de données bêta. Cet ensemble de données contient du "contenu structuré de Wikipédia en anglais et en français", conçu spécifiquement pour les besoins de formation de l'IA.

L'ensemble de données, maintenant disponible sur Kaggle, a été conçu en pensant aux développeurs d'IA, simplifiant le processus d'accès aux données d'articles lisibles par machine. Cela inclut tout, des résumés de recherche et des descriptions courtes aux liens d'images, aux données des infobox et aux différentes sections d'articles. De manière importante, ces données sont sous licence ouverte et n'incluent pas de références ou d'éléments non textuels comme des fichiers audio, garantissant qu'elles sont optimisées pour des cas d'utilisation de l'IA tels que la modélisation, l'ajustement fin et l'évaluation des performances.

L'approche de Wikimedia propose un format JSON bien structuré du contenu de Wikipédia, qu'ils espèrent être une option plus attrayante pour les développeurs d'IA par rapport à la méthode traditionnelle d'extraction ou d'analyse du texte brut des articles. Cette initiative répond en partie à la pression exercée par les bots d'IA sur les serveurs de Wikipédia en raison de leur consommation de bande passante.

Déjà, Wikimedia a établi des accords de partage de contenu avec des géants comme Google et l'Internet Archive. Cependant, le partenariat avec Kaggle devrait rendre ces données plus accessibles aux petites entreprises et aux scientifiques de données indépendants, élargissant ainsi la portée et l'utilité du contenu de Wikipédia.

Ce que Kaggle apporte à la table

Brenda Flynn, responsable des partenariats chez Kaggle, a exprimé son enthousiasme à l'idée d'héberger les données de Wikimedia. "En tant que lieu où la communauté de l'apprentissage automatique vient chercher des outils et des tests, Kaggle est extrêmement enthousiaste d'être l'hôte des données de la Wikimedia Foundation", a-t-elle déclaré. Le rôle de Kaggle est crucial pour maintenir ces données non seulement accessibles, mais aussi pertinentes et utiles pour la communauté de l'apprentissage automatique.

Cette démarche stratégique de Wikipédia vise non seulement à réduire la charge sur ses serveurs, mais également à favoriser une relation plus structurée et bénéfique avec les communautés de l'IA et de l'apprentissage automatique.

Article connexe
Salesforce Dévoile des Coéquipiers Numériques IA dans Slack pour Rivaliser avec Microsoft Copilot Salesforce Dévoile des Coéquipiers Numériques IA dans Slack pour Rivaliser avec Microsoft Copilot Le nouvel outil, Agentforce dans Slack, permet aux entreprises de créer et de déployer des agents IA spécifiques à des tâches qui recherchent dans les discussions professionnelles, accèdent aux donnée
Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas Oracle prévoit d'investir environ 40 milliards de dollars dans des puces Nvidia pour alimenter un nouveau centre de données majeur au Texas, développé par OpenAI, selon le Financial Times. Cette trans
Caractéristiques des écouteurs Sony WH-1000XM6 révélées avant le lancement Caractéristiques des écouteurs Sony WH-1000XM6 révélées avant le lancement Sony s'apprête à dévoiler le successeur de ses écouteurs à réduction de bruit WH-1000XM5 le 15 mai, selon des détails divulgués rapportés par Dealabs et Android Authority.Le prochain modèle, nommé WH-
commentaires (2)
0/200
JustinJohnson
JustinJohnson 15 août 2025 17:00:59 UTC+02:00

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin
EricMartin 31 juillet 2025 03:41:20 UTC+02:00

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

Retour en haut
OR