Wikipedia gibt KI -Entwicklern seine Daten, um Bot -Scrapers abzuwehren

Die neue Strategie von Wikipedia zur Verwaltung von KI -Datenkratzen
Wikipedia macht durch die Wikimedia Foundation einen proaktiven Schritt, um die Auswirkungen von KI -Daten zu verwalten, die auf seine Server abkratzen. Am Mittwoch kündigten sie eine Zusammenarbeit mit Kaggle, einer Plattform, die Google gehörte und sich der Data Science und maschinellem Lernen befasst, ein Beta -Datensatz ein. Dieser Datensatz enthält "strukturierte Wikipedia -Inhalte in Englisch und Französisch", die speziell für KI -Trainingszwecke zugeschnitten sind.
Der Datensatz, der jetzt auf Kaggle verfügbar ist, wurde mit Berücksichtigung von KI-Entwicklern hergestellt und vereinfacht den Prozess des Zugriffs maschinenlesbarer Artikeldaten. Dies umfasst alles von Forschungszusammenfassungen und kurzen Beschreibungen bis hin zu Bildlinks, Infobox -Daten und verschiedenen Artikelabschnitten. Wichtig ist, dass diese Daten offen lizenziert sind und keine Referenzen oder nicht-textuelle Elemente wie Audiodateien enthalten, um sicherzustellen, dass sie für KI-Anwendungsfälle wie Modellierung, Feinabstimmung und Benchmarking optimiert sind.
Der Ansatz von Wikimedia bietet ein gut strukturiertes JSON-Format von Wikipedia-Inhalten, von dem sie hoffen, dass sie für KI-Entwickler eine attraktivere Option im Vergleich zu der traditionellen Methode zum Abkratzen oder Parsen von Rohartikeln sind. Dieser Schritt ist teilweise auf die Belastung reagiert, die AI -Bots aufgrund ihres Bandbreitenverbrauchs auf Wikipedia -Server aufgenommen haben.
Wikimedia hat bereits Inhalte -Sharing -Vereinbarungen mit Riesen wie Google und dem Internet -Archiv geschlossen. Es wird jedoch erwartet, dass die Partnerschaft mit Kaggle diese Daten für kleinere Unternehmen und unabhängige Datenwissenschaftler zugänglicher macht und die Reichweite und den Nutzen des Inhalts von Wikipedia erweitert.
Was Kaggle an den Tisch bringt
Brenda Flynn, Kaggle's Partnerships -Leiterin, äußerte die Begeisterung für die Hosting von Wikimedia -Daten. "Da der Ort die Community für maschinelles Lernen für Tools und Tests kommt, freut sich Kaggle sehr, der Host für die Daten der Wikimedia Foundation zu sein", erklärte sie. Die Rolle von Kaggle ist entscheidend, um diese Daten nicht nur zugänglich zu halten, sondern auch relevant und nützlich für die Community für maschinelles Lernen.
Dieser strategische Schritt von Wikipedia zielt nicht nur darauf ab, die Ladung seiner Server zu lindern, sondern auch eine strukturiertere und vorteilhaftere Beziehung zur KI- und maschinellen Lerngemeinschaften zu fördern.
Verwandter Artikel
xAI ने Grok के पर्दे के पीछे के प्रॉम्प्ट्स पोस्ट किए
xAI ने विवादास्पद "व्हाइट जेनोसाइड" प्रतिक्रियाओं के बाद Grok के सिस्टम प्रॉम्प्ट्स जारी किएएक अप्रत्याशित कदम में, xAI ने अपने AI चैटबॉट Grok के सिस्टम प्रॉम्प्ट्स को सार्वजनिक करने का फैसला किया है,
Google Fi ने $35 मासिक असीमित योजना का अनावरण किया
Google Fi ने अपनी योजनाओं में बड़ा बदलाव किया: अधिक डेटा, कम कीमतें, और eSIM समर्थनGoogle Fi ने अपनी वायरलेस योजनाओं में कुछ बड़े अपडेट किए हैं—और यदि आप एक किफायती असीमित विकल्प की तलाश में हैं, तो अ
अरबपति इस सप्ताह के AI अपडेट में नौकरियों को स्वचालित करने की चर्चा करते हैं
हाय सब लोग, TechCrunch के AI न्यूज़लेटर में वापस स्वागत है! यदि आपने अभी तक सब्सक्राइब नहीं किया है, तो आप इसे हर बुधवार को सीधे अपने इनबॉक्स में प्राप्त करने के लिए यहाँ साइन अप कर सकते हैं।हमने पिछल
Kommentare (0)
0/200
Die neue Strategie von Wikipedia zur Verwaltung von KI -Datenkratzen
Wikipedia macht durch die Wikimedia Foundation einen proaktiven Schritt, um die Auswirkungen von KI -Daten zu verwalten, die auf seine Server abkratzen. Am Mittwoch kündigten sie eine Zusammenarbeit mit Kaggle, einer Plattform, die Google gehörte und sich der Data Science und maschinellem Lernen befasst, ein Beta -Datensatz ein. Dieser Datensatz enthält "strukturierte Wikipedia -Inhalte in Englisch und Französisch", die speziell für KI -Trainingszwecke zugeschnitten sind.
Der Datensatz, der jetzt auf Kaggle verfügbar ist, wurde mit Berücksichtigung von KI-Entwicklern hergestellt und vereinfacht den Prozess des Zugriffs maschinenlesbarer Artikeldaten. Dies umfasst alles von Forschungszusammenfassungen und kurzen Beschreibungen bis hin zu Bildlinks, Infobox -Daten und verschiedenen Artikelabschnitten. Wichtig ist, dass diese Daten offen lizenziert sind und keine Referenzen oder nicht-textuelle Elemente wie Audiodateien enthalten, um sicherzustellen, dass sie für KI-Anwendungsfälle wie Modellierung, Feinabstimmung und Benchmarking optimiert sind.
Der Ansatz von Wikimedia bietet ein gut strukturiertes JSON-Format von Wikipedia-Inhalten, von dem sie hoffen, dass sie für KI-Entwickler eine attraktivere Option im Vergleich zu der traditionellen Methode zum Abkratzen oder Parsen von Rohartikeln sind. Dieser Schritt ist teilweise auf die Belastung reagiert, die AI -Bots aufgrund ihres Bandbreitenverbrauchs auf Wikipedia -Server aufgenommen haben.
Wikimedia hat bereits Inhalte -Sharing -Vereinbarungen mit Riesen wie Google und dem Internet -Archiv geschlossen. Es wird jedoch erwartet, dass die Partnerschaft mit Kaggle diese Daten für kleinere Unternehmen und unabhängige Datenwissenschaftler zugänglicher macht und die Reichweite und den Nutzen des Inhalts von Wikipedia erweitert.
Was Kaggle an den Tisch bringt
Brenda Flynn, Kaggle's Partnerships -Leiterin, äußerte die Begeisterung für die Hosting von Wikimedia -Daten. "Da der Ort die Community für maschinelles Lernen für Tools und Tests kommt, freut sich Kaggle sehr, der Host für die Daten der Wikimedia Foundation zu sein", erklärte sie. Die Rolle von Kaggle ist entscheidend, um diese Daten nicht nur zugänglich zu halten, sondern auch relevant und nützlich für die Community für maschinelles Lernen.
Dieser strategische Schritt von Wikipedia zielt nicht nur darauf ab, die Ladung seiner Server zu lindern, sondern auch eine strukturiertere und vorteilhaftere Beziehung zur KI- und maschinellen Lerngemeinschaften zu fördern.












