Wikipedia gibt KI -Entwicklern seine Daten, um Bot -Scrapers abzuwehren
1. Mai 2025
PeterLopez
0

Die neue Strategie von Wikipedia zur Verwaltung von KI -Datenkratzen
Wikipedia macht durch die Wikimedia Foundation einen proaktiven Schritt, um die Auswirkungen von KI -Daten zu verwalten, die auf seine Server abkratzen. Am Mittwoch kündigten sie eine Zusammenarbeit mit Kaggle, einer Plattform, die Google gehörte und sich der Data Science und maschinellem Lernen befasst, ein Beta -Datensatz ein. Dieser Datensatz enthält "strukturierte Wikipedia -Inhalte in Englisch und Französisch", die speziell für KI -Trainingszwecke zugeschnitten sind.
Der Datensatz, der jetzt auf Kaggle verfügbar ist, wurde mit Berücksichtigung von KI-Entwicklern hergestellt und vereinfacht den Prozess des Zugriffs maschinenlesbarer Artikeldaten. Dies umfasst alles von Forschungszusammenfassungen und kurzen Beschreibungen bis hin zu Bildlinks, Infobox -Daten und verschiedenen Artikelabschnitten. Wichtig ist, dass diese Daten offen lizenziert sind und keine Referenzen oder nicht-textuelle Elemente wie Audiodateien enthalten, um sicherzustellen, dass sie für KI-Anwendungsfälle wie Modellierung, Feinabstimmung und Benchmarking optimiert sind.
Der Ansatz von Wikimedia bietet ein gut strukturiertes JSON-Format von Wikipedia-Inhalten, von dem sie hoffen, dass sie für KI-Entwickler eine attraktivere Option im Vergleich zu der traditionellen Methode zum Abkratzen oder Parsen von Rohartikeln sind. Dieser Schritt ist teilweise auf die Belastung reagiert, die AI -Bots aufgrund ihres Bandbreitenverbrauchs auf Wikipedia -Server aufgenommen haben.
Wikimedia hat bereits Inhalte -Sharing -Vereinbarungen mit Riesen wie Google und dem Internet -Archiv geschlossen. Es wird jedoch erwartet, dass die Partnerschaft mit Kaggle diese Daten für kleinere Unternehmen und unabhängige Datenwissenschaftler zugänglicher macht und die Reichweite und den Nutzen des Inhalts von Wikipedia erweitert.
Was Kaggle an den Tisch bringt
Brenda Flynn, Kaggle's Partnerships -Leiterin, äußerte die Begeisterung für die Hosting von Wikimedia -Daten. "Da der Ort die Community für maschinelles Lernen für Tools und Tests kommt, freut sich Kaggle sehr, der Host für die Daten der Wikimedia Foundation zu sein", erklärte sie. Die Rolle von Kaggle ist entscheidend, um diese Daten nicht nur zugänglich zu halten, sondern auch relevant und nützlich für die Community für maschinelles Lernen.
Dieser strategische Schritt von Wikipedia zielt nicht nur darauf ab, die Ladung seiner Server zu lindern, sondern auch eine strukturiertere und vorteilhaftere Beziehung zur KI- und maschinellen Lerngemeinschaften zu fördern.
Verwandter Artikel
华为的AI硬件突破对NVIDIA的主导地位构成了挑战
华为在中国科技巨头全球AI芯片竞赛华为中的大胆举动迈出了重要的一步,可能会动摇全球AI芯片竞赛。他们引入了一个名为CloudMatrix 384超级节点的新计算系统,根据当地媒体的表现,该系统的表现相似
我们如何使用AI来帮助城市应对极端热量
看起来2024年可能会打破迄今为止最热的一年的记录,超过了2023年。这种趋势对生活在城市热岛的人们来说尤为艰难,这些景点是在混凝土和沥青浸泡太阳射线,然后散发出热量的城市中的那些景点。这些区域可以温暖
Google搜索引入了复杂的多部分查询的“ AI模式”
Google推出了“ AI模式”,以搜索与竞争对手的困惑AI和ChatgptGoogle在AI Arena中加强游戏,并在其搜索引擎中启动了实验性的“ AI模式”功能。旨在进行困惑AI和Openai的Chatgpt搜索之类
Kommentare (0)
0/200






Die neue Strategie von Wikipedia zur Verwaltung von KI -Datenkratzen
Wikipedia macht durch die Wikimedia Foundation einen proaktiven Schritt, um die Auswirkungen von KI -Daten zu verwalten, die auf seine Server abkratzen. Am Mittwoch kündigten sie eine Zusammenarbeit mit Kaggle, einer Plattform, die Google gehörte und sich der Data Science und maschinellem Lernen befasst, ein Beta -Datensatz ein. Dieser Datensatz enthält "strukturierte Wikipedia -Inhalte in Englisch und Französisch", die speziell für KI -Trainingszwecke zugeschnitten sind.
Der Datensatz, der jetzt auf Kaggle verfügbar ist, wurde mit Berücksichtigung von KI-Entwicklern hergestellt und vereinfacht den Prozess des Zugriffs maschinenlesbarer Artikeldaten. Dies umfasst alles von Forschungszusammenfassungen und kurzen Beschreibungen bis hin zu Bildlinks, Infobox -Daten und verschiedenen Artikelabschnitten. Wichtig ist, dass diese Daten offen lizenziert sind und keine Referenzen oder nicht-textuelle Elemente wie Audiodateien enthalten, um sicherzustellen, dass sie für KI-Anwendungsfälle wie Modellierung, Feinabstimmung und Benchmarking optimiert sind.
Der Ansatz von Wikimedia bietet ein gut strukturiertes JSON-Format von Wikipedia-Inhalten, von dem sie hoffen, dass sie für KI-Entwickler eine attraktivere Option im Vergleich zu der traditionellen Methode zum Abkratzen oder Parsen von Rohartikeln sind. Dieser Schritt ist teilweise auf die Belastung reagiert, die AI -Bots aufgrund ihres Bandbreitenverbrauchs auf Wikipedia -Server aufgenommen haben.
Wikimedia hat bereits Inhalte -Sharing -Vereinbarungen mit Riesen wie Google und dem Internet -Archiv geschlossen. Es wird jedoch erwartet, dass die Partnerschaft mit Kaggle diese Daten für kleinere Unternehmen und unabhängige Datenwissenschaftler zugänglicher macht und die Reichweite und den Nutzen des Inhalts von Wikipedia erweitert.
Was Kaggle an den Tisch bringt
Brenda Flynn, Kaggle's Partnerships -Leiterin, äußerte die Begeisterung für die Hosting von Wikimedia -Daten. "Da der Ort die Community für maschinelles Lernen für Tools und Tests kommt, freut sich Kaggle sehr, der Host für die Daten der Wikimedia Foundation zu sein", erklärte sie. Die Rolle von Kaggle ist entscheidend, um diese Daten nicht nur zugänglich zu halten, sondern auch relevant und nützlich für die Community für maschinelles Lernen.
Dieser strategische Schritt von Wikipedia zielt nicht nur darauf ab, die Ladung seiner Server zu lindern, sondern auch eine strukturiertere und vorteilhaftere Beziehung zur KI- und maschinellen Lerngemeinschaften zu fördern.











