Wikipedia gibt KI -Entwicklern seine Daten, um Bot -Scrapers abzuwehren

Wikipedias neue Strategie zur Verwaltung von KI-Datenscraping
Wikipedia, über die Wikimedia Foundation, unternimmt proaktive Schritte, um die Auswirkungen von KI-Datenscraping auf seine Server zu bewältigen. Am Mittwoch kündigten sie eine Zusammenarbeit mit Kaggle an, einer von Google betriebenen Plattform für Datenwissenschaft und maschinelles Lernen, um ein Beta-Datenset zu starten. Dieses Datenset enthält „strukturierte Wikipedia-Inhalte auf Englisch und Französisch“, die speziell für KI-Trainingszwecke zugeschnitten sind.
Das nun auf Kaggle verfügbare Datenset wurde mit Blick auf KI-Entwickler erstellt und vereinfacht den Zugriff auf maschinenlesbare Artikeldaten. Dazu gehören Forschungszusammenfassungen, Kurzbeschreibungen, Bildlinks, Infobox-Daten und verschiedene Artikelabschnitte. Wichtig ist, dass diese Daten offen lizenziert sind und keine Referenzen oder nicht-textuelle Elemente wie Audiodateien enthalten, um für KI-Anwendungsfälle wie Modellierung, Feinabstimmung und Benchmarking optimiert zu sein.
Wikimedias Ansatz bietet ein gut strukturiertes JSON-Format von Wikipedias Inhalten, das für KI-Entwickler eine attraktivere Option sein soll als das traditionelle Scraping oder Parsen von rohem Artikeltext. Dieser Schritt erfolgt teilweise als Reaktion auf die Belastung, die KI-Bots durch ihren Bandbreitenverbrauch auf Wikipedias Server ausüben.
Wikimedia hat bereits Inhalte-Sharing-Vereinbarungen mit Giganten wie Google und dem Internet Archive. Die Partnerschaft mit Kaggle soll diese Daten jedoch auch für kleinere Unternehmen und unabhängige Datenwissenschaftler zugänglicher machen und die Reichweite sowie den Nutzen von Wikipedias Inhalten erweitern.
Was Kaggle mitbringt
Brenda Flynn, Kaggles Partnerschaftsleiterin, zeigte sich begeistert, Wikimedias Daten zu hosten. „Als der Ort, an dem die Machine-Learning-Community nach Tools und Tests sucht, ist Kaggle extrem begeistert, der Host für die Daten der Wikimedia Foundation zu sein“, erklärte sie. Kaggles Rolle ist entscheidend, um diese Daten nicht nur zugänglich, sondern auch relevant und nützlich für die Machine-Learning-Community zu halten.
Dieser strategische Schritt von Wikipedia zielt nicht nur darauf ab, die Belastung seiner Server zu verringern, sondern fördert auch eine strukturiertere und vorteilhaftere Beziehung zu den KI- und Machine-Learning-Communities.
Verwandter Artikel
WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr
WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr
Kakao Mobility stellt einen Fahrplan für autonomes Fahren der Stufe 4 im Bereich der physischen KI vor
Kakao Mobility plant, im Rahmen seiner Strategie für physische KI Technologien für autonomes Fahren der Stufe 4 intern zu entwickeln.Auf der Konferenz „World IT Show 2026“ im COEX in Seoul stellte Ki
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
Empfehlungen zu verwandten Spezialthemen
Kommentare (3)
Me pregunto si esto realmente resolverá el problema de los scrapers 🤔. Wikipedia dando sus datos podría ser un arma de doble filo, pero al menos están intentando algo diferente. ¡Bravo por la iniciativa!
Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

Wikipedias neue Strategie zur Verwaltung von KI-Datenscraping
Wikipedia, über die Wikimedia Foundation, unternimmt proaktive Schritte, um die Auswirkungen von KI-Datenscraping auf seine Server zu bewältigen. Am Mittwoch kündigten sie eine Zusammenarbeit mit Kaggle an, einer von Google betriebenen Plattform für Datenwissenschaft und maschinelles Lernen, um ein Beta-Datenset zu starten. Dieses Datenset enthält „strukturierte Wikipedia-Inhalte auf Englisch und Französisch“, die speziell für KI-Trainingszwecke zugeschnitten sind.
Das nun auf Kaggle verfügbare Datenset wurde mit Blick auf KI-Entwickler erstellt und vereinfacht den Zugriff auf maschinenlesbare Artikeldaten. Dazu gehören Forschungszusammenfassungen, Kurzbeschreibungen, Bildlinks, Infobox-Daten und verschiedene Artikelabschnitte. Wichtig ist, dass diese Daten offen lizenziert sind und keine Referenzen oder nicht-textuelle Elemente wie Audiodateien enthalten, um für KI-Anwendungsfälle wie Modellierung, Feinabstimmung und Benchmarking optimiert zu sein.
Wikimedias Ansatz bietet ein gut strukturiertes JSON-Format von Wikipedias Inhalten, das für KI-Entwickler eine attraktivere Option sein soll als das traditionelle Scraping oder Parsen von rohem Artikeltext. Dieser Schritt erfolgt teilweise als Reaktion auf die Belastung, die KI-Bots durch ihren Bandbreitenverbrauch auf Wikipedias Server ausüben.
Wikimedia hat bereits Inhalte-Sharing-Vereinbarungen mit Giganten wie Google und dem Internet Archive. Die Partnerschaft mit Kaggle soll diese Daten jedoch auch für kleinere Unternehmen und unabhängige Datenwissenschaftler zugänglicher machen und die Reichweite sowie den Nutzen von Wikipedias Inhalten erweitern.
Was Kaggle mitbringt
Brenda Flynn, Kaggles Partnerschaftsleiterin, zeigte sich begeistert, Wikimedias Daten zu hosten. „Als der Ort, an dem die Machine-Learning-Community nach Tools und Tests sucht, ist Kaggle extrem begeistert, der Host für die Daten der Wikimedia Foundation zu sein“, erklärte sie. Kaggles Rolle ist entscheidend, um diese Daten nicht nur zugänglich, sondern auch relevant und nützlich für die Machine-Learning-Community zu halten.
Dieser strategische Schritt von Wikipedia zielt nicht nur darauf ab, die Belastung seiner Server zu verringern, sondern fördert auch eine strukturiertere und vorteilhaftere Beziehung zu den KI- und Machine-Learning-Communities.
WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr
WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
Me pregunto si esto realmente resolverá el problema de los scrapers 🤔. Wikipedia dando sus datos podría ser un arma de doble filo, pero al menos están intentando algo diferente. ¡Bravo por la iniciativa!
Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️





Heim






