Wikipedia gibt KI -Entwicklern seine Daten, um Bot -Scrapers abzuwehren

Heim

Nachricht

1. Mai 2025

PeterLopez

109

# ai # News # Tech # Web

Wikipedia gibt KI -Entwicklern seine Daten, um Bot -Scrapers abzuwehren

Wikipedias neue Strategie zur Verwaltung von KI-Datenscraping

Wikipedia, über die Wikimedia Foundation, unternimmt proaktive Schritte, um die Auswirkungen von KI-Datenscraping auf seine Server zu bewältigen. Am Mittwoch kündigten sie eine Zusammenarbeit mit Kaggle an, einer von Google betriebenen Plattform für Datenwissenschaft und maschinelles Lernen, um ein Beta-Datenset zu starten. Dieses Datenset enthält „strukturierte Wikipedia-Inhalte auf Englisch und Französisch“, die speziell für KI-Trainingszwecke zugeschnitten sind.

Das nun auf Kaggle verfügbare Datenset wurde mit Blick auf KI-Entwickler erstellt und vereinfacht den Zugriff auf maschinenlesbare Artikeldaten. Dazu gehören Forschungszusammenfassungen, Kurzbeschreibungen, Bildlinks, Infobox-Daten und verschiedene Artikelabschnitte. Wichtig ist, dass diese Daten offen lizenziert sind und keine Referenzen oder nicht-textuelle Elemente wie Audiodateien enthalten, um für KI-Anwendungsfälle wie Modellierung, Feinabstimmung und Benchmarking optimiert zu sein.

Wikimedias Ansatz bietet ein gut strukturiertes JSON-Format von Wikipedias Inhalten, das für KI-Entwickler eine attraktivere Option sein soll als das traditionelle Scraping oder Parsen von rohem Artikeltext. Dieser Schritt erfolgt teilweise als Reaktion auf die Belastung, die KI-Bots durch ihren Bandbreitenverbrauch auf Wikipedias Server ausüben.

Wikimedia hat bereits Inhalte-Sharing-Vereinbarungen mit Giganten wie Google und dem Internet Archive. Die Partnerschaft mit Kaggle soll diese Daten jedoch auch für kleinere Unternehmen und unabhängige Datenwissenschaftler zugänglicher machen und die Reichweite sowie den Nutzen von Wikipedias Inhalten erweitern.

Was Kaggle mitbringt

Brenda Flynn, Kaggles Partnerschaftsleiterin, zeigte sich begeistert, Wikimedias Daten zu hosten. „Als der Ort, an dem die Machine-Learning-Community nach Tools und Tests sucht, ist Kaggle extrem begeistert, der Host für die Daten der Wikimedia Foundation zu sein“, erklärte sie. Kaggles Rolle ist entscheidend, um diese Daten nicht nur zugänglich, sondern auch relevant und nützlich für die Machine-Learning-Community zu halten.

Dieser strategische Schritt von Wikipedia zielt nicht nur darauf ab, die Belastung seiner Server zu verringern, sondern fördert auch eine strukturiertere und vorteilhaftere Beziehung zu den KI- und Machine-Learning-Communities.

Verwandter Artikel

WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr

Kakao Mobility stellt einen Fahrplan für autonomes Fahren der Stufe 4 im Bereich der physischen KI vor Kakao Mobility plant, im Rahmen seiner Strategie für physische KI Technologien für autonomes Fahren der Stufe 4 intern zu entwickeln.Auf der Konferenz „World IT Show 2026“ im COEX in Seoul stellte Ki

Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon

Empfehlungen zu verwandten Spezialthemen

Geschäft

Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren

Die besten KI-basierten Spesenmanager 2026: Erstklassige Tools zum Scannen von Belegen und zur automatischen Kategorisierung von Unternehmensausgaben. Entdecken Sie leistungsstarke, bahnbrechende Lösungen für müheloses Spesenmanagement, präzise Finanzüberwachung und optimierte Compliance. Unser sorgfältig zusammengestellter, wöchentlich aktualisierter Vergleich zwischen kostenlosen und kostenpflichtigen Optionen hilft Ihnen dabei, die perfekte Lösung zu finden. Nutzen Sie Ihren KI-Vorteil mit den Expertenempfehlungen von XIX.AI.

10 Tools

xix.ai

Geschäft

Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren

Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!

10 Tools

xix.ai

Produktivität

KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools

xix.ai

Chatbot

Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools

xix.ai

Bildung und Lernen

Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools

xix.ai

Chatbot

Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools

xix.ai

Kommentare (3)

0/500

Bitte melden Sie sich zuerst an

AvaHill

9. Oktober 2025 22:30:33 MESZ

Me pregunto si esto realmente resolverá el problema de los scrapers 🤔. Wikipedia dando sus datos podría ser un arma de doble filo, pero al menos están intentando algo diferente. ¡Bravo por la iniciativa!

JustinJohnson

15. August 2025 17:00:59 MESZ

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin

31. Juli 2025 03:41:20 MESZ

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

Top -Nachrichten

AI Builder und Power Automate Revolutionieren die Dokumentenzusammenfassung KI -Hosts des Notebooklm -Podcasts, das jetzt für Interviews verfügbar ist China stellt nationale Standards für humanoide Roboter und verkörperte Intelligenz vor Ramp-Daten zeigen, dass die Akzeptanz von KI in Unternehmen sinkt Bing Image Creator Tutorial: Anleitung zur KI-Kunstgenerierung Lernen Sie, AI-Musik mit Ihrer Stimme zu erstellen: ein Schritt-für-Schritt-Suno-Tutorial iMyFone MagicMic: Echtzeit-AI-Stimmerveränderer Bewertung und Tutorial Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen DeepSeek V4 revolutioniert multimodale KI Embodied Intelligence stellt ersten Branchenstandard zur Eindämmung unkontrollierten Wachstums vor

Mehr

Vorgestellt