Википедия предоставляет разработчикам искусственного интеллекта свои данные для отрыва от скребков бота

Новая стратегия Википедии по управлению сбором данных для ИИ
Википедия, через Фонд Викимедиа, предпринимает активные шаги для управления влиянием сбора данных для ИИ на свои серверы. В среду они объявили о сотрудничестве с Kaggle, платформой, принадлежащей Google и посвященной науке о данных и машинному обучению, для запуска бета-версии набора данных. Этот набор данных содержит «структурированный контент Википедии на английском и французском языках», специально адаптированный для целей обучения ИИ.
Набор данных, теперь доступный на Kaggle, создан с учетом потребностей разработчиков ИИ, упрощая процесс доступа к машиночитаемым данным статей. Это включает в себя всё: от исследовательских сводок и кратких описаний до ссылок на изображения, данных инфобоксов и различных разделов статей. Важно, что эти данные имеют открытую лицензию и не включают ссылки или нетекстовые элементы, такие как аудиофайлы, что оптимизировано для использования в ИИ, таких как моделирование, тонкая настройка и тестирование.
Подход Викимедиа предлагает хорошо структурированный JSON-формат контента Википедии, который, как они надеются, станет более привлекательным вариантом для разработчиков ИИ по сравнению с традиционным методом сбора или парсинга необработанного текста статей. Этот шаг частично является ответом на нагрузку, которую боты ИИ создают на серверах Википедии из-за потребления пропускной способности.
Уже сейчас Викимедиа заключила соглашения о совместном использовании контента с такими гигантами, как Google и Internet Archive. Однако партнерство с Kaggle, как ожидается, сделает эти данные более доступными для небольших компаний и независимых ученых-данных, расширяя охват и полезность контента Википедии.
Что Kaggle приносит в этот процесс
Бренда Флинн, руководитель партнерств Kaggle, выразила энтузиазм по поводу размещения данных Викимедиа. «Как место, куда сообщество машинного обучения приходит за инструментами и тестами, Kaggle чрезвычайно взволнован тем, что стал хостом для данных Фонда Викимедиа», — заявила она. Роль Kaggle имеет решающее значение для того, чтобы эти данные оставались не только доступными, но также актуальными и полезными для сообщества машинного обучения.
Этот стратегический шаг Википедии направлен не только на снижение нагрузки на её серверы, но и на развитие более структурированных и взаимовыгодных отношений с сообществами ИИ и машинного обучения.
Связанная статья
Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot
Salesforce запустила новую стратегию ИИ для рабочего места, представив специализированных «цифровых помощников», интегрированных в беседы Slack, сообщила компания в понедельник.Новый инструмент, Agent
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе
Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
Особенности наушников Sony WH-1000XM6 раскрыты перед запуском
Sony готовится представить преемника своих наушников с шумоподавлением WH-1000XM5 15 мая, согласно утекшим данным, опубликованным Dealabs и Android Authority.Новая модель, названная WH-1000XM6, была р
Комментарии (2)
JustinJohnson
15 августа 2025 г., 18:00:59 GMT+03:00
Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️
0
EricMartin
31 июля 2025 г., 4:41:20 GMT+03:00
Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔
0
Новая стратегия Википедии по управлению сбором данных для ИИ
Википедия, через Фонд Викимедиа, предпринимает активные шаги для управления влиянием сбора данных для ИИ на свои серверы. В среду они объявили о сотрудничестве с Kaggle, платформой, принадлежащей Google и посвященной науке о данных и машинному обучению, для запуска бета-версии набора данных. Этот набор данных содержит «структурированный контент Википедии на английском и французском языках», специально адаптированный для целей обучения ИИ.
Набор данных, теперь доступный на Kaggle, создан с учетом потребностей разработчиков ИИ, упрощая процесс доступа к машиночитаемым данным статей. Это включает в себя всё: от исследовательских сводок и кратких описаний до ссылок на изображения, данных инфобоксов и различных разделов статей. Важно, что эти данные имеют открытую лицензию и не включают ссылки или нетекстовые элементы, такие как аудиофайлы, что оптимизировано для использования в ИИ, таких как моделирование, тонкая настройка и тестирование.
Подход Викимедиа предлагает хорошо структурированный JSON-формат контента Википедии, который, как они надеются, станет более привлекательным вариантом для разработчиков ИИ по сравнению с традиционным методом сбора или парсинга необработанного текста статей. Этот шаг частично является ответом на нагрузку, которую боты ИИ создают на серверах Википедии из-за потребления пропускной способности.
Уже сейчас Викимедиа заключила соглашения о совместном использовании контента с такими гигантами, как Google и Internet Archive. Однако партнерство с Kaggle, как ожидается, сделает эти данные более доступными для небольших компаний и независимых ученых-данных, расширяя охват и полезность контента Википедии.
Что Kaggle приносит в этот процесс
Бренда Флинн, руководитель партнерств Kaggle, выразила энтузиазм по поводу размещения данных Викимедиа. «Как место, куда сообщество машинного обучения приходит за инструментами и тестами, Kaggle чрезвычайно взволнован тем, что стал хостом для данных Фонда Викимедиа», — заявила она. Роль Kaggle имеет решающее значение для того, чтобы эти данные оставались не только доступными, но также актуальными и полезными для сообщества машинного обучения.
Этот стратегический шаг Википедии направлен не только на снижение нагрузки на её серверы, но и на развитие более структурированных и взаимовыгодных отношений с сообществами ИИ и машинного обучения.



Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️




Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔












