Википедия предоставляет разработчикам искусственного интеллекта свои данные для отрыва от скребков бота

Дом

Новости

1 мая 2025 г.

PeterLopez

# ai # News # Tech # Web

Википедия предоставляет разработчикам искусственного интеллекта свои данные для отрыва от скребков бота

Новая стратегия Википедии по управлению сбором данных для ИИ

Википедия, через Фонд Викимедиа, предпринимает активные шаги для управления влиянием сбора данных для ИИ на свои серверы. В среду они объявили о сотрудничестве с Kaggle, платформой, принадлежащей Google и посвященной науке о данных и машинному обучению, для запуска бета-версии набора данных. Этот набор данных содержит «структурированный контент Википедии на английском и французском языках», специально адаптированный для целей обучения ИИ.

Набор данных, теперь доступный на Kaggle, создан с учетом потребностей разработчиков ИИ, упрощая процесс доступа к машиночитаемым данным статей. Это включает в себя всё: от исследовательских сводок и кратких описаний до ссылок на изображения, данных инфобоксов и различных разделов статей. Важно, что эти данные имеют открытую лицензию и не включают ссылки или нетекстовые элементы, такие как аудиофайлы, что оптимизировано для использования в ИИ, таких как моделирование, тонкая настройка и тестирование.

Подход Викимедиа предлагает хорошо структурированный JSON-формат контента Википедии, который, как они надеются, станет более привлекательным вариантом для разработчиков ИИ по сравнению с традиционным методом сбора или парсинга необработанного текста статей. Этот шаг частично является ответом на нагрузку, которую боты ИИ создают на серверах Википедии из-за потребления пропускной способности.

Уже сейчас Викимедиа заключила соглашения о совместном использовании контента с такими гигантами, как Google и Internet Archive. Однако партнерство с Kaggle, как ожидается, сделает эти данные более доступными для небольших компаний и независимых ученых-данных, расширяя охват и полезность контента Википедии.

Что Kaggle приносит в этот процесс

Бренда Флинн, руководитель партнерств Kaggle, выразила энтузиазм по поводу размещения данных Викимедиа. «Как место, куда сообщество машинного обучения приходит за инструментами и тестами, Kaggle чрезвычайно взволнован тем, что стал хостом для данных Фонда Викимедиа», — заявила она. Роль Kaggle имеет решающее значение для того, чтобы эти данные оставались не только доступными, но также актуальными и полезными для сообщества машинного обучения.

Этот стратегический шаг Википедии направлен не только на снижение нагрузки на её серверы, но и на развитие более структурированных и взаимовыгодных отношений с сообществами ИИ и машинного обучения.

Связанная статья

США введут санкции против иностранных чиновников из-за правил пользования социальными сетями США выступают против глобального регулирования цифрового контентаНа этой неделе Государственный департамент США выступил с резким дипломатическим обвинением в адрес европейской политики управления ц

"Dot AI Companion объявляет о закрытии и прекращает предоставление персонализированных услуг" Dot, приложение-компаньон с искусственным интеллектом, предназначенное для работы в качестве личного друга и доверенного лица, прекращает свою работу, как сообщили в пятницу его разработчики. New Comp

Anthropic разрешила судебное дело о пиратстве книг, созданных искусственным интеллектом Компания Anthropic достигла разрешения значительного спора с американскими авторами по поводу авторских прав, согласившись на предложенное урегулирование коллективного иска, которое позволит избежать

Комментарии (2)

0/200

Представлять на рассмотрение

JustinJohnson

15 августа 2025 г., 18:00:59 GMT+03:00

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin

31 июля 2025 г., 4:41:20 GMT+03:00

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

Лучшие новости

Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами Gemini 2.5 Pro в настоящее время неограничен и дешевле, чем Claude, GPT-4O Озвучка с помощью ИИ: Ультимативное руководство по созданию реалистичных голосов ИИ ИИ Cambium превращает отходы в пиломатериалы AI Builder и Power Automate Революционизируют Суммирование Документов OpenAI улучшает AI Voice Assistant для лучших чатов Как гарантировать, что ваши данные заслуживают доверия для интеграции искусственного интеллекта NoteBooklm расширяется во всем мире, добавляет слайды и расширенную проверку фактов Настройки для дата -центров США могут разблокировать 76 ГВт новой мощности. Google использует ИИ для приостановки более 39 миллионов счетов объявлений о подозрении на мошенничество

Более

Показан