Дом Новости Википедия предоставляет разработчикам искусственного интеллекта свои данные для отрыва от скребков бота

Википедия предоставляет разработчикам искусственного интеллекта свои данные для отрыва от скребков бота

1 мая 2025 г.
PeterLopez
0

Википедия предоставляет разработчикам искусственного интеллекта свои данные для отрыва от скребков бота

Новая стратегия Википедии по управлению соскобкой данных ИИ

Википедия, через Фонд Викимедии, делает упреждающий шаг для управления влиянием соскоба ИИ на своих серверах. В среду они объявили о сотрудничестве с Kaggle, платформой, принадлежащей Google, и посвященной науке о данных и машинном обучении, чтобы запустить бета -набор данных. Этот набор данных содержит «структурированное содержание Википедии на английском и французском языке», специально предназначенное для учебных целей.

Набор данных, который теперь доступен на Kaggle, был создан с учетом разработчиков ИИ, упрощая процесс доступа к машино читаемым статьям. Это включает в себя все, от резюме исследований и коротких описаний до ссылок на изображение, данные Infobox и различные разделы статьи. Важно отметить, что эти данные открыто лицензированы и не включают в себя ссылки или не текстовые элементы, такие как аудиофайлы, обеспечивая оптимизированные для таких вариантов использования искусственного интеллекта, как моделирование, точная настройка и сравнительный анализ.

Подход Wikimedia предлагает хорошо структурированный формат JSON содержания Википедии, который, как они надеются, станет более привлекательным вариантом для разработчиков искусственного интеллекта по сравнению с традиционным методом очистки или анализа необработанного текста статьи. Этот шаг частично в ответ на штамм, который боты ИИ надевают на серверы Википедии из -за их потребления полосы пропускания.

Wikimedia уже заключила соглашения об обмене контентом с такими гигантами, как Google и Интернет -архив. Тем не менее, ожидается, что партнерство с Kaggle сделает эти данные более доступными для небольших компаний и независимых ученых данных, расширяя охват и полезность содержания Википедии.

Что Kaggle приносит на стол

Бренда Флинн, руководитель партнеров Kaggle, выразила энтузиазм по поводу размещения данных Wikimedia. «Поскольку место, где сообщество машинного обучения приходит для инструментов и тестов, Kaggle чрезвычайно взволнована, чтобы стать хостом данных Фонда Викимедии», - заявила она. Роль Kaggle имеет решающее значение в поддержании этих данных не только доступными, но и актуальными и полезными для сообщества машинного обучения.

Этот стратегический шаг Википедии не только направлен на облегчение нагрузки на его серверы, но и способствует более структурированным и полезным отношениям с ИИ и сообществами машинного обучения.

Связанная статья
华为的AI硬件突破对NVIDIA的主导地位构成了挑战 华为的AI硬件突破对NVIDIA的主导地位构成了挑战 华为在中国科技巨头全球AI芯片竞赛华为中的大胆举动迈出了重要的一步,可能会动摇全球AI芯片竞赛。他们引入了一个名为CloudMatrix 384超级节点的新计算系统,根据当地媒体的表现,该系统的表现相似
我们如何使用AI来帮助城市应对极端热量 我们如何使用AI来帮助城市应对极端热量 看起来2024年可能会打破迄今为止最热的一年的记录,超过了2023年。这种趋势对生活在城市热岛的人们来说尤为艰难,这些景点是在混凝土和沥青浸泡太阳射线,然后散发出热量的城市中的那些景点。这些区域可以温暖
Google搜索引入了复杂的多部分查询的“ AI模式” Google搜索引入了复杂的多部分查询的“ AI模式” Google推出了“ AI模式”,以搜索与竞争对手的困惑AI和ChatgptGoogle在AI Arena中加强游戏,并在其搜索引擎中启动了实验性的“ AI模式”功能。旨在进行困惑AI和Openai的Chatgpt搜索之类
Лучшие новости
Настройки для дата -центров США могут разблокировать 76 ГВт новой мощности. Прорыв в обнаружении лесных пожаров: как новое созвездие спутников может обнаруживать меньшие лесные пожары раньше ИИ вычисления для потребления мощности нескольких Нью -Йорка к 2026 году, говорит основатель Генеральный директор NVIDIA разъясняет заблуждения о влиянии на рынок DeepSeek Google.org раскрывает гранты на обучение AI за 15 миллионов долларов для государственных работников Пренебрежение этикой ИИ представляет огромные риски: как реализовать ИИ ответственно Workhelix использует многолетние исследования для руководства предприятиями в приложении искусственного интеллекта ИИ может быть ключом к разблокировке более эффективного государственного сектора Великобритании Adobe представляет 10 специализированных агентов искусственного интеллекта: открыть для себя их бизнес -приложения NoteBooklm добавляет функцию обнаружения веб -источника
Более
Back to Top
OR