ニュース ウィキペディアはAI開発者にボットスクレーパーをかわすためにデータを提供しています

ウィキペディアはAI開発者にボットスクレーパーをかわすためにデータを提供しています

2025年5月1日
PeterLopez
0

ウィキペディアはAI開発者にボットスクレーパーをかわすためにデータを提供しています

AIデータスクレイピングを管理するウィキペディアの新しい戦略

ウィキペディアは、ウィキメディア財団を通じて、サーバー上のAIデータスクレイピングの影響を管理するための積極的なステップを踏んでいます。水曜日に、彼らは、Googleが所有し、データサイエンスと機械学習に専念するプラットフォームであるKaggleとのコラボレーションを発表し、ベータデータセットを立ち上げました。このデータセットには、AIトレーニング目的で特別に調整された「英語とフランス語の構造化されたウィキペディアコンテンツ」が含まれています。

Kaggleで利用可能になったデータセットは、AI開発者を念頭に置いて作成されており、機械可読な記事データにアクセスするプロセスを簡素化しています。これには、研究の要約や短い説明から画像リンク、情報ボックスデータ、さまざまな記事セクションまで、すべてが含まれます。重要なことに、このデータは公然とライセンスされており、オーディオファイルなどの参照や非テキスト要素は含まれておらず、モデリング、微調整、ベンチマークなどのAIユースケースに最適化されていることを確認してください。

Wikimediaのアプローチは、ウィキペディアのコンテンツの十分に構造化されたJSON形式を提供します。これは、生の記事テキストを削るか解析する従来の方法と比較して、AI開発者にとってより魅力的なオプションになることを期待しています。この動きは、AIボットが帯域幅の消費のためにウィキペディアのサーバーを搭載している株に部分的に対応しています。

すでに、Wikimediaは、GoogleやInternet Archiveなどの巨人とのコンテンツ共有契約を確立しています。ただし、Kaggleとのパートナーシップにより、このデータは中小企業や独立したデータサイエンティストがよりアクセスしやすく、ウィキペディアのコンテンツのリーチと有用性を拡大することが期待されています。

Kaggleがテーブルにもたらすもの

KaggleのパートナーシップのリードであるBrenda Flynnは、Wikimediaのデータをホストすることに熱意を表明しました。 「機械学習コミュニティがツールやテストを対象とした場所であるため、KaggleはWikimedia Foundationのデータのホストになることに非常に興奮しています」と彼女は述べました。 Kaggleの役割は、このデータをアクセスしやすいだけでなく、機械学習コミュニティにとって関連性があり便利に保つために重要です。

ウィキペディアによるこの戦略的な動きは、サーバーの負荷を緩和することを目指しているだけでなく、AIおよび機械学習コミュニティとのより構造的で有益な関係を促進します。

関連記事
华为的AI硬件突破对NVIDIA的主导地位构成了挑战 华为的AI硬件突破对NVIDIA的主导地位构成了挑战 华为在中国科技巨头全球AI芯片竞赛华为中的大胆举动迈出了重要的一步,可能会动摇全球AI芯片竞赛。他们引入了一个名为CloudMatrix 384超级节点的新计算系统,根据当地媒体的表现,该系统的表现相似
我们如何使用AI来帮助城市应对极端热量 我们如何使用AI来帮助城市应对极端热量 看起来2024年可能会打破迄今为止最热的一年的记录,超过了2023年。这种趋势对生活在城市热岛的人们来说尤为艰难,这些景点是在混凝土和沥青浸泡太阳射线,然后散发出热量的城市中的那些景点。这些区域可以温暖
Google搜索引入了复杂的多部分查询的“ AI模式” Google搜索引入了复杂的多部分查询的“ AI模式” Google推出了“ AI模式”,以搜索与竞争对手的困惑AI和ChatgptGoogle在AI Arena中加强游戏,并在其搜索引擎中启动了实验性的“ AI模式”功能。旨在进行困惑AI和Openai的Chatgpt搜索之类
コメント (0)
0/200
Back to Top
OR