オプション
ニュース
ウィキペディアはAI開発者にボットスクレーパーをかわすためにデータを提供しています

ウィキペディアはAI開発者にボットスクレーパーをかわすためにデータを提供しています

2025年5月1日
83

ウィキペディアはAI開発者にボットスクレーパーをかわすためにデータを提供しています

ウィキペディアのAIデータスクレイピング管理のための新戦略

ウィキペディアは、ウィキメディア財団を通じて、AIデータスクレイピングがサーバーに与える影響を管理するための積極的な措置を講じています。水曜日、彼らはGoogleが所有し、データサイエンスと機械学習に特化したプラットフォームであるKaggleと協力して、ベータデータセットを公開すると発表しました。このデータセットには「英語とフランス語の構造化されたウィキペディアコンテンツ」が含まれており、AIトレーニング目的に特化して設計されています。

Kaggleで公開されているこのデータセットは、AI開発者を念頭に置いて作成されており、機械可読な記事データへのアクセスプロセスを簡素化します。これには、研究概要、短い説明、画像リンク、インフォボックスデータ、さまざまな記事セクションなどが含まれます。重要なのは、このデータがオープンライセンスであり、参照や音声ファイルなどの非テキスト要素を含まないため、モデリング、ファインチューニング、ベンチマークなどのAIユースケースに最適化されている点です。

ウィキメディアのアプローチは、ウィキペディアのコンテンツを構造化されたJSON形式で提供するもので、従来の記事テキストのスクレイピングや解析に比べて、AI開発者にとってより魅力的な選択肢となることを期待しています。この動きは、AIボットが帯域幅を消費することでウィキペディアのサーバーに負担をかけていることへの対応でもあります。

すでにウィキメディアは、Googleやインターネットアーカイブなどの大手とコンテンツ共有契約を結んでいます。しかし、Kaggleとのパートナーシップにより、このデータは中小企業や独立したデータサイエンティストにとってよりアクセスしやすくなり、ウィキペディアのコンテンツの活用範囲と有用性が広がることが期待されています。

Kaggleがもたらすもの

Kaggleのパートナーシップ責任者であるブレンダ・フリン氏は、ウィキメディアのデータをホストすることに熱意を示しました。「機械学習コミュニティがツールやテストを求めて集まる場所として、Kaggleはウィキメディア財団のデータをホストできることに非常に興奮しています」と彼女は述べました。Kaggleの役割は、このデータをアクセス可能にするだけでなく、機械学習コミュニティにとって関連性が高く有用なものに保つ上で重要です。

ウィキペディアのこの戦略的な動きは、サーバーの負荷を軽減するだけでなく、AIおよび機械学習コミュニティとのより構造化された有益な関係を育むことを目指しています。

関連記事
SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 Salesforceは新しい職場AI戦略を発表し、月曜日にSlackの会話に統合された専門の「デジタルチームメイト」を導入した。新ツール「SlackのAgentforce」は、企業が職場チャットを検索し、会社データにアクセスし、従業員が日常的に働くメッセージングプラットフォーム内でアクションを実行するタスク特化型AIエージェントを作成・展開できる。「専門の従業員が協力して問題を解決するように、クラ
Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化 Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化 Oracleは、Financial Timesが報じたところによると、OpenAIが開発するテキサスの主要な新データセンターを動かすために、約40億ドルのNvidiaチップに投資する予定です。この取引は、これまでで最大規模のチップ取得の一つであり、AIコンピューティングリソースに対する急増する需要を強調しています。テキサス州アビリーンに位置するこの施設は、米国初の「Stargate」データセンター
ソニーWH-1000XM6ヘッドフォンの特徴が発売前に明らかに ソニーWH-1000XM6ヘッドフォンの特徴が発売前に明らかに ソニーは、DealabsおよびAndroid Authorityが報じたリーク情報に基づき、5月15日にノイズキャンセリングヘッドフォンWH-1000XM5の後継モデルを発表する予定です。次期モデルであるWH-1000XM6は、Redditユーザーが発見した、現在削除されているAmazonスペインのリストを通じて公開されました。XM6は、Dealabsによると、XM5のQN1チップよりも7倍高速な
コメント (2)
0/200
JustinJohnson
JustinJohnson 2025年8月16日 0:00:59 JST

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin
EricMartin 2025年7月31日 10:41:20 JST

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

トップに戻ります
OR