ウィキペディア、データアクセス強化のためAI企業と提携

ウィキメディア・ドイチュランドは今週水曜日、AIモデルによるウィキペディアの膨大な知識リポジトリへのアクセスを強化するための新しいデータベースを発表した。
Wikidata Embedding Projectと名付けられたこのイニシアチブは、ベクトルベースのセマンティック検索技術を活用し、コンピュータが単語の意味や関係を把握できるようにするもので、ウィキペディアの姉妹プラットフォームにまたがる約1億2千万項目の膨大なネットワークに適用されている。
AIとデータソースの通信を促進するフレームワークであるモデルコンテキストプロトコル(MCP)の互換性が追加されたことで、このプロジェクトは、大規模な言語モデルが自然言語クエリを通じてどのように対話し、情報を取得するかを改善する。
ウィキメディアのドイツ部門は、ニューラル検索のスペシャリストであるJina.AIや、リアルタイムのトレーニングデータを専門とするIBM傘下のDataStaxとともに、この取り組みの先頭に立った。
ウィキデータは長い間、ウィキメディアの資産から機械可読データを提供してきたが、以前のツールはキーワード検索とSPARQLクエリに限られていた。このアップグレードされたシステムは、検索拡張生成(RAG)機能を強化し、AI開発者がウィキペディアの編集者によって検証された知識ベースにモデルを固定できるようにする。
このデータベースは、豊富な意味的文脈を持つデータを構造化する。例えば、"scientist "を検索すると、多言語翻訳、キュレーションされたウィキメディアの画像、"researchcher "や "scholar "といった関連用語とともに、著名な原子力科学者やベル研究所の研究者のリストが返される。
Toolforgeからアクセスできるウィキデータは、10月9日に開発者向けウェビナーを開催し、このプラットフォームの可能性を紹介する。
Disrupt 2025で10,000人以上のテック企業やVCのパイオニアとつながろう
Netflix、Box、a16z、ElevenLabs、Vinod Khoslaといった業界の巨人たちが、スタートアップの成長戦略や技術的洞察を満載した200以上のセッションに参加します。早割チケットは、一般入場開始前の今なら最大444ドルお得です。
Disrupt 2025で10,000人以上のテック企業やVCのパイオニアとつながろう
Netflix、Box、a16z、ElevenLabs、Vinod Khoslaといった業界の巨人たちが、スタートアップの成長戦略や技術的洞察を満載した200以上のセッションに参加します。一般入場が開始される前に、最大444ドルお得な早割チケットを今すぐ確保しよう。
AI開発者がモデル改良のためにプレミアム・データソースを求める傾向が強まる中、今回の発表が実現した。現代の学習システムは、単純なデータセットではなく、複雑なエコシステムとなっているが、特に精度が重要なアプリケーションでは、細心の注意を払ってキュレーションされた情報が要求される。ウィキペディアのファクトチェックされたコンテンツは、コモン・クロールのような大量のデータセットよりもはるかに優れている。
質の高いデータの追求にはリスクが伴う:Anthropicは最近、トレーニングのための著作物の無断使用について著者から訴えられ、15億ドルの和解を提案した。
ウィキデータのAIプロジェクトリーダーであるフィリップ・サーデは、その独立性を強調した:「これは、強力なAIが企業のサイロを越えて繁栄できることを証明するもので、オープンで協力的、そして公共の利益のために構築されたものです」と彼は報道陣に語った。
関連記事
カカオ・モビリティ、物理AIに向けたレベル4自動運転のロードマップを提示
カカオ・モビリティは、フィジカルAI戦略の一環として、レベル4の自動運転技術を自社開発する計画だ。ソウルCOEXで開催された「2026ワールドITショー」のカンファレンスにおいて、カカオモビリティのフィジカルAI部門長兼副社長であるキム・ジンギュ氏がロードマップを発表した。同氏の講演は、フィジカルAI時代におけるモビリティプラットフォームを軸とした自動運転サービスに焦点を当てたものだった。聯合
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
YouTube、政治家、政府関係者、ジャーナリストを対象にAIによるディープフェイク検出機能を拡大
火曜日、YouTubeは、ディープフェイク検出技術を、特定の政府関係者、政治家候補者、ジャーナリストを対象に拡大すると発表した。このツールはAIによって生成された肖像を識別し、パイロットプログラムの参加者は、YouTubeのポリシーに違反していると判断した無断コンテンツの削除をリクエストできるようになる。この検出システムは、先行するテスト段階を経て、昨年、YouTubeパートナープログラムに参加す
関連特集おすすめ
コメント (2)
0/500
Das ist ein wirklich cleverer Schachzug von Wikipedia! Vektorsuche in ihren riesigen Datenbeständen könnte die Qualität von KI-Ausgaben enorm verbessern und vielleicht endlich mit den Halluzinationen aufräumen. Hoffentlich bleibt der Zugang aber transparent und für alle fair, damit nicht nur die großen Tech-Konzerne profitieren. Die deutsche Wikimedia-Abteilung zeigt mal wieder, dass sie vorne mitmischt. 💡

ウィキメディア・ドイチュランドは今週水曜日、AIモデルによるウィキペディアの膨大な知識リポジトリへのアクセスを強化するための新しいデータベースを発表した。
Wikidata Embedding Projectと名付けられたこのイニシアチブは、ベクトルベースのセマンティック検索技術を活用し、コンピュータが単語の意味や関係を把握できるようにするもので、ウィキペディアの姉妹プラットフォームにまたがる約1億2千万項目の膨大なネットワークに適用されている。
AIとデータソースの通信を促進するフレームワークであるモデルコンテキストプロトコル(MCP)の互換性が追加されたことで、このプロジェクトは、大規模な言語モデルが自然言語クエリを通じてどのように対話し、情報を取得するかを改善する。
ウィキメディアのドイツ部門は、ニューラル検索のスペシャリストであるJina.AIや、リアルタイムのトレーニングデータを専門とするIBM傘下のDataStaxとともに、この取り組みの先頭に立った。
ウィキデータは長い間、ウィキメディアの資産から機械可読データを提供してきたが、以前のツールはキーワード検索とSPARQLクエリに限られていた。このアップグレードされたシステムは、検索拡張生成(RAG)機能を強化し、AI開発者がウィキペディアの編集者によって検証された知識ベースにモデルを固定できるようにする。
このデータベースは、豊富な意味的文脈を持つデータを構造化する。例えば、"scientist "を検索すると、多言語翻訳、キュレーションされたウィキメディアの画像、"researchcher "や "scholar "といった関連用語とともに、著名な原子力科学者やベル研究所の研究者のリストが返される。
Toolforgeからアクセスできるウィキデータは、10月9日に開発者向けウェビナーを開催し、このプラットフォームの可能性を紹介する。
Disrupt 2025で10,000人以上のテック企業やVCのパイオニアとつながろう
Netflix、Box、a16z、ElevenLabs、Vinod Khoslaといった業界の巨人たちが、スタートアップの成長戦略や技術的洞察を満載した200以上のセッションに参加します。早割チケットは、一般入場開始前の今なら最大444ドルお得です。
Disrupt 2025で10,000人以上のテック企業やVCのパイオニアとつながろう
Netflix、Box、a16z、ElevenLabs、Vinod Khoslaといった業界の巨人たちが、スタートアップの成長戦略や技術的洞察を満載した200以上のセッションに参加します。一般入場が開始される前に、最大444ドルお得な早割チケットを今すぐ確保しよう。
AI開発者がモデル改良のためにプレミアム・データソースを求める傾向が強まる中、今回の発表が実現した。現代の学習システムは、単純なデータセットではなく、複雑なエコシステムとなっているが、特に精度が重要なアプリケーションでは、細心の注意を払ってキュレーションされた情報が要求される。ウィキペディアのファクトチェックされたコンテンツは、コモン・クロールのような大量のデータセットよりもはるかに優れている。
質の高いデータの追求にはリスクが伴う:Anthropicは最近、トレーニングのための著作物の無断使用について著者から訴えられ、15億ドルの和解を提案した。
ウィキデータのAIプロジェクトリーダーであるフィリップ・サーデは、その独立性を強調した:「これは、強力なAIが企業のサイロを越えて繁栄できることを証明するもので、オープンで協力的、そして公共の利益のために構築されたものです」と彼は報道陣に語った。
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
YouTube、政治家、政府関係者、ジャーナリストを対象にAIによるディープフェイク検出機能を拡大
火曜日、YouTubeは、ディープフェイク検出技術を、特定の政府関係者、政治家候補者、ジャーナリストを対象に拡大すると発表した。このツールはAIによって生成された肖像を識別し、パイロットプログラムの参加者は、YouTubeのポリシーに違反していると判断した無断コンテンツの削除をリクエストできるようになる。この検出システムは、先行するテスト段階を経て、昨年、YouTubeパートナープログラムに参加す
Das ist ein wirklich cleverer Schachzug von Wikipedia! Vektorsuche in ihren riesigen Datenbeständen könnte die Qualität von KI-Ausgaben enorm verbessern und vielleicht endlich mit den Halluzinationen aufräumen. Hoffentlich bleibt der Zugang aber transparent und für alle fair, damit nicht nur die großen Tech-Konzerne profitieren. Die deutsche Wikimedia-Abteilung zeigt mal wieder, dass sie vorne mitmischt. 💡





家






