選項
首頁
新聞
維基百科與人工智慧公司合作加強資料存取

維基百科與人工智慧公司合作加強資料存取

2025-11-10
68

維基百科與人工智慧公司合作加強資料存取

德國維基媒體(Wikimedia Deutschland)本周三發佈了一個新的資料庫,旨在增強人工智能模型對維基百科廣泛知識庫的存取。

這項計畫被稱為 Wikidata Embedding Project,利用向量式語意搜尋技術,讓電腦能夠掌握詞彙的意義與關係,並應用在維基百科龐大的網路中,包括其姊妹平台上近 1.2 億個詞條。

該專案增加了模型上下文協定 (Model Context Protocol, MCP) 的相容性,這是一個促進人工智能與資料來源溝通的框架,可改善大型語言模型與自然語言查詢互動及擷取資訊的方式。

維基媒體的德國分部與神經搜尋專家 Jina.AI 以及 IBM 旗下專精於即時訓練資料的 DataStax 共同帶頭進行這項工作。

雖然 Wikidata 早已提供維基媒體財產的機器可讀取資料,但之前的工具僅限於關鍵字搜尋和 SPARQL 查詢。這個升級後的系統增強了檢索增強生成 (RAG) 功能,讓人工智能開發人員能夠將其模型錨定在維基百科經編輯驗證的知識庫中。

資料庫以豐富的語意上下文來結構資料。例如,搜尋「scientist」會顯示著名核科學家和貝爾實驗室研究人員的清單,以及多語言翻譯、維基媒體圖片和相關詞彙,例如「researcher」和「scholar」。

Wikidata 可透過 Toolforge 進行存取,並將於 10 月 9 日舉辦開發人員網路研討會,以展示該平台的潛力。

在 Disrupt 2025 與 10,000 多位科技與創投先驅交流

加入 Netflix、Box、a16z、ElevenLabs 和 Vinod Khosla 等業界巨擘的行列,參加 200 多場包含初創公司成長策略和科技洞察的會議。立即預購門票,即可在一般入場門票開放前節省高達 444 美元。

在 Disrupt 2025 與 10,000 多位科技與創投先驅交流

加入 Netflix、Box、a16z、ElevenLabs 和 Vinod Khosla 等業界巨擘的行列,參加 200 多場包含創業公司成長策略和科技洞察的會議。立即預購門票,即可在一般入場門票開放前節省高達 444 美元。

隨著人工智慧開發人員日益尋求優質資料來源以精進模型,這場發佈會也隨之而來。現代的訓練系統已經不再是簡單的資料集,而是複雜的生態系統,因此仍然需要精心策劃的資訊,尤其是對於準確性要求極高的應用程式。相較於 Common Crawl 之類的大量資料集,維基百科經事實檢查的內容提供了明顯的優勢。

追求優質資料也有風險:Anthropic 最近提出了 15 億美元的和解方案,因為作者控告其作品未經授權被用於訓練。

Wikidata 的 AI 專案負責人 Philippe Saadé 強調其獨立性:"他向媒體表示:「這證明強大的人工智慧可以超越企業孤島,以開放、協作的方式茁壯成長,並造福大眾。

相關文章
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖 Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖 Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要 巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要 儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
YouTube 將 AI 深度偽造偵測功能擴展至政治人物、政府官員及記者 YouTube 將 AI 深度偽造偵測功能擴展至政治人物、政府官員及記者 週二,YouTube 宣布將其深度偽造(deepfake)偵測技術擴展至特定群體,包括政府官員、政治候選人及記者。該工具能識別由人工智慧生成的肖像,並允許試點計畫的參與者要求移除其認為違反 YouTube 政策且未經授權的內容。該偵測系統在經過前期測試階段後,去年首度向約 400 萬名 YouTube 合作夥伴計畫的創作者推出。與 YouTube 現有的版權內容識別系統(Content ID)類似
相關專題推薦
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
聊天機器人 最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信
最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單,能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具,並透過免費與付費版本的比較,以及每週更新的排行榜,立即解鎖您的社交優勢。

10 個工具
xix.ai
代碼 最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例
最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例

探索2026年最新評選出的頂級AI工具,這些工具專為自動化單元測試而設計。我們精心挑選了那些功能強大、能夠改變開發流程的工具,它們能夠幫助您快速生成Jest、PyTest和JUnit測試用例。在XIX.AI平臺上,您可以免費檢視各種選項,並透過實際測試結果以及每週更新的排名來了解它們的優劣。立即利用這些AI工具,提升您的開發效率吧!

10 個工具
xix.ai
評論 (2)
0/500
AlbertEvans
AlbertEvans 2026-03-05 08:02:31

Das ist ein wirklich cleverer Schachzug von Wikipedia! Vektorsuche in ihren riesigen Datenbeständen könnte die Qualität von KI-Ausgaben enorm verbessern und vielleicht endlich mit den Halluzinationen aufräumen. Hoffentlich bleibt der Zugang aber transparent und für alle fair, damit nicht nur die großen Tech-Konzerne profitieren. Die deutsche Wikimedia-Abteilung zeigt mal wieder, dass sie vorne mitmischt. 💡

GeorgeMartinez
GeorgeMartinez 2026-01-06 12:30:41

これ、ウィキペディアとAIの連携は本当に進んでるんだね!🤔 データベース拡張って聞くと、AIモデルが人間以上の知識を蓄えられるようになるのかな。でも、偏った情報が拡散されるリスクも心配…曖昧な情報をAIが「事実」として学習しちゃうと、誤解が広がりそうで不安。

OR