維基百科與人工智慧公司合作加強資料存取

德國維基媒體(Wikimedia Deutschland)本周三發佈了一個新的資料庫,旨在增強人工智能模型對維基百科廣泛知識庫的存取。
這項計畫被稱為 Wikidata Embedding Project,利用向量式語意搜尋技術,讓電腦能夠掌握詞彙的意義與關係,並應用在維基百科龐大的網路中,包括其姊妹平台上近 1.2 億個詞條。
該專案增加了模型上下文協定 (Model Context Protocol, MCP) 的相容性,這是一個促進人工智能與資料來源溝通的框架,可改善大型語言模型與自然語言查詢互動及擷取資訊的方式。
維基媒體的德國分部與神經搜尋專家 Jina.AI 以及 IBM 旗下專精於即時訓練資料的 DataStax 共同帶頭進行這項工作。
雖然 Wikidata 早已提供維基媒體財產的機器可讀取資料,但之前的工具僅限於關鍵字搜尋和 SPARQL 查詢。這個升級後的系統增強了檢索增強生成 (RAG) 功能,讓人工智能開發人員能夠將其模型錨定在維基百科經編輯驗證的知識庫中。
資料庫以豐富的語意上下文來結構資料。例如,搜尋「scientist」會顯示著名核科學家和貝爾實驗室研究人員的清單,以及多語言翻譯、維基媒體圖片和相關詞彙,例如「researcher」和「scholar」。
Wikidata 可透過 Toolforge 進行存取,並將於 10 月 9 日舉辦開發人員網路研討會,以展示該平台的潛力。
在 Disrupt 2025 與 10,000 多位科技與創投先驅交流
加入 Netflix、Box、a16z、ElevenLabs 和 Vinod Khosla 等業界巨擘的行列,參加 200 多場包含初創公司成長策略和科技洞察的會議。立即預購門票,即可在一般入場門票開放前節省高達 444 美元。
在 Disrupt 2025 與 10,000 多位科技與創投先驅交流
加入 Netflix、Box、a16z、ElevenLabs 和 Vinod Khosla 等業界巨擘的行列,參加 200 多場包含創業公司成長策略和科技洞察的會議。立即預購門票,即可在一般入場門票開放前節省高達 444 美元。
隨著人工智慧開發人員日益尋求優質資料來源以精進模型,這場發佈會也隨之而來。現代的訓練系統已經不再是簡單的資料集,而是複雜的生態系統,因此仍然需要精心策劃的資訊,尤其是對於準確性要求極高的應用程式。相較於 Common Crawl 之類的大量資料集,維基百科經事實檢查的內容提供了明顯的優勢。
追求優質資料也有風險:Anthropic 最近提出了 15 億美元的和解方案,因為作者控告其作品未經授權被用於訓練。
Wikidata 的 AI 專案負責人 Philippe Saadé 強調其獨立性:"他向媒體表示:「這證明強大的人工智慧可以超越企業孤島,以開放、協作的方式茁壯成長,並造福大眾。
相關文章
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖
Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
YouTube 將 AI 深度偽造偵測功能擴展至政治人物、政府官員及記者
週二,YouTube 宣布將其深度偽造(deepfake)偵測技術擴展至特定群體,包括政府官員、政治候選人及記者。該工具能識別由人工智慧生成的肖像,並允許試點計畫的參與者要求移除其認為違反 YouTube 政策且未經授權的內容。該偵測系統在經過前期測試階段後,去年首度向約 400 萬名 YouTube 合作夥伴計畫的創作者推出。與 YouTube 現有的版權內容識別系統(Content ID)類似
相關專題推薦
評論 (2)
0/500
Das ist ein wirklich cleverer Schachzug von Wikipedia! Vektorsuche in ihren riesigen Datenbeständen könnte die Qualität von KI-Ausgaben enorm verbessern und vielleicht endlich mit den Halluzinationen aufräumen. Hoffentlich bleibt der Zugang aber transparent und für alle fair, damit nicht nur die großen Tech-Konzerne profitieren. Die deutsche Wikimedia-Abteilung zeigt mal wieder, dass sie vorne mitmischt. 💡

德國維基媒體(Wikimedia Deutschland)本周三發佈了一個新的資料庫,旨在增強人工智能模型對維基百科廣泛知識庫的存取。
這項計畫被稱為 Wikidata Embedding Project,利用向量式語意搜尋技術,讓電腦能夠掌握詞彙的意義與關係,並應用在維基百科龐大的網路中,包括其姊妹平台上近 1.2 億個詞條。
該專案增加了模型上下文協定 (Model Context Protocol, MCP) 的相容性,這是一個促進人工智能與資料來源溝通的框架,可改善大型語言模型與自然語言查詢互動及擷取資訊的方式。
維基媒體的德國分部與神經搜尋專家 Jina.AI 以及 IBM 旗下專精於即時訓練資料的 DataStax 共同帶頭進行這項工作。
雖然 Wikidata 早已提供維基媒體財產的機器可讀取資料,但之前的工具僅限於關鍵字搜尋和 SPARQL 查詢。這個升級後的系統增強了檢索增強生成 (RAG) 功能,讓人工智能開發人員能夠將其模型錨定在維基百科經編輯驗證的知識庫中。
資料庫以豐富的語意上下文來結構資料。例如,搜尋「scientist」會顯示著名核科學家和貝爾實驗室研究人員的清單,以及多語言翻譯、維基媒體圖片和相關詞彙,例如「researcher」和「scholar」。
Wikidata 可透過 Toolforge 進行存取,並將於 10 月 9 日舉辦開發人員網路研討會,以展示該平台的潛力。
在 Disrupt 2025 與 10,000 多位科技與創投先驅交流
加入 Netflix、Box、a16z、ElevenLabs 和 Vinod Khosla 等業界巨擘的行列,參加 200 多場包含初創公司成長策略和科技洞察的會議。立即預購門票,即可在一般入場門票開放前節省高達 444 美元。
在 Disrupt 2025 與 10,000 多位科技與創投先驅交流
加入 Netflix、Box、a16z、ElevenLabs 和 Vinod Khosla 等業界巨擘的行列,參加 200 多場包含創業公司成長策略和科技洞察的會議。立即預購門票,即可在一般入場門票開放前節省高達 444 美元。
隨著人工智慧開發人員日益尋求優質資料來源以精進模型,這場發佈會也隨之而來。現代的訓練系統已經不再是簡單的資料集,而是複雜的生態系統,因此仍然需要精心策劃的資訊,尤其是對於準確性要求極高的應用程式。相較於 Common Crawl 之類的大量資料集,維基百科經事實檢查的內容提供了明顯的優勢。
追求優質資料也有風險:Anthropic 最近提出了 15 億美元的和解方案,因為作者控告其作品未經授權被用於訓練。
Wikidata 的 AI 專案負責人 Philippe Saadé 強調其獨立性:"他向媒體表示:「這證明強大的人工智慧可以超越企業孤島,以開放、協作的方式茁壯成長,並造福大眾。
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
YouTube 將 AI 深度偽造偵測功能擴展至政治人物、政府官員及記者
週二,YouTube 宣布將其深度偽造(deepfake)偵測技術擴展至特定群體,包括政府官員、政治候選人及記者。該工具能識別由人工智慧生成的肖像,並允許試點計畫的參與者要求移除其認為違反 YouTube 政策且未經授權的內容。該偵測系統在經過前期測試階段後,去年首度向約 400 萬名 YouTube 合作夥伴計畫的創作者推出。與 YouTube 現有的版權內容識別系統(Content ID)類似
Das ist ein wirklich cleverer Schachzug von Wikipedia! Vektorsuche in ihren riesigen Datenbeständen könnte die Qualität von KI-Ausgaben enorm verbessern und vielleicht endlich mit den Halluzinationen aufräumen. Hoffentlich bleibt der Zugang aber transparent und für alle fair, damit nicht nur die großen Tech-Konzerne profitieren. Die deutsche Wikimedia-Abteilung zeigt mal wieder, dass sie vorne mitmischt. 💡





首頁






