Wikipedia正在為AI開發人員提供數據以抵禦機器人刮板

維基百科管理AI資料抓取的新策略
維基百科透過維基媒體基金會,採取積極措施來管理AI資料抓取對其伺服器的影響。週三,他們宣佈與Google旗下的數據科學和機器學習平台Kaggle合作,推出一個測試版數據集。該數據集包含「結構化的維基百科英文和法文內容」,專為AI訓練目的量身打造。
該數據集現已在Kaggle上提供,專為AI開發者設計,簡化了存取機器可讀文章數據的過程。這包括從研究摘要、簡短描述到圖片連結、資訊框數據和各篇文章段落等內容。重要的是,這些數據採用開放授權,不包括參考資料或非文本元素(如音頻文件),確保其針對AI使用場景(如建模、微調和基準測試)進行了優化。
維基媒體的方法提供了結構良好的JSON格式維基百科內容,他們希望這將成為AI開發者相較於傳統抓取或解析原始文章文本更具吸引力的選項。此舉部分是為了回應AI機器人因頻寬消耗對維基百科伺服器造成的壓力。
維基媒體已與Google和Internet Archive等巨頭建立了內容共享協議。然而,與Kaggle的合作預計將使這些數據更容易為小型公司和獨立數據科學家所用,擴大維基百科內容的影響力和實用性。
Kaggle的貢獻
Kaggle的合作負責人Brenda Flynn對托管維基媒體的數據表示熱情。「作為機器學習社群尋找工具和測試的平台,Kaggle非常興奮能成為維基媒體基金會數據的托管者,」她表示。Kaggle的角色對於保持這些數據不僅可存取,且對機器學習社群相關且實用至關重要。
維基百科的這一策略舉措不僅旨在減輕其伺服器的負擔,還促進了與AI和機器學習社群更結構化且有益的關係。
相關文章
美國將因社交媒體法規制裁外國官員
美國站出來反對全球數位內容法規美國國務院本周針對歐洲的數位治理政策發出尖銳的外交譴責,顯示在網路平台控制權上的緊張關係正不斷升級。國務卿 Marco Rubio 公布了一項新的簽證限制政策,針對參與美國認為影響美國數位空間的過度審查的外國官員。新簽證限制說明根據週三公佈的政策,美國將拒絕被判定為正在執行影響美國受保護言論的海外內容規定的外國公民入境。Rubio 強調兩項主要的違法行為:
「Dot AI 伴侶應用程式宣布關閉,停止個人化服務」
根據 Dot 開發商於週五發佈的公告,Dot 將停止營運。Dot 背後的新創公司 New Computer 在其網站上表示,這項服務將持續提供至 10 月 5 日,讓使用者有時間匯出個人資料。此應用程式於今年初由共同創辦人 Sam Whitmore 與前 Apple 設計專家 Jason Yuan 合作推出。Dot 進入日益受到關注的情感 AI 伴侶領域,將自己定位為可適應的數位朋友,可根據使用者
Anthropic 解決 AI 產生盜版書籍的法律案件
Anthropic 已與美國作家就一宗重大版權糾紛達成和解,同意擬議的集體訴訟和解方案,以避免可能耗費巨資的審判。該協議於本週二在法庭文件中提交,源於該人工智能公司使用盜版文學作品訓練其 Claude 模型的指控。雖然此案源於作家 Andrea Bartz、Charles Graeber 和 Kirk Wallace Johnson 的訴訟,但和解細節仍然保密。他們於 2023 年提出訴訟,指控
評論 (2)
0/200
JustinJohnson
2025-08-15 23:00:59
Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️
0
EricMartin
2025-07-31 09:41:20
Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔
0
維基百科管理AI資料抓取的新策略
維基百科透過維基媒體基金會,採取積極措施來管理AI資料抓取對其伺服器的影響。週三,他們宣佈與Google旗下的數據科學和機器學習平台Kaggle合作,推出一個測試版數據集。該數據集包含「結構化的維基百科英文和法文內容」,專為AI訓練目的量身打造。
該數據集現已在Kaggle上提供,專為AI開發者設計,簡化了存取機器可讀文章數據的過程。這包括從研究摘要、簡短描述到圖片連結、資訊框數據和各篇文章段落等內容。重要的是,這些數據採用開放授權,不包括參考資料或非文本元素(如音頻文件),確保其針對AI使用場景(如建模、微調和基準測試)進行了優化。
維基媒體的方法提供了結構良好的JSON格式維基百科內容,他們希望這將成為AI開發者相較於傳統抓取或解析原始文章文本更具吸引力的選項。此舉部分是為了回應AI機器人因頻寬消耗對維基百科伺服器造成的壓力。
維基媒體已與Google和Internet Archive等巨頭建立了內容共享協議。然而,與Kaggle的合作預計將使這些數據更容易為小型公司和獨立數據科學家所用,擴大維基百科內容的影響力和實用性。
Kaggle的貢獻
Kaggle的合作負責人Brenda Flynn對托管維基媒體的數據表示熱情。「作為機器學習社群尋找工具和測試的平台,Kaggle非常興奮能成為維基媒體基金會數據的托管者,」她表示。Kaggle的角色對於保持這些數據不僅可存取,且對機器學習社群相關且實用至關重要。
維基百科的這一策略舉措不僅旨在減輕其伺服器的負擔,還促進了與AI和機器學習社群更結構化且有益的關係。



Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️




Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔












