Wikipedia正在為AI開發人員提供數據以抵禦機器人刮板

維基百科管理AI資料抓取的新策略
維基百科透過維基媒體基金會,採取積極措施來管理AI資料抓取對其伺服器的影響。週三,他們宣佈與Google旗下的數據科學和機器學習平台Kaggle合作,推出一個測試版數據集。該數據集包含「結構化的維基百科英文和法文內容」,專為AI訓練目的量身打造。
該數據集現已在Kaggle上提供,專為AI開發者設計,簡化了存取機器可讀文章數據的過程。這包括從研究摘要、簡短描述到圖片連結、資訊框數據和各篇文章段落等內容。重要的是,這些數據採用開放授權,不包括參考資料或非文本元素(如音頻文件),確保其針對AI使用場景(如建模、微調和基準測試)進行了優化。
維基媒體的方法提供了結構良好的JSON格式維基百科內容,他們希望這將成為AI開發者相較於傳統抓取或解析原始文章文本更具吸引力的選項。此舉部分是為了回應AI機器人因頻寬消耗對維基百科伺服器造成的壓力。
維基媒體已與Google和Internet Archive等巨頭建立了內容共享協議。然而,與Kaggle的合作預計將使這些數據更容易為小型公司和獨立數據科學家所用,擴大維基百科內容的影響力和實用性。
Kaggle的貢獻
Kaggle的合作負責人Brenda Flynn對托管維基媒體的數據表示熱情。「作為機器學習社群尋找工具和測試的平台,Kaggle非常興奮能成為維基媒體基金會數據的托管者,」她表示。Kaggle的角色對於保持這些數據不僅可存取,且對機器學習社群相關且實用至關重要。
維基百科的這一策略舉措不僅旨在減輕其伺服器的負擔,還促進了與AI和機器學習社群更結構化且有益的關係。
相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖
Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
相關專題推薦
評論 (3)
0/500
Me pregunto si esto realmente resolverá el problema de los scrapers 🤔. Wikipedia dando sus datos podría ser un arma de doble filo, pero al menos están intentando algo diferente. ¡Bravo por la iniciativa!
Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

維基百科管理AI資料抓取的新策略
維基百科透過維基媒體基金會,採取積極措施來管理AI資料抓取對其伺服器的影響。週三,他們宣佈與Google旗下的數據科學和機器學習平台Kaggle合作,推出一個測試版數據集。該數據集包含「結構化的維基百科英文和法文內容」,專為AI訓練目的量身打造。
該數據集現已在Kaggle上提供,專為AI開發者設計,簡化了存取機器可讀文章數據的過程。這包括從研究摘要、簡短描述到圖片連結、資訊框數據和各篇文章段落等內容。重要的是,這些數據採用開放授權,不包括參考資料或非文本元素(如音頻文件),確保其針對AI使用場景(如建模、微調和基準測試)進行了優化。
維基媒體的方法提供了結構良好的JSON格式維基百科內容,他們希望這將成為AI開發者相較於傳統抓取或解析原始文章文本更具吸引力的選項。此舉部分是為了回應AI機器人因頻寬消耗對維基百科伺服器造成的壓力。
維基媒體已與Google和Internet Archive等巨頭建立了內容共享協議。然而,與Kaggle的合作預計將使這些數據更容易為小型公司和獨立數據科學家所用,擴大維基百科內容的影響力和實用性。
Kaggle的貢獻
Kaggle的合作負責人Brenda Flynn對托管維基媒體的數據表示熱情。「作為機器學習社群尋找工具和測試的平台,Kaggle非常興奮能成為維基媒體基金會數據的托管者,」她表示。Kaggle的角色對於保持這些數據不僅可存取,且對機器學習社群相關且實用至關重要。
維基百科的這一策略舉措不僅旨在減輕其伺服器的負擔,還促進了與AI和機器學習社群更結構化且有益的關係。
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
Me pregunto si esto realmente resolverá el problema de los scrapers 🤔. Wikipedia dando sus datos podría ser un arma de doble filo, pero al menos están intentando algo diferente. ¡Bravo por la iniciativa!
Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️





首頁






