Wikipedia正在為AI開發人員提供數據以抵禦機器人刮板

首頁

新聞

2025-05-01

PeterLopez

109

# ai # News # Tech # Web

Wikipedia正在為AI開發人員提供數據以抵禦機器人刮板

維基百科管理AI資料抓取的新策略

維基百科透過維基媒體基金會，採取積極措施來管理AI資料抓取對其伺服器的影響。週三，他們宣佈與Google旗下的數據科學和機器學習平台Kaggle合作，推出一個測試版數據集。該數據集包含「結構化的維基百科英文和法文內容」，專為AI訓練目的量身打造。

該數據集現已在Kaggle上提供，專為AI開發者設計，簡化了存取機器可讀文章數據的過程。這包括從研究摘要、簡短描述到圖片連結、資訊框數據和各篇文章段落等內容。重要的是，這些數據採用開放授權，不包括參考資料或非文本元素（如音頻文件），確保其針對AI使用場景（如建模、微調和基準測試）進行了優化。

維基媒體的方法提供了結構良好的JSON格式維基百科內容，他們希望這將成為AI開發者相較於傳統抓取或解析原始文章文本更具吸引力的選項。此舉部分是為了回應AI機器人因頻寬消耗對維基百科伺服器造成的壓力。

維基媒體已與Google和Internet Archive等巨頭建立了內容共享協議。然而，與Kaggle的合作預計將使這些數據更容易為小型公司和獨立數據科學家所用，擴大維基百科內容的影響力和實用性。

Kaggle的貢獻

Kaggle的合作負責人Brenda Flynn對托管維基媒體的數據表示熱情。「作為機器學習社群尋找工具和測試的平台，Kaggle非常興奮能成為維基媒體基金會數據的托管者，」她表示。Kaggle的角色對於保持這些數據不僅可存取，且對機器學習社群相關且實用至關重要。

維基百科的這一策略舉措不僅旨在減輕其伺服器的負擔，還促進了與AI和機器學習社群更結構化且有益的關係。

WordPress.com 現已允許 AI 代理程式撰寫並發布文章，還有更多功能廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布，將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容，同時也能管理留言、更新與修正元資料，並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制，網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能，網站幾乎可以完全由人工指導的 AI 代理

Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖 Kakao Mobility 計畫內部開發第 4 級自動駕駛技術，作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展（World IT Show）會議上，Kakao Mobility副總裁兼實體AI部門負責人金鎮奎（Kim Jin-kyu）發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導，這場名為「超越構想，付諸行動：AI 推動現

巴里·迪勒：隨著通用人工智慧（AGI）日益臨近，對山姆·奧特曼的信任已無關緊要儘管近期有報導指出相反的看法，但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時，為奧特曼辯護；奧特曼此前曾遭到部分前同事和董事會成員指控，指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒，當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言，提問者探討了被稱為「通用人工智慧」（AGI）的理

相關專題推薦

商業

最佳 AI 支出追蹤工具：掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具：備受好評的解決方案，可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案，助您輕鬆管理報銷、精準追蹤財務，並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南，將協助您找到最合適的選擇。透過 XIX.AI 的專家精選，釋放您的 AI 優勢。

10 個工具

xix.ai

商業

最佳 AI 招聘工具：篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案，可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即找到最適合您的招聘助手，並優化您的招聘流程！

10 個工具

xix.ai

生產率

AI 個人健康與專注力教練：管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具，助您管理倦怠感並提升精神能量。透過實際使用心得，比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具

xix.ai

聊天機器人

最受好評的 AI 浪漫聊天機器人：透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人，助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較，以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶，並開始建立這段關係吧。

10 個工具

xix.ai

教育與學習

最佳AI資料科學導師：精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師，幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單，獲得強大而具有變革性的指導。透過對比免費和付費選項，並結合實際應用案例進行了解，今天就開啟你的資料科學精通之路吧。

10 個工具

xix.ai

聊天機器人

最佳 AI 調情與對話訓練工具：即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單，能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具，並透過免費與付費版本的比較，以及每週更新的排行榜，立即解鎖您的社交優勢。

10 個工具

xix.ai

評論 (3)

0/500

請登錄後再操作

AvaHill

2025-10-10 04:30:33

Me pregunto si esto realmente resolverá el problema de los scrapers 🤔. Wikipedia dando sus datos podría ser un arma de doble filo, pero al menos están intentando algo diferente. ¡Bravo por la iniciativa!

JustinJohnson

2025-08-15 23:00:59

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin

2025-07-31 09:41:20

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

頭號新聞

AI Builder和Power Automate革新文件摘要 AI寄主Notebooklm播客現已上中國發布國家級人形機器人與具身智能標準 Ramp 數據顯示，企業對 AI 的採納已進入停滯期 Bing圖像創作者教程：AI藝術生成指南學習使用您的聲音創建AI音樂：逐步Suno教程 iMyFone MagicMic：實時AI變聲器評測與教程 2025頂級AI影片生成器：Pika Labs與其他對比 DeepSeek V4 崛起為多模態人工智慧的變革者 Embodied Intelligence 公布首項業界標準，以遏止無序擴張

精選