選項
首頁
新聞
Wikipedia正在為AI開發人員提供數據以抵禦機器人刮板

Wikipedia正在為AI開發人員提供數據以抵禦機器人刮板

2025-05-01
83

Wikipedia正在為AI開發人員提供數據以抵禦機器人刮板

維基百科管理AI資料抓取的新策略

維基百科透過維基媒體基金會,採取積極措施來管理AI資料抓取對其伺服器的影響。週三,他們宣佈與Google旗下的數據科學和機器學習平台Kaggle合作,推出一個測試版數據集。該數據集包含「結構化的維基百科英文和法文內容」,專為AI訓練目的量身打造。

該數據集現已在Kaggle上提供,專為AI開發者設計,簡化了存取機器可讀文章數據的過程。這包括從研究摘要、簡短描述到圖片連結、資訊框數據和各篇文章段落等內容。重要的是,這些數據採用開放授權,不包括參考資料或非文本元素(如音頻文件),確保其針對AI使用場景(如建模、微調和基準測試)進行了優化。

維基媒體的方法提供了結構良好的JSON格式維基百科內容,他們希望這將成為AI開發者相較於傳統抓取或解析原始文章文本更具吸引力的選項。此舉部分是為了回應AI機器人因頻寬消耗對維基百科伺服器造成的壓力。

維基媒體已與Google和Internet Archive等巨頭建立了內容共享協議。然而,與Kaggle的合作預計將使這些數據更容易為小型公司和獨立數據科學家所用,擴大維基百科內容的影響力和實用性。

Kaggle的貢獻

Kaggle的合作負責人Brenda Flynn對托管維基媒體的數據表示熱情。「作為機器學習社群尋找工具和測試的平台,Kaggle非常興奮能成為維基媒體基金會數據的托管者,」她表示。Kaggle的角色對於保持這些數據不僅可存取,且對機器學習社群相關且實用至關重要。

維基百科的這一策略舉措不僅旨在減輕其伺服器的負擔,還促進了與AI和機器學習社群更結構化且有益的關係。

相關文章
Salesforce 揭曉 Slack 中 AI 數位隊友以對抗 Microsoft Copilot Salesforce 揭曉 Slack 中 AI 數位隊友以對抗 Microsoft Copilot Salesforce 推出全新工作場所 AI 策略,於週一宣布在 Slack 對話中引入專屬的「數位隊友」。全新工具 Agentforce in Slack 讓企業能夠創建並部署針對特定任務的 AI 代理,這些代理可搜尋工作場所聊天記錄、存取公司資料,並在員工日常工作的訊息平台內執行操作。「正如專業員工協作解決問題,我們的客戶需要 AI 代理共同合作,為客戶和員工解決問題,」Salesforce
甲骨文40億美元Nvidia晶片投資推動德州AI數據中心 甲骨文40億美元Nvidia晶片投資推動德州AI數據中心 據《金融時報》報導,甲骨文計劃投資約40億美元於Nvidia晶片,為OpenAI在德州開發的大型新數據中心提供動力。這筆交易是迄今為止最大的晶片收購之一,凸顯了對AI運算資源的激增需求。該設施位於德州阿比林,是美國首個「星門」數據中心。由OpenAI和軟銀支持,屬於建設大規模AI基礎設施的更廣泛計劃的一部分。該德州中心預計明年完工,將提供1.2吉瓦的運算能力,位列全球最大之列。甲骨文計劃採購約40
索尼WH-1000XM6耳機功能於發布前揭曉 索尼WH-1000XM6耳機功能於發布前揭曉 索尼將於5月15日推出其WH-1000XM5降噪耳機的後繼產品,根據Dealabs和Android Authority報導的洩露細節。即將推出的型號名為WH-1000XM6,通過Reddit用戶發現的現已刪除的Amazon西班牙清單曝光。XM6搭載先進的QN3 HD降噪處理器,Dealabs聲稱其速度比XM5中的QN1晶片快七倍。此升級承諾提供卓越的降噪效果和可能提升的音質。耳機還配備AI驅動的六
評論 (2)
0/200
JustinJohnson
JustinJohnson 2025-08-15 23:00:59

Wow, Wikipedia teaming up with Kaggle to tackle AI scrapers? Smart move! It's like building a digital fortress to protect their data. Curious how this will impact AI model training in the long run. 🛡️

EricMartin
EricMartin 2025-07-31 09:41:20

Wow, Wikipedia teaming up with Kaggle to tackle AI scraping? That's a smart move! I love how they're turning a problem into an opportunity for data science. Wonder if this will spark new AI innovations or just keep the bots at bay. 🤔

回到頂部
OR