選項
首頁
新聞
EleutherAI 發布用於AI訓練的大規模許可文本數據集

EleutherAI 發布用於AI訓練的大規模許可文本數據集

2025-08-30
89

EleutherAI 發布用於AI訓練的大規模許可文本數據集

EleutherAI,一個領先的AI研究團體,推出了一個用於AI模型訓練的最大許可和開放領域文本集合之一。

名為Common Pile v0.1,此8太字节數據集由AI初創公司Poolside、Hugging Face以及多家學術機構合作開發,歷時兩年。它被用於訓練EleutherAI的兩個新模型,Comma v0.1-1T和Comma v0.1-2T,該組織聲稱這些模型的性能與使用未經許可的版權數據訓練的模型相當。

包括OpenAI在內的AI公司因使用網絡抓取數據(包括版權書籍和期刊)進行模型訓練而面臨法律挑戰。雖然一些公司與內容提供商達成許可協議,但許多公司依賴美國的合理使用原則,來為未經許可使用版權材料進行訓練提供依據。

EleutherAI認為,這些訴訟顯著降低了AI行業的透明度,限制了對模型功能和弱點的洞察,這對更廣泛的研究社區造成了損害。

“法律挑戰並未顯著改變模型訓練的數據來源實踐,但它們極大地降低了AI公司的開放性,”EleutherAI的執行董事Stella Biderman在週五的Hugging Face博客文章中表示。“我們與一些公司研究人員交談時,他們提到訴訟是他們無法分享以數據為中心的研究的原因。”

Common Pile v0.1可在Hugging Face的AI平台和GitHub上獲得,該數據集在法律諮詢下開發,包括國會圖書館和Internet Archive數位化的30萬本公共領域書籍等來源。EleutherAI還使用了OpenAI的Whisper模型來轉錄音頻內容。

EleutherAI聲稱Comma v0.1-1T和Comma v0.1-2T展示了Common Pile v0.1的質量,使開發者能夠創建與專有系統競爭的模型。這兩個模型各有70億個參數,並在數據集的一部分上進行訓練,在編碼、圖像理解和數學基準測試中與Meta的原始Llama模型競爭。

在您的TechCrunch全階段通行證上節省超過200美元

更智能地創新。更快速地成長。更深入地聯繫。與來自Precursor Ventures、NEA、Index Ventures、Underscore VC等遠見卓識者進行為期一天的洞察、研討會和寶貴聯繫。

在您的TechCrunch全階段通行證上節省超過200美元

更智能地創新。更快速地成長。更深入地聯繫。與來自Precursor Ventures、NEA、Index Ventures、Underscore VC等遠見卓識者進行為期一天的洞察、研討會和寶貴聯繫。

波士頓,麻薩諸塞州 | 7月15日起立即註冊

參數,通常稱為權重,是AI模型內部塑造其行為和響應的元素。

“認為未經許可的文本對於高性能至關重要的信念是沒有根據的,”Biderman在她的文章中表示。“隨著公開許可和公共領域數據變得更容易獲取,我們預期使用此類內容訓練的模型將顯著改進。”

Common Pile v0.1部分解決了EleutherAI過去的爭議。幾年前,該團體發布了包含版權材料的開放數據集The Pile,這引起了批評和法律審查,因其在AI訓練中的使用。

EleutherAI承諾將更定期發布開放數據集,與研究和基礎設施合作夥伴合作。

太平洋時間上午9:48更新:Biderman在X上指出,EleutherAI為數據集和模型發布做出了貢獻,來自多倫多大學等合作夥伴的參與尤為重要,該大學共同領導了研究。

相關文章
桑德伯格與克萊格加入 Nscale 董事會,這家被譽為「挪威星際之門」的新創公司估值達 146 億美元 桑德伯格與克萊格加入 Nscale 董事會,這家被譽為「挪威星際之門」的新創公司估值達 146 億美元 隨著市場對能大規模提供 AI 運算能力的資料中心需求激增,由 Nvidia 支持的英國 AI 基礎設施公司 Nscale 估值已達 146 億美元。這使該公司與 Helsing 及 Mistral AI 並列,成為歐洲最新的「獨角獸」企業之一。Nscale 的策略核心在於垂直整合,涵蓋能源、資料中心、運算及調度軟體等領域。 此次估值是基於一輪20億美元的C輪融資,該公司稱此為「歐洲史上最大規模」,
Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI 儘管多數人工智慧巨頭已投入數十億美元於語言模型,生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導,這家由藝術學院畢業生創立的年輕公司,目前估值已達 53 億美元。近期財務數據顯示,Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入(ARR)。憑藉其新推出的 Gen-4.5 影片生成模型,該公司不僅鞏固了在好萊塢電
Google 將加大對 Anthropic 的投資,總額可能高達 400 億美元 Google 將加大對 Anthropic 的投資,總額可能高達 400 億美元 在節奏飛快的 AI 軍備競賽中,各大科技巨頭正採取越來越大膽的舉措。根據最新報導,Google 計劃向 AI 新創公司 Anthropic 投資高達 100 億美元——而這僅僅是個開始。根據其長期戰略,總投資額最終可能達到 400 億美元。這筆巨額交易將使Anthropic的估值推升至3,500億美元的新高。就在數月前,該公司才剛完成一輪300億美元的融資。亞馬遜此前已投資50億美元,並保留了額外
相關專題推薦
健康與養生 AI 孕期輔助系統:生成安全且按孕期分階段的運動與營養計畫
AI 孕期輔助系統:生成安全且按孕期分階段的運動與營養計畫

探索 2026 年最佳 AI 孕期輔助工具,為您量身打造安全且針對各孕期的運動與營養計畫。獲取精選的高評分推薦,包含免費與付費方案的比較,以及實用經驗分享。透過 XIX.AI 的專家指南,開啟您最健康的孕期旅程。立即探索。

10 個工具
xix.ai
寫作 最佳免費且無法被偵測的 AI 寫手:將機械化的草稿轉化為自然、類人化的散文
最佳免費且無法被偵測的 AI 寫手:將機械化的草稿轉化為自然、類人化的散文

立即前往 XIX.AI,探索 2026 年最頂尖的免費且難以被察覺的 AI 寫手。我們精心篩選的頂級清單,能協助您將生硬的草稿轉化為自然流暢、宛如人類撰寫的文字。透過實際測試與每週更新的排行榜,比較免費與付費選項的優劣。立即解鎖您的 AI 寫作優勢。

10 個工具
xix.ai
圖像編輯 用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計
用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計

2026最新推薦:探索最適合用於短劇故事板製作的AI藝術生成工具。我們精心挑選了眾多頂級工具,幫助您創作出引人入勝的幻想角色和都市浪漫角色。您可以對比免費與付費選項,檢視實際測試結果,從而找到最適合自己的創意工具。XIX.AI還會每週更新排名並提供專家分析,讓您立即開始將故事視覺化呈現吧!

10 個工具
xix.ai
寫作 最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告
最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告

在XIX.AI上,發現2026年最適合用於廣播和播客製作的AI指令碼工具。我們精心挑選的這些高評分工具能夠提供強大的功能,幫助您快速製作出引人入勝的音訊廣告。透過實際測試和每週更新的排名,您可以瞭解免費選項與付費選項之間的差異。今天就釋放您的創造力吧!

10 個工具
xix.ai
商業 最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險
最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險

立即在 XIX.AI 探索 2026 年最佳 AI 合約審查軟體。我們精心挑選的頂級清單收錄了多款強大工具,能即時偵測法律漏洞與合規風險。透過實際測試與每週更新的排行榜,比較免費與付費方案的差異。為您找到能徹底改變遊戲規則的解決方案,實現安全且高效的合約分析。立即探索這份權威指南。

10 個工具
xix.ai
動畫創作 專為東華設計的AI動漫生成器:可用於建立網路小說角色及漫畫頭像
專為東華設計的AI動漫生成器:可用於建立網路小說角色及漫畫頭像

探索2026年最適合製作中文動畫的人工智慧工具。我們精心挑選的頂級列表中包含了各種強大的工具,能夠幫助你建立出令人驚歎的網路小說角色和漫畫頭像。透過實際測試來對比免費選項和付費選項,找到最適合你的創作工具,今天就在XIX.AI上將你的故事變為現實吧。

10 個工具
xix.ai
評論 (2)
0/500
NicholasLewis
NicholasLewis 2026-03-10 18:01:03

Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?

RyanLopez
RyanLopez 2026-02-02 16:00:51

Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

OR