EleutherAI 發布用於AI訓練的大規模許可文本數據集

EleutherAI,一個領先的AI研究團體,推出了一個用於AI模型訓練的最大許可和開放領域文本集合之一。
名為Common Pile v0.1,此8太字节數據集由AI初創公司Poolside、Hugging Face以及多家學術機構合作開發,歷時兩年。它被用於訓練EleutherAI的兩個新模型,Comma v0.1-1T和Comma v0.1-2T,該組織聲稱這些模型的性能與使用未經許可的版權數據訓練的模型相當。
包括OpenAI在內的AI公司因使用網絡抓取數據(包括版權書籍和期刊)進行模型訓練而面臨法律挑戰。雖然一些公司與內容提供商達成許可協議,但許多公司依賴美國的合理使用原則,來為未經許可使用版權材料進行訓練提供依據。
EleutherAI認為,這些訴訟顯著降低了AI行業的透明度,限制了對模型功能和弱點的洞察,這對更廣泛的研究社區造成了損害。
“法律挑戰並未顯著改變模型訓練的數據來源實踐,但它們極大地降低了AI公司的開放性,”EleutherAI的執行董事Stella Biderman在週五的Hugging Face博客文章中表示。“我們與一些公司研究人員交談時,他們提到訴訟是他們無法分享以數據為中心的研究的原因。”
Common Pile v0.1可在Hugging Face的AI平台和GitHub上獲得,該數據集在法律諮詢下開發,包括國會圖書館和Internet Archive數位化的30萬本公共領域書籍等來源。EleutherAI還使用了OpenAI的Whisper模型來轉錄音頻內容。
EleutherAI聲稱Comma v0.1-1T和Comma v0.1-2T展示了Common Pile v0.1的質量,使開發者能夠創建與專有系統競爭的模型。這兩個模型各有70億個參數,並在數據集的一部分上進行訓練,在編碼、圖像理解和數學基準測試中與Meta的原始Llama模型競爭。
在您的TechCrunch全階段通行證上節省超過200美元
更智能地創新。更快速地成長。更深入地聯繫。與來自Precursor Ventures、NEA、Index Ventures、Underscore VC等遠見卓識者進行為期一天的洞察、研討會和寶貴聯繫。
在您的TechCrunch全階段通行證上節省超過200美元
更智能地創新。更快速地成長。更深入地聯繫。與來自Precursor Ventures、NEA、Index Ventures、Underscore VC等遠見卓識者進行為期一天的洞察、研討會和寶貴聯繫。
波士頓,麻薩諸塞州 | 7月15日起立即註冊參數,通常稱為權重,是AI模型內部塑造其行為和響應的元素。
“認為未經許可的文本對於高性能至關重要的信念是沒有根據的,”Biderman在她的文章中表示。“隨著公開許可和公共領域數據變得更容易獲取,我們預期使用此類內容訓練的模型將顯著改進。”
Common Pile v0.1部分解決了EleutherAI過去的爭議。幾年前,該團體發布了包含版權材料的開放數據集The Pile,這引起了批評和法律審查,因其在AI訓練中的使用。
EleutherAI承諾將更定期發布開放數據集,與研究和基礎設施合作夥伴合作。
太平洋時間上午9:48更新:Biderman在X上指出,EleutherAI為數據集和模型發布做出了貢獻,來自多倫多大學等合作夥伴的參與尤為重要,該大學共同領導了研究。
相關文章
桑德伯格與克萊格加入 Nscale 董事會,這家被譽為「挪威星際之門」的新創公司估值達 146 億美元
隨著市場對能大規模提供 AI 運算能力的資料中心需求激增,由 Nvidia 支持的英國 AI 基礎設施公司 Nscale 估值已達 146 億美元。這使該公司與 Helsing 及 Mistral AI 並列,成為歐洲最新的「獨角獸」企業之一。Nscale 的策略核心在於垂直整合,涵蓋能源、資料中心、運算及調度軟體等領域。 此次估值是基於一輪20億美元的C輪融資,該公司稱此為「歐洲史上最大規模」,
Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI
儘管多數人工智慧巨頭已投入數十億美元於語言模型,生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導,這家由藝術學院畢業生創立的年輕公司,目前估值已達 53 億美元。近期財務數據顯示,Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入(ARR)。憑藉其新推出的 Gen-4.5 影片生成模型,該公司不僅鞏固了在好萊塢電
Google 將加大對 Anthropic 的投資,總額可能高達 400 億美元
在節奏飛快的 AI 軍備競賽中,各大科技巨頭正採取越來越大膽的舉措。根據最新報導,Google 計劃向 AI 新創公司 Anthropic 投資高達 100 億美元——而這僅僅是個開始。根據其長期戰略,總投資額最終可能達到 400 億美元。這筆巨額交易將使Anthropic的估值推升至3,500億美元的新高。就在數月前,該公司才剛完成一輪300億美元的融資。亞馬遜此前已投資50億美元,並保留了額外
相關專題推薦
評論 (2)
0/500
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

EleutherAI,一個領先的AI研究團體,推出了一個用於AI模型訓練的最大許可和開放領域文本集合之一。
名為Common Pile v0.1,此8太字节數據集由AI初創公司Poolside、Hugging Face以及多家學術機構合作開發,歷時兩年。它被用於訓練EleutherAI的兩個新模型,Comma v0.1-1T和Comma v0.1-2T,該組織聲稱這些模型的性能與使用未經許可的版權數據訓練的模型相當。
包括OpenAI在內的AI公司因使用網絡抓取數據(包括版權書籍和期刊)進行模型訓練而面臨法律挑戰。雖然一些公司與內容提供商達成許可協議,但許多公司依賴美國的合理使用原則,來為未經許可使用版權材料進行訓練提供依據。
EleutherAI認為,這些訴訟顯著降低了AI行業的透明度,限制了對模型功能和弱點的洞察,這對更廣泛的研究社區造成了損害。
“法律挑戰並未顯著改變模型訓練的數據來源實踐,但它們極大地降低了AI公司的開放性,”EleutherAI的執行董事Stella Biderman在週五的Hugging Face博客文章中表示。“我們與一些公司研究人員交談時,他們提到訴訟是他們無法分享以數據為中心的研究的原因。”
Common Pile v0.1可在Hugging Face的AI平台和GitHub上獲得,該數據集在法律諮詢下開發,包括國會圖書館和Internet Archive數位化的30萬本公共領域書籍等來源。EleutherAI還使用了OpenAI的Whisper模型來轉錄音頻內容。
EleutherAI聲稱Comma v0.1-1T和Comma v0.1-2T展示了Common Pile v0.1的質量,使開發者能夠創建與專有系統競爭的模型。這兩個模型各有70億個參數,並在數據集的一部分上進行訓練,在編碼、圖像理解和數學基準測試中與Meta的原始Llama模型競爭。
在您的TechCrunch全階段通行證上節省超過200美元
更智能地創新。更快速地成長。更深入地聯繫。與來自Precursor Ventures、NEA、Index Ventures、Underscore VC等遠見卓識者進行為期一天的洞察、研討會和寶貴聯繫。
在您的TechCrunch全階段通行證上節省超過200美元
更智能地創新。更快速地成長。更深入地聯繫。與來自Precursor Ventures、NEA、Index Ventures、Underscore VC等遠見卓識者進行為期一天的洞察、研討會和寶貴聯繫。
波士頓,麻薩諸塞州 | 7月15日起立即註冊參數,通常稱為權重,是AI模型內部塑造其行為和響應的元素。
“認為未經許可的文本對於高性能至關重要的信念是沒有根據的,”Biderman在她的文章中表示。“隨著公開許可和公共領域數據變得更容易獲取,我們預期使用此類內容訓練的模型將顯著改進。”
Common Pile v0.1部分解決了EleutherAI過去的爭議。幾年前,該團體發布了包含版權材料的開放數據集The Pile,這引起了批評和法律審查,因其在AI訓練中的使用。
EleutherAI承諾將更定期發布開放數據集,與研究和基礎設施合作夥伴合作。
太平洋時間上午9:48更新:Biderman在X上指出,EleutherAI為數據集和模型發布做出了貢獻,來自多倫多大學等合作夥伴的參與尤為重要,該大學共同領導了研究。
桑德伯格與克萊格加入 Nscale 董事會,這家被譽為「挪威星際之門」的新創公司估值達 146 億美元
隨著市場對能大規模提供 AI 運算能力的資料中心需求激增,由 Nvidia 支持的英國 AI 基礎設施公司 Nscale 估值已達 146 億美元。這使該公司與 Helsing 及 Mistral AI 並列,成為歐洲最新的「獨角獸」企業之一。Nscale 的策略核心在於垂直整合,涵蓋能源、資料中心、運算及調度軟體等領域。 此次估值是基於一輪20億美元的C輪融資,該公司稱此為「歐洲史上最大規模」,
Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI
儘管多數人工智慧巨頭已投入數十億美元於語言模型,生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導,這家由藝術學院畢業生創立的年輕公司,目前估值已達 53 億美元。近期財務數據顯示,Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入(ARR)。憑藉其新推出的 Gen-4.5 影片生成模型,該公司不僅鞏固了在好萊塢電
Google 將加大對 Anthropic 的投資,總額可能高達 400 億美元
在節奏飛快的 AI 軍備競賽中,各大科技巨頭正採取越來越大膽的舉措。根據最新報導,Google 計劃向 AI 新創公司 Anthropic 投資高達 100 億美元——而這僅僅是個開始。根據其長期戰略,總投資額最終可能達到 400 億美元。這筆巨額交易將使Anthropic的估值推升至3,500億美元的新高。就在數月前,該公司才剛完成一輪300億美元的融資。亞馬遜此前已投資50億美元,並保留了額外
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀





首頁






