EleutherAI 發布用於AI訓練的大規模許可文本數據集

EleutherAI,一個領先的AI研究團體,推出了一個用於AI模型訓練的最大許可和開放領域文本集合之一。
名為Common Pile v0.1,此8太字节數據集由AI初創公司Poolside、Hugging Face以及多家學術機構合作開發,歷時兩年。它被用於訓練EleutherAI的兩個新模型,Comma v0.1-1T和Comma v0.1-2T,該組織聲稱這些模型的性能與使用未經許可的版權數據訓練的模型相當。
包括OpenAI在內的AI公司因使用網絡抓取數據(包括版權書籍和期刊)進行模型訓練而面臨法律挑戰。雖然一些公司與內容提供商達成許可協議,但許多公司依賴美國的合理使用原則,來為未經許可使用版權材料進行訓練提供依據。
EleutherAI認為,這些訴訟顯著降低了AI行業的透明度,限制了對模型功能和弱點的洞察,這對更廣泛的研究社區造成了損害。
“法律挑戰並未顯著改變模型訓練的數據來源實踐,但它們極大地降低了AI公司的開放性,”EleutherAI的執行董事Stella Biderman在週五的Hugging Face博客文章中表示。“我們與一些公司研究人員交談時,他們提到訴訟是他們無法分享以數據為中心的研究的原因。”
Common Pile v0.1可在Hugging Face的AI平台和GitHub上獲得,該數據集在法律諮詢下開發,包括國會圖書館和Internet Archive數位化的30萬本公共領域書籍等來源。EleutherAI還使用了OpenAI的Whisper模型來轉錄音頻內容。
EleutherAI聲稱Comma v0.1-1T和Comma v0.1-2T展示了Common Pile v0.1的質量,使開發者能夠創建與專有系統競爭的模型。這兩個模型各有70億個參數,並在數據集的一部分上進行訓練,在編碼、圖像理解和數學基準測試中與Meta的原始Llama模型競爭。
在您的TechCrunch全階段通行證上節省超過200美元
更智能地創新。更快速地成長。更深入地聯繫。與來自Precursor Ventures、NEA、Index Ventures、Underscore VC等遠見卓識者進行為期一天的洞察、研討會和寶貴聯繫。
在您的TechCrunch全階段通行證上節省超過200美元
更智能地創新。更快速地成長。更深入地聯繫。與來自Precursor Ventures、NEA、Index Ventures、Underscore VC等遠見卓識者進行為期一天的洞察、研討會和寶貴聯繫。
波士頓,麻薩諸塞州 | 7月15日起立即註冊參數,通常稱為權重,是AI模型內部塑造其行為和響應的元素。
“認為未經許可的文本對於高性能至關重要的信念是沒有根據的,”Biderman在她的文章中表示。“隨著公開許可和公共領域數據變得更容易獲取,我們預期使用此類內容訓練的模型將顯著改進。”
Common Pile v0.1部分解決了EleutherAI過去的爭議。幾年前,該團體發布了包含版權材料的開放數據集The Pile,這引起了批評和法律審查,因其在AI訓練中的使用。
EleutherAI承諾將更定期發布開放數據集,與研究和基礎設施合作夥伴合作。
太平洋時間上午9:48更新:Biderman在X上指出,EleutherAI為數據集和模型發布做出了貢獻,來自多倫多大學等合作夥伴的參與尤為重要,該大學共同領導了研究。
相關文章
夏威夷海灘逃亡之旅:新的結合與驚奇的轉折
想像自己置身於純淨的夏威夷海灘,陽光溫暖您的肌膚,海浪撫平您的悸動。對 Josh 來說,經過多年的努力,這個願景終於成為現實。從寧靜的逍遙遠行開始,很快就演變成一段驚心動魄的旅程,當中有新的友誼和無法預料的轉折。在夏威夷迷人的海岸線上,讓自己沉浸在這個關於人際關係、海灘樂趣和意想不到的變化的迷人故事中。重點介紹Josh 來到夏威夷,完成多年來的夢想。與 Selin 的意外相遇,在海灘上燃起
Ozzy Osbourne 的「Crazy Train」動畫影片:深入探討其藝術與影響力
Ozzy Osbourne 的《Crazy Train》超越了其重金屬經典的地位,體現了文化的里程碑。其動畫音樂視頻提供了一個引人注目的視覺旅程,放大了歌曲的原始能量和主題深度。本文將探討影片的藝術選擇、核心訊息以及持久的影響力。重點介紹Crazy Train》MV 採用大膽的黑白素描風格動畫。它探討了精神錯亂、社會恐懼和戰爭徒勞無功的主題。Ozzy Osbourne 的個人形象透過生動
XXXTentacion AI翻唱:分析Marvin's Room重現
AI生成音樂領域迅速進展,提供迷人且複雜的可能性。一個引人注目的例子是以已故XXXTentacion風格重現Drake著名歌曲「Marvin's Room」的AI翻唱。這數位創作喚起多種情感,引發關於AI在音樂、創意及遺產保存中角色的重要討論。讓我們深入探討此XXXTentacion AI翻唱的意義及其廣泛影響。主要亮點AI翻唱以XXXTentacion獨特嗓音重新詮釋「Marvin's Room
評論 (0)
0/200
EleutherAI,一個領先的AI研究團體,推出了一個用於AI模型訓練的最大許可和開放領域文本集合之一。
名為Common Pile v0.1,此8太字节數據集由AI初創公司Poolside、Hugging Face以及多家學術機構合作開發,歷時兩年。它被用於訓練EleutherAI的兩個新模型,Comma v0.1-1T和Comma v0.1-2T,該組織聲稱這些模型的性能與使用未經許可的版權數據訓練的模型相當。
包括OpenAI在內的AI公司因使用網絡抓取數據(包括版權書籍和期刊)進行模型訓練而面臨法律挑戰。雖然一些公司與內容提供商達成許可協議,但許多公司依賴美國的合理使用原則,來為未經許可使用版權材料進行訓練提供依據。
EleutherAI認為,這些訴訟顯著降低了AI行業的透明度,限制了對模型功能和弱點的洞察,這對更廣泛的研究社區造成了損害。
“法律挑戰並未顯著改變模型訓練的數據來源實踐,但它們極大地降低了AI公司的開放性,”EleutherAI的執行董事Stella Biderman在週五的Hugging Face博客文章中表示。“我們與一些公司研究人員交談時,他們提到訴訟是他們無法分享以數據為中心的研究的原因。”
Common Pile v0.1可在Hugging Face的AI平台和GitHub上獲得,該數據集在法律諮詢下開發,包括國會圖書館和Internet Archive數位化的30萬本公共領域書籍等來源。EleutherAI還使用了OpenAI的Whisper模型來轉錄音頻內容。
EleutherAI聲稱Comma v0.1-1T和Comma v0.1-2T展示了Common Pile v0.1的質量,使開發者能夠創建與專有系統競爭的模型。這兩個模型各有70億個參數,並在數據集的一部分上進行訓練,在編碼、圖像理解和數學基準測試中與Meta的原始Llama模型競爭。
在您的TechCrunch全階段通行證上節省超過200美元
更智能地創新。更快速地成長。更深入地聯繫。與來自Precursor Ventures、NEA、Index Ventures、Underscore VC等遠見卓識者進行為期一天的洞察、研討會和寶貴聯繫。
在您的TechCrunch全階段通行證上節省超過200美元
更智能地創新。更快速地成長。更深入地聯繫。與來自Precursor Ventures、NEA、Index Ventures、Underscore VC等遠見卓識者進行為期一天的洞察、研討會和寶貴聯繫。
波士頓,麻薩諸塞州 | 7月15日起立即註冊參數,通常稱為權重,是AI模型內部塑造其行為和響應的元素。
“認為未經許可的文本對於高性能至關重要的信念是沒有根據的,”Biderman在她的文章中表示。“隨著公開許可和公共領域數據變得更容易獲取,我們預期使用此類內容訓練的模型將顯著改進。”
Common Pile v0.1部分解決了EleutherAI過去的爭議。幾年前,該團體發布了包含版權材料的開放數據集The Pile,這引起了批評和法律審查,因其在AI訓練中的使用。
EleutherAI承諾將更定期發布開放數據集,與研究和基礎設施合作夥伴合作。
太平洋時間上午9:48更新:Biderman在X上指出,EleutherAI為數據集和模型發布做出了貢獻,來自多倫多大學等合作夥伴的參與尤為重要,該大學共同領導了研究。












