EleutherAI发布大规模许可文本数据集用于AI训练

EleutherAI,一个领先的AI研究组织,推出了一套最大的许可和开放领域文本集合,用于AI模型训练。
名为Common Pile v0.1的这个8TB数据集,经过两年时间与AI初创公司Poolside、Hugging Face以及多家学术机构合作开发。它被用来训练EleutherAI的两个新模型,Comma v0.1-1T和Comma v0.1-2T,该组织声称这些模型的性能可与使用未经许可的版权数据训练的模型相媲美。
包括OpenAI在内的AI公司,因使用网络抓取数据(包括版权书籍和期刊)进行模型训练而面临法律挑战。虽然一些公司与内容提供商达成许可协议,但许多公司依赖美国的合理使用原则,辩称无需许可即可使用版权材料进行训练。
EleutherAI认为,这些诉讼显著降低了AI行业的透明度,限制了对模型功能和弱点的洞察,损害了更广泛的研究社区。
“法律挑战并未显著改变模型训练的数据来源实践,但它们极大地降低了AI公司的开放性,”EleutherAI执行主任Stella Biderman在周五的Hugging Face博客文章中表示。“我们与一些公司研究人员交谈时,他们提到诉讼是他们无法分享数据中心研究的原因。”
Common Pile v0.1在Hugging Face的AI平台和GitHub上可用,经过法律咨询开发,包括国会图书馆和互联网档案馆数字化的30万本公共领域书籍等来源。EleutherAI还利用OpenAI的Whisper模型转录音频内容。
EleutherAI声称Comma v0.1-1T和Comma v0.1-2T展示了Common Pile v0.1的质量,使开发者能够创建与专有系统竞争的模型。这两个模型拥有70亿个参数,在数据集的一部分上训练,在编码、图像理解和数学基准测试中可与Meta的原始Llama模型媲美。
在TechCrunch全阶段通行证上节省超200美元
更智能地创新。更快地成长。更深入地建立网络。与来自Precursor Ventures、NEA、Index Ventures、Underscore VC等的远见者建立联系,享受一天的洞察、研讨会和宝贵联系。
在TechCrunch全阶段通行证上节省超200美元
更智能地创新。更快地成长。更深入地建立网络。与来自Precursor Ventures、NEA、Index Ventures、Underscore VC等的远见者建立联系,享受一天的洞察、研讨会和宝贵联系。
波士顿,马萨诸塞州 | 7月15日 立即注册参数,通常称为权重,是AI模型的内部元素,塑造其行为和响应。
“认为未经许可的文本对于高性能至关重要的观点是没有根据的,”Biderman在她的帖子中表示。“随着公开许可和公共领域数据的可访问性增加,我们预计基于此类内容训练的模型将显著改进。”
Common Pile v0.1部分解决了EleutherAI过去的争议。几年前,该组织发布了包含版权材料的开放数据集The Pile,因其在AI训练中的使用而引发批评和法律审查。
EleutherAI承诺将更定期发布开放数据集,与研究和基础设施合作伙伴合作。
太平洋时间上午9:48更新: Biderman在X上表示,EleutherAI为数据集和模型发布做出了贡献,来自多伦多大学等合作伙伴的参与尤为重要,共同领导了研究。
相关文章
夏威夷海滩逍遥游:新的纽带和令人惊喜的转折
想象自己置身于纯净的夏威夷海滩,阳光温暖着你的肌肤,海浪谱写出平静的节奏。对于乔希来说,经过多年的努力,这一愿景终于变成了现实。从宁静的度假开始,很快就变成了一段充满新友谊和意外转折的惊险旅程。在夏威夷迷人的海岸线上,您将沉浸在这个关于联系、海滨乐趣和意外变化的迷人故事中。精彩内容乔希来到夏威夷,实现了多年来的梦想。与塞林的意外相遇在海滩上擦出了新友谊的火花。塞林欢迎乔希加入她的海滩俱乐
奥兹-奥斯本的《疯狂列车》动画视频:深入探究其艺术和影响
奥兹-奥斯本(Ozzy Osbourne)的《疯狂列车》超越了其重金属经典的地位,体现了一个文化里程碑。其动画音乐录影带带来了一次震撼人心的视觉之旅,增强了歌曲的原始能量和主题深度。本文探讨了该视频的艺术选择、核心信息和持久影响力。主要亮点疯狂列车》视频采用大胆的黑白素描风格动画。它探讨了精神错乱、社会恐惧和战争徒劳无益等主题。通过生动的漫画和象征手法,奥兹-奥斯本的形象更加鲜明。视觉
XXXTentacion AI翻唱:分析Marvin's Room重现
AI生成音乐领域迅速发展,提供迷人而复杂的可能性。一个引人注目的例子是以已故XXXTentacion风格重现Drake著名歌曲《Marvin's Room》的AI翻唱。这一数字创作引发多种情感,促使人们深入探讨AI在音乐、创造力和遗产保护中的角色。让我们深入探讨这一XXXTentacion AI翻唱的意义及其更广泛影响。关键亮点AI翻唱以XXXTentacion独特嗓音重新演绎《Marvin's
评论 (0)
0/200
EleutherAI,一个领先的AI研究组织,推出了一套最大的许可和开放领域文本集合,用于AI模型训练。
名为Common Pile v0.1的这个8TB数据集,经过两年时间与AI初创公司Poolside、Hugging Face以及多家学术机构合作开发。它被用来训练EleutherAI的两个新模型,Comma v0.1-1T和Comma v0.1-2T,该组织声称这些模型的性能可与使用未经许可的版权数据训练的模型相媲美。
包括OpenAI在内的AI公司,因使用网络抓取数据(包括版权书籍和期刊)进行模型训练而面临法律挑战。虽然一些公司与内容提供商达成许可协议,但许多公司依赖美国的合理使用原则,辩称无需许可即可使用版权材料进行训练。
EleutherAI认为,这些诉讼显著降低了AI行业的透明度,限制了对模型功能和弱点的洞察,损害了更广泛的研究社区。
“法律挑战并未显著改变模型训练的数据来源实践,但它们极大地降低了AI公司的开放性,”EleutherAI执行主任Stella Biderman在周五的Hugging Face博客文章中表示。“我们与一些公司研究人员交谈时,他们提到诉讼是他们无法分享数据中心研究的原因。”
Common Pile v0.1在Hugging Face的AI平台和GitHub上可用,经过法律咨询开发,包括国会图书馆和互联网档案馆数字化的30万本公共领域书籍等来源。EleutherAI还利用OpenAI的Whisper模型转录音频内容。
EleutherAI声称Comma v0.1-1T和Comma v0.1-2T展示了Common Pile v0.1的质量,使开发者能够创建与专有系统竞争的模型。这两个模型拥有70亿个参数,在数据集的一部分上训练,在编码、图像理解和数学基准测试中可与Meta的原始Llama模型媲美。
在TechCrunch全阶段通行证上节省超200美元
更智能地创新。更快地成长。更深入地建立网络。与来自Precursor Ventures、NEA、Index Ventures、Underscore VC等的远见者建立联系,享受一天的洞察、研讨会和宝贵联系。
在TechCrunch全阶段通行证上节省超200美元
更智能地创新。更快地成长。更深入地建立网络。与来自Precursor Ventures、NEA、Index Ventures、Underscore VC等的远见者建立联系,享受一天的洞察、研讨会和宝贵联系。
波士顿,马萨诸塞州 | 7月15日 立即注册参数,通常称为权重,是AI模型的内部元素,塑造其行为和响应。
“认为未经许可的文本对于高性能至关重要的观点是没有根据的,”Biderman在她的帖子中表示。“随着公开许可和公共领域数据的可访问性增加,我们预计基于此类内容训练的模型将显著改进。”
Common Pile v0.1部分解决了EleutherAI过去的争议。几年前,该组织发布了包含版权材料的开放数据集The Pile,因其在AI训练中的使用而引发批评和法律审查。
EleutherAI承诺将更定期发布开放数据集,与研究和基础设施合作伙伴合作。
太平洋时间上午9:48更新: Biderman在X上表示,EleutherAI为数据集和模型发布做出了贡献,来自多伦多大学等合作伙伴的参与尤为重要,共同领导了研究。












