EleutherAI发布大规模许可文本数据集用于AI训练

EleutherAI,一个领先的AI研究组织,推出了一套最大的许可和开放领域文本集合,用于AI模型训练。
名为Common Pile v0.1的这个8TB数据集,经过两年时间与AI初创公司Poolside、Hugging Face以及多家学术机构合作开发。它被用来训练EleutherAI的两个新模型,Comma v0.1-1T和Comma v0.1-2T,该组织声称这些模型的性能可与使用未经许可的版权数据训练的模型相媲美。
包括OpenAI在内的AI公司,因使用网络抓取数据(包括版权书籍和期刊)进行模型训练而面临法律挑战。虽然一些公司与内容提供商达成许可协议,但许多公司依赖美国的合理使用原则,辩称无需许可即可使用版权材料进行训练。
EleutherAI认为,这些诉讼显著降低了AI行业的透明度,限制了对模型功能和弱点的洞察,损害了更广泛的研究社区。
“法律挑战并未显著改变模型训练的数据来源实践,但它们极大地降低了AI公司的开放性,”EleutherAI执行主任Stella Biderman在周五的Hugging Face博客文章中表示。“我们与一些公司研究人员交谈时,他们提到诉讼是他们无法分享数据中心研究的原因。”
Common Pile v0.1在Hugging Face的AI平台和GitHub上可用,经过法律咨询开发,包括国会图书馆和互联网档案馆数字化的30万本公共领域书籍等来源。EleutherAI还利用OpenAI的Whisper模型转录音频内容。
EleutherAI声称Comma v0.1-1T和Comma v0.1-2T展示了Common Pile v0.1的质量,使开发者能够创建与专有系统竞争的模型。这两个模型拥有70亿个参数,在数据集的一部分上训练,在编码、图像理解和数学基准测试中可与Meta的原始Llama模型媲美。
在TechCrunch全阶段通行证上节省超200美元
更智能地创新。更快地成长。更深入地建立网络。与来自Precursor Ventures、NEA、Index Ventures、Underscore VC等的远见者建立联系,享受一天的洞察、研讨会和宝贵联系。
在TechCrunch全阶段通行证上节省超200美元
更智能地创新。更快地成长。更深入地建立网络。与来自Precursor Ventures、NEA、Index Ventures、Underscore VC等的远见者建立联系,享受一天的洞察、研讨会和宝贵联系。
波士顿,马萨诸塞州 | 7月15日 立即注册参数,通常称为权重,是AI模型的内部元素,塑造其行为和响应。
“认为未经许可的文本对于高性能至关重要的观点是没有根据的,”Biderman在她的帖子中表示。“随着公开许可和公共领域数据的可访问性增加,我们预计基于此类内容训练的模型将显著改进。”
Common Pile v0.1部分解决了EleutherAI过去的争议。几年前,该组织发布了包含版权材料的开放数据集The Pile,因其在AI训练中的使用而引发批评和法律审查。
EleutherAI承诺将更定期发布开放数据集,与研究和基础设施合作伙伴合作。
太平洋时间上午9:48更新: Biderman在X上表示,EleutherAI为数据集和模型发布做出了贡献,来自多伦多大学等合作伙伴的参与尤为重要,共同领导了研究。
相关文章
OpenAI 停用 o3 和 GPT-4.5 大型模型
作为人工智能领域的领军企业,OpenAI的每一步技术举措都会在业界引发巨大反响。近日,该公司发布了一项重大公告:将从其ChatGPT平台退役两个经典模型——o3和GPT-4.5。 常被称为“人文天才”的 GPT-4.5 将于 6 月 27 日下线,而以硬核推理能力著称的 o3 则将于 8 月 26 日跟进。经典模型的退役引发怀旧之情这一突如其来的消息让许多付费老用户难以接受,社交社区和讨论区很快充
AIGCPanel 2.0.0 重大更新:工作流引擎开启自动化数字人创作的新纪元
AIGCPanel 作为一款强大的本地数字人创作工具,刚刚发布了 2.0.0 版本——被誉为“迄今为止最重大的更新”。 此次核心升级通过工作流引擎和CLI命令行工具,将数字人合成、语音克隆及音视频处理功能有机整合,从而解决了当前AI创作工具分散的问题,实现了从手动组装到自动化生产的转变。1. 核心升级:定义逻辑流程,一键输出AIGCPanel 2.0.0 的突出新功能是工作流引擎:基于节点的组合:
BuzzFeed 推出专注于垃圾应用的 AI 子公司
在面临重大经营危机的背景下,曾经的数字媒体巨头BuzzFeed正启动一项由人工智能驱动的雄心勃勃的自救实验。 在最近举行的SXSW大会上,联合创始人兼首席执行官乔纳·佩雷蒂宣布成立一家名为Branch Office的子公司,旨在通过一系列由人工智能驱动的消费者应用程序,重新定义“软件即内容”的商业模式。核心产品组合:融合网络梗与社交媒体Branch Office 推出了三款核心应用,每款都旨在捕捉
相关专题推荐
评论 (2)
0/500
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

EleutherAI,一个领先的AI研究组织,推出了一套最大的许可和开放领域文本集合,用于AI模型训练。
名为Common Pile v0.1的这个8TB数据集,经过两年时间与AI初创公司Poolside、Hugging Face以及多家学术机构合作开发。它被用来训练EleutherAI的两个新模型,Comma v0.1-1T和Comma v0.1-2T,该组织声称这些模型的性能可与使用未经许可的版权数据训练的模型相媲美。
包括OpenAI在内的AI公司,因使用网络抓取数据(包括版权书籍和期刊)进行模型训练而面临法律挑战。虽然一些公司与内容提供商达成许可协议,但许多公司依赖美国的合理使用原则,辩称无需许可即可使用版权材料进行训练。
EleutherAI认为,这些诉讼显著降低了AI行业的透明度,限制了对模型功能和弱点的洞察,损害了更广泛的研究社区。
“法律挑战并未显著改变模型训练的数据来源实践,但它们极大地降低了AI公司的开放性,”EleutherAI执行主任Stella Biderman在周五的Hugging Face博客文章中表示。“我们与一些公司研究人员交谈时,他们提到诉讼是他们无法分享数据中心研究的原因。”
Common Pile v0.1在Hugging Face的AI平台和GitHub上可用,经过法律咨询开发,包括国会图书馆和互联网档案馆数字化的30万本公共领域书籍等来源。EleutherAI还利用OpenAI的Whisper模型转录音频内容。
EleutherAI声称Comma v0.1-1T和Comma v0.1-2T展示了Common Pile v0.1的质量,使开发者能够创建与专有系统竞争的模型。这两个模型拥有70亿个参数,在数据集的一部分上训练,在编码、图像理解和数学基准测试中可与Meta的原始Llama模型媲美。
在TechCrunch全阶段通行证上节省超200美元
更智能地创新。更快地成长。更深入地建立网络。与来自Precursor Ventures、NEA、Index Ventures、Underscore VC等的远见者建立联系,享受一天的洞察、研讨会和宝贵联系。
在TechCrunch全阶段通行证上节省超200美元
更智能地创新。更快地成长。更深入地建立网络。与来自Precursor Ventures、NEA、Index Ventures、Underscore VC等的远见者建立联系,享受一天的洞察、研讨会和宝贵联系。
波士顿,马萨诸塞州 | 7月15日 立即注册参数,通常称为权重,是AI模型的内部元素,塑造其行为和响应。
“认为未经许可的文本对于高性能至关重要的观点是没有根据的,”Biderman在她的帖子中表示。“随着公开许可和公共领域数据的可访问性增加,我们预计基于此类内容训练的模型将显著改进。”
Common Pile v0.1部分解决了EleutherAI过去的争议。几年前,该组织发布了包含版权材料的开放数据集The Pile,因其在AI训练中的使用而引发批评和法律审查。
EleutherAI承诺将更定期发布开放数据集,与研究和基础设施合作伙伴合作。
太平洋时间上午9:48更新: Biderman在X上表示,EleutherAI为数据集和模型发布做出了贡献,来自多伦多大学等合作伙伴的参与尤为重要,共同领导了研究。
OpenAI 停用 o3 和 GPT-4.5 大型模型
作为人工智能领域的领军企业,OpenAI的每一步技术举措都会在业界引发巨大反响。近日,该公司发布了一项重大公告:将从其ChatGPT平台退役两个经典模型——o3和GPT-4.5。 常被称为“人文天才”的 GPT-4.5 将于 6 月 27 日下线,而以硬核推理能力著称的 o3 则将于 8 月 26 日跟进。经典模型的退役引发怀旧之情这一突如其来的消息让许多付费老用户难以接受,社交社区和讨论区很快充
AIGCPanel 2.0.0 重大更新:工作流引擎开启自动化数字人创作的新纪元
AIGCPanel 作为一款强大的本地数字人创作工具,刚刚发布了 2.0.0 版本——被誉为“迄今为止最重大的更新”。 此次核心升级通过工作流引擎和CLI命令行工具,将数字人合成、语音克隆及音视频处理功能有机整合,从而解决了当前AI创作工具分散的问题,实现了从手动组装到自动化生产的转变。1. 核心升级:定义逻辑流程,一键输出AIGCPanel 2.0.0 的突出新功能是工作流引擎:基于节点的组合:
BuzzFeed 推出专注于垃圾应用的 AI 子公司
在面临重大经营危机的背景下,曾经的数字媒体巨头BuzzFeed正启动一项由人工智能驱动的雄心勃勃的自救实验。 在最近举行的SXSW大会上,联合创始人兼首席执行官乔纳·佩雷蒂宣布成立一家名为Branch Office的子公司,旨在通过一系列由人工智能驱动的消费者应用程序,重新定义“软件即内容”的商业模式。核心产品组合:融合网络梗与社交媒体Branch Office 推出了三款核心应用,每款都旨在捕捉
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀





首页






