EleutherAI가 AI 훈련을 위한 대규모 라이선스 텍스트 데이터셋 공개

EleutherAI, 선도적인 AI 연구 그룹은 AI 모델 훈련을 위한 가장 큰 라이선스 및 오픈 도메인 텍스트 컬렉션 중 하나를 출시했습니다.
Common Pile v0.1이라는 이름의 이 8테라바이트 데이터셋은 AI 스타트업 Poolside, Hugging Face 및 다양한 학술 기관과 함께 2년 동안 개발되었습니다. 이 데이터셋은 EleutherAI의 두 가지 새로운 모델, Comma v0.1-1T와 Comma v0.1-2T를 훈련시키는 데 사용되었으며, 이 조직은 이 모델들이 라이선스 없이 저작권이 있는 데이터로 훈련된 모델들의 성능과 맞먹는다고 주장합니다.
OpenAI를 포함한 AI 기업들은 웹 스크래핑 데이터를 사용한 모델 훈련, 특히 저작권이 있는 책과 저널을 포함한 데이터 사용으로 인해 법적 도전에 직면해 있습니다. 일부는 콘텐츠 제공자와 라이선스 계약을 맺고 있지만, 많은 기업은 미국의 공정 사용 원칙에 의존하여 허가 없이 저작권이 있는 자료로 훈련을 정당화합니다.
EleutherAI는 이러한 소송들이 AI 산업의 투명성을 크게 감소시켜 모델 기능과 약점에 대한 통찰을 제한하며, 이는 더 넓은 연구 커뮤니티에 해를 끼친다고 주장합니다.
“법적 도전은 모델 훈련을 위한 데이터 소싱 관행을 크게 바꾸지 않았지만, AI 기업의 개방성을 급격히 감소시켰습니다,”라고 EleutherAI의 전무이사인 Stella Biderman이 금요일 Hugging Face 블로그 포스트에서 말했습니다. “우리가 대화한 일부 기업의 연구자들은 소송을 이유로 데이터 중심 연구를 공유할 수 없다고 언급했습니다.”
Hugging Face의 AI 플랫폼과 GitHub에서 제공되는 Common Pile v0.1은 법률 자문을 받아 개발되었으며, 의회 도서관과 인터넷 아카이브가 디지털화한 300,000개의 공공 도메인 책과 같은 소스를 포함합니다. EleutherAI는 또한 OpenAI의 Whisper 모델을 사용하여 오디오 콘텐츠를 전사했습니다.
EleutherAI는 Comma v0.1-1T와 Comma v0.1-2T가 Common Pile v0.1의 품질을 보여주며, 개발자들이 독점 시스템과 경쟁할 수 있는 모델을 만들 수 있게 한다고 주장합니다. 70억 개의 매개변수를 가지며 데이터셋의 일부로 훈련된 두 모델은 Meta의 원래 Llama 모델과 코딩, 이미지 이해, 수학 벤치마크에서 경쟁합니다.
TechCrunch All Stage Pass에서 200달러 이상 절약하세요
더 똑똑하게 혁신하세요. 더 빠르게 성장하세요. 더 깊이 네트워크를 형성하세요. Precursor Ventures, NEA, Index Ventures, Underscore VC 등의 비전가들과 함께 하루 동안의 통찰, 워크숍, 그리고 소중한 연결을 경험하세요.
TechCrunch All Stage Pass에서 200달러 이상 절약하세요
더 똑똑하게 혁신하세요. 더 빠르게 성장하세요. 더 깊이 네트워크를 형성하세요. Precursor Ventures, NEA, Index Ventures, Underscore VC 등의 비전가들과 함께 하루 동안의 통찰, 워크숍, 그리고 소중한 연결을 경험하세요.
Boston, MA | 7월 15일 지금 등록하세요매개변수, 종종 가중치라고 불리는 것은 AI 모델의 행동과 응답을 형성하는 내부 요소입니다.
“라이선스 없는 텍스트가 고성능에 필수적이라는 믿음은 근거가 없습니다,”라고 Biderman이 자신의 포스트에서 말했습니다. “공개적으로 라이선스된 데이터와 공공 도메인 데이터가 더 접근 가능해짐에 따라, 이러한 콘텐츠로 훈련된 모델이 크게 개선될 것으로 기대합니다.”
Common Pile v0.1은 EleutherAI의 과거 논란을 부분적으로 해결합니다. 몇 년 전, 이 그룹은 저작권이 있는 자료를 포함한 오픈 데이터셋인 The Pile을 공개했으며, 이는 AI 훈련에 사용된 것에 대해 비판과 법적 조사를 받았습니다.
EleutherAI는 연구 및 인프라 파트너들과 협력하여 오픈 데이터셋을 더 자주 공개할 것을 약속합니다.
태평양 표준시 오전 9:48 업데이트: Biderman은 X에서 EleutherAI가 데이터셋과 모델 출시에 기여했으며, 토론토 대학교와 같은 파트너들이 연구를 공동으로 이끌며 중요한 역할을 했다고 언급했습니다.
관련 기사
ElevenLabs, 블랙록·제이미 폭스·에바 롱고리아를 신규 투자자로 선정
음성 AI 기업 일레븐랩스(ElevenLabs)는 지난 2월에 처음 발표했던 5억 달러 규모의 시리즈 D 투자 라운드에 참여한 추가 투자자들을 공개했다. 이번 투자자 명단에는 블랙록(BlackRock), 웰링턴(Wellington), D.E. 쇼(D.E. Shaw), 슈로더(Schroders)와 같은 기관 투자자들과 엔비디아(NVIDIA), 세일즈포스(Sa
오픈AI CEO 알트먼, 앤트로픽의 ‘공황에 휩싸인’ 마케팅 전략을 맹비난
AI 업계의 선두주자인 오픈AI(OpenAI)와 앤트로픽(Anthropic) 간의 공개적 공방이 더욱 격화되고 있다. 오픈AI의 CEO인 샘 알트먼은 최근 한 팟캐스트에서 경쟁사의 최신 안전 모델에 의문을 제기했다.알트먼은 앤트로픽이 기술에 대한 대중의 두려움을 이용해 자사 제품의 실제 성능을 과대포장하고 있다고 주장한다. 그는 이러한 접근 방식을 진정한
커서 AI 코딩 스타트업, 스페이스X로부터 대규모 투자 유치 후 아시아태평양 지역에서 200명 채용 예정
AI 코딩 스타트업 커서(Cursor)가 향후 6개월 동안 아시아 태평양 지역 전역에서 200명의 직원을 채용할 계획이라고 밝히며 대규모 글로벌 확장 계획을 발표했다. 주요 채용 직종으로는 마케팅 엔지니어, 현장 엔지니어, AI 배포 엔지니어 등이 포함된다. 이번 조치는 샌프란시스코에 본사를 둔 이 유니콘 기업이 자사의 핵심 기술을 국제 시장에 진출시키려는
관련 특별 주제 추천
의견 (2)
0/500
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

EleutherAI, 선도적인 AI 연구 그룹은 AI 모델 훈련을 위한 가장 큰 라이선스 및 오픈 도메인 텍스트 컬렉션 중 하나를 출시했습니다.
Common Pile v0.1이라는 이름의 이 8테라바이트 데이터셋은 AI 스타트업 Poolside, Hugging Face 및 다양한 학술 기관과 함께 2년 동안 개발되었습니다. 이 데이터셋은 EleutherAI의 두 가지 새로운 모델, Comma v0.1-1T와 Comma v0.1-2T를 훈련시키는 데 사용되었으며, 이 조직은 이 모델들이 라이선스 없이 저작권이 있는 데이터로 훈련된 모델들의 성능과 맞먹는다고 주장합니다.
OpenAI를 포함한 AI 기업들은 웹 스크래핑 데이터를 사용한 모델 훈련, 특히 저작권이 있는 책과 저널을 포함한 데이터 사용으로 인해 법적 도전에 직면해 있습니다. 일부는 콘텐츠 제공자와 라이선스 계약을 맺고 있지만, 많은 기업은 미국의 공정 사용 원칙에 의존하여 허가 없이 저작권이 있는 자료로 훈련을 정당화합니다.
EleutherAI는 이러한 소송들이 AI 산업의 투명성을 크게 감소시켜 모델 기능과 약점에 대한 통찰을 제한하며, 이는 더 넓은 연구 커뮤니티에 해를 끼친다고 주장합니다.
“법적 도전은 모델 훈련을 위한 데이터 소싱 관행을 크게 바꾸지 않았지만, AI 기업의 개방성을 급격히 감소시켰습니다,”라고 EleutherAI의 전무이사인 Stella Biderman이 금요일 Hugging Face 블로그 포스트에서 말했습니다. “우리가 대화한 일부 기업의 연구자들은 소송을 이유로 데이터 중심 연구를 공유할 수 없다고 언급했습니다.”
Hugging Face의 AI 플랫폼과 GitHub에서 제공되는 Common Pile v0.1은 법률 자문을 받아 개발되었으며, 의회 도서관과 인터넷 아카이브가 디지털화한 300,000개의 공공 도메인 책과 같은 소스를 포함합니다. EleutherAI는 또한 OpenAI의 Whisper 모델을 사용하여 오디오 콘텐츠를 전사했습니다.
EleutherAI는 Comma v0.1-1T와 Comma v0.1-2T가 Common Pile v0.1의 품질을 보여주며, 개발자들이 독점 시스템과 경쟁할 수 있는 모델을 만들 수 있게 한다고 주장합니다. 70억 개의 매개변수를 가지며 데이터셋의 일부로 훈련된 두 모델은 Meta의 원래 Llama 모델과 코딩, 이미지 이해, 수학 벤치마크에서 경쟁합니다.
TechCrunch All Stage Pass에서 200달러 이상 절약하세요
더 똑똑하게 혁신하세요. 더 빠르게 성장하세요. 더 깊이 네트워크를 형성하세요. Precursor Ventures, NEA, Index Ventures, Underscore VC 등의 비전가들과 함께 하루 동안의 통찰, 워크숍, 그리고 소중한 연결을 경험하세요.
TechCrunch All Stage Pass에서 200달러 이상 절약하세요
더 똑똑하게 혁신하세요. 더 빠르게 성장하세요. 더 깊이 네트워크를 형성하세요. Precursor Ventures, NEA, Index Ventures, Underscore VC 등의 비전가들과 함께 하루 동안의 통찰, 워크숍, 그리고 소중한 연결을 경험하세요.
Boston, MA | 7월 15일 지금 등록하세요매개변수, 종종 가중치라고 불리는 것은 AI 모델의 행동과 응답을 형성하는 내부 요소입니다.
“라이선스 없는 텍스트가 고성능에 필수적이라는 믿음은 근거가 없습니다,”라고 Biderman이 자신의 포스트에서 말했습니다. “공개적으로 라이선스된 데이터와 공공 도메인 데이터가 더 접근 가능해짐에 따라, 이러한 콘텐츠로 훈련된 모델이 크게 개선될 것으로 기대합니다.”
Common Pile v0.1은 EleutherAI의 과거 논란을 부분적으로 해결합니다. 몇 년 전, 이 그룹은 저작권이 있는 자료를 포함한 오픈 데이터셋인 The Pile을 공개했으며, 이는 AI 훈련에 사용된 것에 대해 비판과 법적 조사를 받았습니다.
EleutherAI는 연구 및 인프라 파트너들과 협력하여 오픈 데이터셋을 더 자주 공개할 것을 약속합니다.
태평양 표준시 오전 9:48 업데이트: Biderman은 X에서 EleutherAI가 데이터셋과 모델 출시에 기여했으며, 토론토 대학교와 같은 파트너들이 연구를 공동으로 이끌며 중요한 역할을 했다고 언급했습니다.
ElevenLabs, 블랙록·제이미 폭스·에바 롱고리아를 신규 투자자로 선정
음성 AI 기업 일레븐랩스(ElevenLabs)는 지난 2월에 처음 발표했던 5억 달러 규모의 시리즈 D 투자 라운드에 참여한 추가 투자자들을 공개했다. 이번 투자자 명단에는 블랙록(BlackRock), 웰링턴(Wellington), D.E. 쇼(D.E. Shaw), 슈로더(Schroders)와 같은 기관 투자자들과 엔비디아(NVIDIA), 세일즈포스(Sa
오픈AI CEO 알트먼, 앤트로픽의 ‘공황에 휩싸인’ 마케팅 전략을 맹비난
AI 업계의 선두주자인 오픈AI(OpenAI)와 앤트로픽(Anthropic) 간의 공개적 공방이 더욱 격화되고 있다. 오픈AI의 CEO인 샘 알트먼은 최근 한 팟캐스트에서 경쟁사의 최신 안전 모델에 의문을 제기했다.알트먼은 앤트로픽이 기술에 대한 대중의 두려움을 이용해 자사 제품의 실제 성능을 과대포장하고 있다고 주장한다. 그는 이러한 접근 방식을 진정한
커서 AI 코딩 스타트업, 스페이스X로부터 대규모 투자 유치 후 아시아태평양 지역에서 200명 채용 예정
AI 코딩 스타트업 커서(Cursor)가 향후 6개월 동안 아시아 태평양 지역 전역에서 200명의 직원을 채용할 계획이라고 밝히며 대규모 글로벌 확장 계획을 발표했다. 주요 채용 직종으로는 마케팅 엔지니어, 현장 엔지니어, AI 배포 엔지니어 등이 포함된다. 이번 조치는 샌프란시스코에 본사를 둔 이 유니콘 기업이 자사의 핵심 기술을 국제 시장에 진출시키려는
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀





집






