EleutherAI가 AI 훈련을 위한 대규모 라이선스 텍스트 데이터셋 공개

집

뉴스

2025년 8월 30일

WillSmith

EleutherAI가 AI 훈련을 위한 대규모 라이선스 텍스트 데이터셋 공개

EleutherAI, 선도적인 AI 연구 그룹은 AI 모델 훈련을 위한 가장 큰 라이선스 및 오픈 도메인 텍스트 컬렉션 중 하나를 출시했습니다.

Common Pile v0.1이라는 이름의 이 8테라바이트 데이터셋은 AI 스타트업 Poolside, Hugging Face 및 다양한 학술 기관과 함께 2년 동안 개발되었습니다. 이 데이터셋은 EleutherAI의 두 가지 새로운 모델, Comma v0.1-1T와 Comma v0.1-2T를 훈련시키는 데 사용되었으며, 이 조직은 이 모델들이 라이선스 없이 저작권이 있는 데이터로 훈련된 모델들의 성능과 맞먹는다고 주장합니다.

OpenAI를 포함한 AI 기업들은 웹 스크래핑 데이터를 사용한 모델 훈련, 특히 저작권이 있는 책과 저널을 포함한 데이터 사용으로 인해 법적 도전에 직면해 있습니다. 일부는 콘텐츠 제공자와 라이선스 계약을 맺고 있지만, 많은 기업은 미국의 공정 사용 원칙에 의존하여 허가 없이 저작권이 있는 자료로 훈련을 정당화합니다.

EleutherAI는 이러한 소송들이 AI 산업의 투명성을 크게 감소시켜 모델 기능과 약점에 대한 통찰을 제한하며, 이는 더 넓은 연구 커뮤니티에 해를 끼친다고 주장합니다.

“법적 도전은 모델 훈련을 위한 데이터 소싱 관행을 크게 바꾸지 않았지만, AI 기업의 개방성을 급격히 감소시켰습니다,”라고 EleutherAI의 전무이사인 Stella Biderman이 금요일 Hugging Face 블로그 포스트에서 말했습니다. “우리가 대화한 일부 기업의 연구자들은 소송을 이유로 데이터 중심 연구를 공유할 수 없다고 언급했습니다.”

Hugging Face의 AI 플랫폼과 GitHub에서 제공되는 Common Pile v0.1은 법률 자문을 받아 개발되었으며, 의회 도서관과 인터넷 아카이브가 디지털화한 300,000개의 공공 도메인 책과 같은 소스를 포함합니다. EleutherAI는 또한 OpenAI의 Whisper 모델을 사용하여 오디오 콘텐츠를 전사했습니다.

EleutherAI는 Comma v0.1-1T와 Comma v0.1-2T가 Common Pile v0.1의 품질을 보여주며, 개발자들이 독점 시스템과 경쟁할 수 있는 모델을 만들 수 있게 한다고 주장합니다. 70억 개의 매개변수를 가지며 데이터셋의 일부로 훈련된 두 모델은 Meta의 원래 Llama 모델과 코딩, 이미지 이해, 수학 벤치마크에서 경쟁합니다.

TechCrunch All Stage Pass에서 200달러 이상 절약하세요

더 똑똑하게 혁신하세요. 더 빠르게 성장하세요. 더 깊이 네트워크를 형성하세요. Precursor Ventures, NEA, Index Ventures, Underscore VC 등의 비전가들과 함께 하루 동안의 통찰, 워크숍, 그리고 소중한 연결을 경험하세요.

TechCrunch All Stage Pass에서 200달러 이상 절약하세요

더 똑똑하게 혁신하세요. 더 빠르게 성장하세요. 더 깊이 네트워크를 형성하세요. Precursor Ventures, NEA, Index Ventures, Underscore VC 등의 비전가들과 함께 하루 동안의 통찰, 워크숍, 그리고 소중한 연결을 경험하세요.

Boston, MA | 7월 15일 지금 등록하세요

매개변수, 종종 가중치라고 불리는 것은 AI 모델의 행동과 응답을 형성하는 내부 요소입니다.

“라이선스 없는 텍스트가 고성능에 필수적이라는 믿음은 근거가 없습니다,”라고 Biderman이 자신의 포스트에서 말했습니다. “공개적으로 라이선스된 데이터와 공공 도메인 데이터가 더 접근 가능해짐에 따라, 이러한 콘텐츠로 훈련된 모델이 크게 개선될 것으로 기대합니다.”

Common Pile v0.1은 EleutherAI의 과거 논란을 부분적으로 해결합니다. 몇 년 전, 이 그룹은 저작권이 있는 자료를 포함한 오픈 데이터셋인 The Pile을 공개했으며, 이는 AI 훈련에 사용된 것에 대해 비판과 법적 조사를 받았습니다.

EleutherAI는 연구 및 인프라 파트너들과 협력하여 오픈 데이터셋을 더 자주 공개할 것을 약속합니다.

태평양 표준시 오전 9:48 업데이트: Biderman은 X에서 EleutherAI가 데이터셋과 모델 출시에 기여했으며, 토론토 대학교와 같은 파트너들이 연구를 공동으로 이끌며 중요한 역할을 했다고 언급했습니다.

관련 특별 주제 추천

사업

최고의 AI 계약서 검토 소프트웨어: 법적 허점과 규정 준수 위험을 즉시 파악하세요

XIX.AI에서 2026년 최고의 AI 계약서 검토 소프트웨어를 만나보세요. 엄선된 최고 평점 목록에는 법적 허점과 규정 준수 위험을 즉시 파악하는 강력한 도구들이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 통해 무료 및 유료 옵션을 비교해 보세요. 안전하고 효율적인 계약서 분석을 위한 획기적인 솔루션을 찾아보세요. 지금 바로 이 결정적인 가이드를 확인해 보세요.

10 도구

xix.ai

애니메이션 제작

동화를 위한 AI 애니메이션 생성기: 웹 소설 캐릭터 및 코믹 아바타 제작하기

2026년 최고의 동화용 AI 애니메이션 제작 도구를 발견해 보세요. 저희가 엄선한 이 목록에는 멋진 웹소설 캐릭터와 코믹 아바타를 만들 수 있는 강력한 도구들이 포함되어 있습니다. 무료 옵션과 유료 옵션을 실제 사용 테스트를 통해 비교해 보세요. XIX.AI에서 여러분에게 가장 적합한 창작 도구를 찾아내고 오늘 바로 여러분의 이야기를 현실로 만들어 보세요.

10 도구

xix.ai

만화 창작

만화용 최고의 AI 자동 채색 도구: 일관성 오류 없이 플랫 컬러 적용하기

XIX.AI에서 2026년 최고의 만화 AI 자동 채색 도구를 만나보세요. 저희가 엄선한 이 목록에는 일관성 오류 없이 평면 색상을 적용하여 생산성을 높여주는, 최고 평점을 받은 혁신적인 솔루션들이 포함되어 있습니다. 무료 버전과 유료 버전의 비교 분석, 실제 테스트 결과, 매주 업데이트되는 순위 정보를 확인하여 여러분에게 딱 맞는 도구를 찾아보세요. 지금 바로 AI의 힘을 경험해 보세요.

10 도구

xix.ai

글쓰기

최고의 AI 소설 캐릭터 생성기: 일관된 캐릭터 동기와 치명적인 결점 생성

깊이 있는 캐릭터를 창조할 수 있는 2026년 최고의 AI 소설 프로필 생성 도구를 만나보세요. XIX.AI가 엄선한 이 목록에는 일관된 동기와 치명적인 결점을 생성해 주는, 최고 평점을 받은 혁신적인 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 여러분의 스토리텔링 잠재력을 발휘해 보세요.

10 도구

xix.ai

사업

최고의 AI 가격 최적화 소프트웨어: 경쟁사 추적 및 스토어 가격 자동 조정

XIX.AI에서 2026년 최고의 AI 가격 최적화 소프트웨어를 만나보세요. 저희가 엄선한 이 목록에는 경쟁사를 추적하고 최대 수익을 위해 매장 가격을 자동으로 조정해 주는, 최고 평점을 받은 혁신적인 도구들이 포함되어 있습니다. 실제 테스트 결과를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 가격 경쟁력의 우위를 확보하세요.

10 도구

xix.ai

암호

최고의 AI 코드 검토 도구: 깔끔한 코드 준수 자동화 및 레거시 리포지토리 파일 리팩토링

XIX.AI에서 2026년 최고의 AI 코드 검토 도구를 만나보세요. 엄선된 이 목록에는 깔끔한 코드 준수 여부를 자동으로 확인하고 레거시 리포지토리 파일을 리팩토링하는 데 있어 판도를 바꿀 만한 최고 등급의 도구들이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 통해 무료 및 유료 옵션을 비교해 보세요. 지금 바로 AI의 경쟁력을 확보하세요.

10 도구

xix.ai

의견 (2)

0/500

먼저 로그인하십시오

NicholasLewis

2026년 3월 10일 오후 7시 1분 3초 GMT+09:00

Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?

RyanLopez

2026년 2월 2일 오후 5시 0분 51초 GMT+09:00

Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

최고의 뉴스

AI Builder와 Power Automate가 문서 요약을 혁신하다 AI Notebooklm Podcast의 AI 호스트는 이제 인터뷰에 참여할 수 있습니다 중국, 국가 휴머노이드 로봇 및 구현 지능 표준 공개 기업 AI 도입 정체기, 램프 데이터에 따르면 Bing 이미지 크리에이터 튜토리얼: AI 아트 생성 가이드 당신의 목소리를 사용하여 AI 음악 만들기 배우기 : 단계별 Suno 튜토리얼 iMyFone MagicMic: 실시간 AI 음성 변환기 리뷰 및 튜토리얼 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 딥시크 V4, 다중 모달 AI의 판도를 바꾸는 혁신으로 부상하다 엠보디드 인텔리전스, 무분별한 확장을 억제하기 위한 업계 최초의 표준을 발표하다

더