옵션
뉴스
EleutherAI가 AI 훈련을 위한 대규모 라이선스 텍스트 데이터셋 공개

EleutherAI가 AI 훈련을 위한 대규모 라이선스 텍스트 데이터셋 공개

2025년 8월 30일
0

EleutherAI가 AI 훈련을 위한 대규모 라이선스 텍스트 데이터셋 공개

EleutherAI, 선도적인 AI 연구 그룹은 AI 모델 훈련을 위한 가장 큰 라이선스 및 오픈 도메인 텍스트 컬렉션 중 하나를 출시했습니다.

Common Pile v0.1이라는 이름의 이 8테라바이트 데이터셋은 AI 스타트업 Poolside, Hugging Face 및 다양한 학술 기관과 함께 2년 동안 개발되었습니다. 이 데이터셋은 EleutherAI의 두 가지 새로운 모델, Comma v0.1-1T와 Comma v0.1-2T를 훈련시키는 데 사용되었으며, 이 조직은 이 모델들이 라이선스 없이 저작권이 있는 데이터로 훈련된 모델들의 성능과 맞먹는다고 주장합니다.

OpenAI를 포함한 AI 기업들은 웹 스크래핑 데이터를 사용한 모델 훈련, 특히 저작권이 있는 책과 저널을 포함한 데이터 사용으로 인해 법적 도전에 직면해 있습니다. 일부는 콘텐츠 제공자와 라이선스 계약을 맺고 있지만, 많은 기업은 미국의 공정 사용 원칙에 의존하여 허가 없이 저작권이 있는 자료로 훈련을 정당화합니다.

EleutherAI는 이러한 소송들이 AI 산업의 투명성을 크게 감소시켜 모델 기능과 약점에 대한 통찰을 제한하며, 이는 더 넓은 연구 커뮤니티에 해를 끼친다고 주장합니다.

“법적 도전은 모델 훈련을 위한 데이터 소싱 관행을 크게 바꾸지 않았지만, AI 기업의 개방성을 급격히 감소시켰습니다,”라고 EleutherAI의 전무이사인 Stella Biderman이 금요일 Hugging Face 블로그 포스트에서 말했습니다. “우리가 대화한 일부 기업의 연구자들은 소송을 이유로 데이터 중심 연구를 공유할 수 없다고 언급했습니다.”

Hugging Face의 AI 플랫폼과 GitHub에서 제공되는 Common Pile v0.1은 법률 자문을 받아 개발되었으며, 의회 도서관과 인터넷 아카이브가 디지털화한 300,000개의 공공 도메인 책과 같은 소스를 포함합니다. EleutherAI는 또한 OpenAI의 Whisper 모델을 사용하여 오디오 콘텐츠를 전사했습니다.

EleutherAI는 Comma v0.1-1T와 Comma v0.1-2T가 Common Pile v0.1의 품질을 보여주며, 개발자들이 독점 시스템과 경쟁할 수 있는 모델을 만들 수 있게 한다고 주장합니다. 70억 개의 매개변수를 가지며 데이터셋의 일부로 훈련된 두 모델은 Meta의 원래 Llama 모델과 코딩, 이미지 이해, 수학 벤치마크에서 경쟁합니다.

TechCrunch All Stage Pass에서 200달러 이상 절약하세요

더 똑똑하게 혁신하세요. 더 빠르게 성장하세요. 더 깊이 네트워크를 형성하세요. Precursor Ventures, NEA, Index Ventures, Underscore VC 등의 비전가들과 함께 하루 동안의 통찰, 워크숍, 그리고 소중한 연결을 경험하세요.

TechCrunch All Stage Pass에서 200달러 이상 절약하세요

더 똑똑하게 혁신하세요. 더 빠르게 성장하세요. 더 깊이 네트워크를 형성하세요. Precursor Ventures, NEA, Index Ventures, Underscore VC 등의 비전가들과 함께 하루 동안의 통찰, 워크숍, 그리고 소중한 연결을 경험하세요.

Boston, MA | 7월 15일 지금 등록하세요

매개변수, 종종 가중치라고 불리는 것은 AI 모델의 행동과 응답을 형성하는 내부 요소입니다.

“라이선스 없는 텍스트가 고성능에 필수적이라는 믿음은 근거가 없습니다,”라고 Biderman이 자신의 포스트에서 말했습니다. “공개적으로 라이선스된 데이터와 공공 도메인 데이터가 더 접근 가능해짐에 따라, 이러한 콘텐츠로 훈련된 모델이 크게 개선될 것으로 기대합니다.”

Common Pile v0.1은 EleutherAI의 과거 논란을 부분적으로 해결합니다. 몇 년 전, 이 그룹은 저작권이 있는 자료를 포함한 오픈 데이터셋인 The Pile을 공개했으며, 이는 AI 훈련에 사용된 것에 대해 비판과 법적 조사를 받았습니다.

EleutherAI는 연구 및 인프라 파트너들과 협력하여 오픈 데이터셋을 더 자주 공개할 것을 약속합니다.

태평양 표준시 오전 9:48 업데이트: Biderman은 X에서 EleutherAI가 데이터셋과 모델 출시에 기여했으며, 토론토 대학교와 같은 파트너들이 연구를 공동으로 이끌며 중요한 역할을 했다고 언급했습니다.

관련 기사
하와이 해변에서의 일탈: 새로운 유대감과 놀라운 반전 하와이 해변에서의 일탈: 새로운 유대감과 놀라운 반전 하와이의 깨끗한 해변, 피부를 따스하게 데워주는 햇살, 잔잔한 리듬을 만들어내는 파도를 상상해 보세요. 조쉬는 수년간의 노력 끝에 이 비전을 현실로 만들었습니다. 고요한 휴양지에서 시작된 여행은 곧 새로운 우정과 예상치 못한 반전으로 스릴 넘치는 여정으로 변모합니다. 하와이의 아름다운 해변을 따라 펼쳐지는 유대감, 해변에서의 즐거움, 예상치 못한 변화에
오지 오스본의 '크레이지 트레인' 애니메이션 비디오: 그 예술과 영향에 대한 심층 분석 오지 오스본의 '크레이지 트레인' 애니메이션 비디오: 그 예술과 영향에 대한 심층 분석 오지 오스본의 '크레이지 트레인'은 헤비메탈 클래식의 지위를 넘어 문화적 이정표를 구현한 곡입니다. 이 애니메이션 뮤직 비디오는 노래의 생생한 에너지와 주제적 깊이를 증폭시키는 인상적인 시각적 여정을 선사합니다. 이 글에서는 이 뮤직비디오의 예술적 선택, 핵심 메시지, 지속적인 영향력에 대해 살펴봅니다.주요 하이라이트'미친 기차' 뮤직비디오는 대담한
XXXTentacion AI 커버: Marvin's Room 재창작 분석 XXXTentacion AI 커버: Marvin's Room 재창작 분석 AI 생성 음악의 영역은 빠르게 발전하며 매혹적이면서도 복잡한 가능성을 제공합니다. 대표적인 예는 드레이크의 유명한 트랙 'Marvin's Room'을 고 XXXTentacion의 스타일로 재해석한 AI 제작 커버입니다. 이 디지털 창작물은 다양한 감정을 불러일으키며 음악, 창의성, 그리고 유산 보존에서 AI의 역할에 대한 중요한 논의를 촉발합니다. 이 X
의견 (0)
0/200
위로 돌아갑니다
OR