EleutherAI представляет массивный лицензированный текстовый набор данных для обучения ИИ

EleutherAI, ведущая группа исследований ИИ, запустила одну из крупнейших коллекций лицензированных и общедоступных текстов для обучения моделей ИИ.
Названный Common Pile v0.1, этот набор данных объемом 8 терабайт разрабатывался в течение двух лет совместно с ИИ-стартапами Poolside, Hugging Face и различными академическими институтами. Он использовался для обучения двух новых моделей EleutherAI, Comma v0.1-1T и Comma v0.1-2T, которые, по утверждению организации, соответствуют производительности моделей, обученных на нелицензированных, защищенных авторским правом данных.
Компании ИИ, включая OpenAI, сталкиваются с юридическими проблемами из-за использования данных, собранных с веб-сайтов, включая защищенные авторским правом книги и журналы, для обучения моделей. Хотя некоторые имеют лицензионные соглашения с поставщиками контента, многие полагаются на доктрину добросовестного использования в США, чтобы оправдать обучение на защищенных авторским правом материалах без разрешения.
EleutherAI утверждает, что эти судебные иски значительно снизили прозрачность в индустрии ИИ, ограничивая понимание функциональности и слабых мест моделей, что наносит ущерб более широкому исследовательскому сообществу.
“Юридические проблемы не существенно изменили практики получения данных для обучения моделей, но они резко снизили открытость компаний ИИ,” — сказала Стелла Бидерман, исполнительный директор EleutherAI, в посте на блоге Hugging Face в пятницу. “Исследователи в некоторых компаниях, с которыми мы беседовали, ссылаются на судебные иски как на причину, по которой они не могут делиться своими исследованиями, связанными с данными.”
Common Pile v0.1, доступный на платформе ИИ Hugging Face и GitHub, был разработан с юридической консультацией и включает источники, такие как 300 000 книг общественного достояния, оцифрованных Библиотекой Конгресса и Интернет-архивом. EleutherAI также использовала модель Whisper от OpenAI для транскрипции аудиоконтента.
EleutherAI утверждает, что Comma v0.1-1T и Comma v0.1-2T демонстрируют качество Common Pile v0.1, позволяя разработчикам создавать модели, конкурентоспособные с проприетарными системами. Обе модели, с 7 миллиардами параметров и обученные на части набора данных, соперничают с оригинальной моделью Llama от Meta в тестах по программированию, пониманию изображений и математике.
Сэкономьте более 200 долларов на вашем TechCrunch All Stage Pass
Инновируйте умнее. Растите быстрее. Стройте связи глубже. Общайтесь с визионерами из Precursor Ventures, NEA, Index Ventures, Underscore VC и других для дня полных идей, мастер-классов и ценных связей.
Сэкономьте более 200 долларов на вашем TechCrunch All Stage Pass
Инновируйте умнее. Растите быстрее. Стройте связи глубже. Общайтесь с визионерами из Precursor Ventures, NEA, Index Ventures, Underscore VC и других для дня полных идей, мастер-классов и ценных связей.
Бостон, Массачусетс | 15 июля ЗАРЕГИСТРИРУЙТЕСЬ СЕЙЧАСПараметры, часто называемые весами, являются внутренними элементами модели ИИ, которые формируют ее поведение и ответы.
“Мнение, что нелицензированный текст необходим для высокой производительности, необоснованно,” — заявила Бидерман в своем посте. “По мере того как лицензированные и общедоступные данные становятся более доступными, мы ожидаем значительных улучшений в моделях, обученных на таком контенте.”
Common Pile v0.1 частично решает прошлые противоречия EleutherAI. Несколько лет назад группа выпустила The Pile, открытый набор данных, содержащий защищенные авторским правом материалы, что вызвало критику и юридическое внимание за использование в обучении ИИ.
EleutherAI обязуется регулярно выпускать открытые наборы данных, сотрудничая с исследовательскими и инфраструктурными партнерами.
Обновлено в 9:48 утра по тихоокеанскому времени: Бидерман отметила на X, что EleutherAI внесла вклад в выпуск набора данных и моделей, при значительном участии партнеров, таких как Университет Торонто, который совместно руководил исследованием.
Связанная статья
Гавайские пляжные эскапады: Новые связи и неожиданные повороты
Представьте себя на чистейшем гавайском пляже, солнечные лучи согревают вашу кожу, а волны создают успокаивающий ритм. Для Джоша это видение стало реальностью после многих лет самоотверженной работы.
Анимационное видео Оззи Осборна "Crazy Train": Глубокое погружение в его искусство и влияние
Песня Оззи Осборна "Crazy Train" выходит за рамки статуса классики хэви-метала и становится вехой в истории культуры. Анимационный клип на эту песню представляет собой поразительное визуальное путеше
XXXTentacion AI Cover: Анализ воссоздания Marvin's Room
Сфера музыки, созданной искусственным интеллектом, стремительно развивается, предлагая увлекательные, но сложные возможности. Ярким примером является AI-версия известной песни Drake 'Marvin's Room', п
Комментарии (0)
EleutherAI, ведущая группа исследований ИИ, запустила одну из крупнейших коллекций лицензированных и общедоступных текстов для обучения моделей ИИ.
Названный Common Pile v0.1, этот набор данных объемом 8 терабайт разрабатывался в течение двух лет совместно с ИИ-стартапами Poolside, Hugging Face и различными академическими институтами. Он использовался для обучения двух новых моделей EleutherAI, Comma v0.1-1T и Comma v0.1-2T, которые, по утверждению организации, соответствуют производительности моделей, обученных на нелицензированных, защищенных авторским правом данных.
Компании ИИ, включая OpenAI, сталкиваются с юридическими проблемами из-за использования данных, собранных с веб-сайтов, включая защищенные авторским правом книги и журналы, для обучения моделей. Хотя некоторые имеют лицензионные соглашения с поставщиками контента, многие полагаются на доктрину добросовестного использования в США, чтобы оправдать обучение на защищенных авторским правом материалах без разрешения.
EleutherAI утверждает, что эти судебные иски значительно снизили прозрачность в индустрии ИИ, ограничивая понимание функциональности и слабых мест моделей, что наносит ущерб более широкому исследовательскому сообществу.
“Юридические проблемы не существенно изменили практики получения данных для обучения моделей, но они резко снизили открытость компаний ИИ,” — сказала Стелла Бидерман, исполнительный директор EleutherAI, в посте на блоге Hugging Face в пятницу. “Исследователи в некоторых компаниях, с которыми мы беседовали, ссылаются на судебные иски как на причину, по которой они не могут делиться своими исследованиями, связанными с данными.”
Common Pile v0.1, доступный на платформе ИИ Hugging Face и GitHub, был разработан с юридической консультацией и включает источники, такие как 300 000 книг общественного достояния, оцифрованных Библиотекой Конгресса и Интернет-архивом. EleutherAI также использовала модель Whisper от OpenAI для транскрипции аудиоконтента.
EleutherAI утверждает, что Comma v0.1-1T и Comma v0.1-2T демонстрируют качество Common Pile v0.1, позволяя разработчикам создавать модели, конкурентоспособные с проприетарными системами. Обе модели, с 7 миллиардами параметров и обученные на части набора данных, соперничают с оригинальной моделью Llama от Meta в тестах по программированию, пониманию изображений и математике.
Сэкономьте более 200 долларов на вашем TechCrunch All Stage Pass
Инновируйте умнее. Растите быстрее. Стройте связи глубже. Общайтесь с визионерами из Precursor Ventures, NEA, Index Ventures, Underscore VC и других для дня полных идей, мастер-классов и ценных связей.
Сэкономьте более 200 долларов на вашем TechCrunch All Stage Pass
Инновируйте умнее. Растите быстрее. Стройте связи глубже. Общайтесь с визионерами из Precursor Ventures, NEA, Index Ventures, Underscore VC и других для дня полных идей, мастер-классов и ценных связей.
Бостон, Массачусетс | 15 июля ЗАРЕГИСТРИРУЙТЕСЬ СЕЙЧАСПараметры, часто называемые весами, являются внутренними элементами модели ИИ, которые формируют ее поведение и ответы.
“Мнение, что нелицензированный текст необходим для высокой производительности, необоснованно,” — заявила Бидерман в своем посте. “По мере того как лицензированные и общедоступные данные становятся более доступными, мы ожидаем значительных улучшений в моделях, обученных на таком контенте.”
Common Pile v0.1 частично решает прошлые противоречия EleutherAI. Несколько лет назад группа выпустила The Pile, открытый набор данных, содержащий защищенные авторским правом материалы, что вызвало критику и юридическое внимание за использование в обучении ИИ.
EleutherAI обязуется регулярно выпускать открытые наборы данных, сотрудничая с исследовательскими и инфраструктурными партнерами.
Обновлено в 9:48 утра по тихоокеанскому времени: Бидерман отметила на X, что EleutherAI внесла вклад в выпуск набора данных и моделей, при значительном участии партнеров, таких как Университет Торонто, который совместно руководил исследованием.












