Дом
EleutherAI представляет массивный лицензированный текстовый набор данных для обучения ИИ

EleutherAI, ведущая группа исследований ИИ, запустила одну из крупнейших коллекций лицензированных и общедоступных текстов для обучения моделей ИИ.
Названный Common Pile v0.1, этот набор данных объемом 8 терабайт разрабатывался в течение двух лет совместно с ИИ-стартапами Poolside, Hugging Face и различными академическими институтами. Он использовался для обучения двух новых моделей EleutherAI, Comma v0.1-1T и Comma v0.1-2T, которые, по утверждению организации, соответствуют производительности моделей, обученных на нелицензированных, защищенных авторским правом данных.
Компании ИИ, включая OpenAI, сталкиваются с юридическими проблемами из-за использования данных, собранных с веб-сайтов, включая защищенные авторским правом книги и журналы, для обучения моделей. Хотя некоторые имеют лицензионные соглашения с поставщиками контента, многие полагаются на доктрину добросовестного использования в США, чтобы оправдать обучение на защищенных авторским правом материалах без разрешения.
EleutherAI утверждает, что эти судебные иски значительно снизили прозрачность в индустрии ИИ, ограничивая понимание функциональности и слабых мест моделей, что наносит ущерб более широкому исследовательскому сообществу.
“Юридические проблемы не существенно изменили практики получения данных для обучения моделей, но они резко снизили открытость компаний ИИ,” — сказала Стелла Бидерман, исполнительный директор EleutherAI, в посте на блоге Hugging Face в пятницу. “Исследователи в некоторых компаниях, с которыми мы беседовали, ссылаются на судебные иски как на причину, по которой они не могут делиться своими исследованиями, связанными с данными.”
Common Pile v0.1, доступный на платформе ИИ Hugging Face и GitHub, был разработан с юридической консультацией и включает источники, такие как 300 000 книг общественного достояния, оцифрованных Библиотекой Конгресса и Интернет-архивом. EleutherAI также использовала модель Whisper от OpenAI для транскрипции аудиоконтента.
EleutherAI утверждает, что Comma v0.1-1T и Comma v0.1-2T демонстрируют качество Common Pile v0.1, позволяя разработчикам создавать модели, конкурентоспособные с проприетарными системами. Обе модели, с 7 миллиардами параметров и обученные на части набора данных, соперничают с оригинальной моделью Llama от Meta в тестах по программированию, пониманию изображений и математике.
Сэкономьте более 200 долларов на вашем TechCrunch All Stage Pass
Инновируйте умнее. Растите быстрее. Стройте связи глубже. Общайтесь с визионерами из Precursor Ventures, NEA, Index Ventures, Underscore VC и других для дня полных идей, мастер-классов и ценных связей.
Сэкономьте более 200 долларов на вашем TechCrunch All Stage Pass
Инновируйте умнее. Растите быстрее. Стройте связи глубже. Общайтесь с визионерами из Precursor Ventures, NEA, Index Ventures, Underscore VC и других для дня полных идей, мастер-классов и ценных связей.
Бостон, Массачусетс | 15 июля ЗАРЕГИСТРИРУЙТЕСЬ СЕЙЧАСПараметры, часто называемые весами, являются внутренними элементами модели ИИ, которые формируют ее поведение и ответы.
“Мнение, что нелицензированный текст необходим для высокой производительности, необоснованно,” — заявила Бидерман в своем посте. “По мере того как лицензированные и общедоступные данные становятся более доступными, мы ожидаем значительных улучшений в моделях, обученных на таком контенте.”
Common Pile v0.1 частично решает прошлые противоречия EleutherAI. Несколько лет назад группа выпустила The Pile, открытый набор данных, содержащий защищенные авторским правом материалы, что вызвало критику и юридическое внимание за использование в обучении ИИ.
EleutherAI обязуется регулярно выпускать открытые наборы данных, сотрудничая с исследовательскими и инфраструктурными партнерами.
Обновлено в 9:48 утра по тихоокеанскому времени: Бидерман отметила на X, что EleutherAI внесла вклад в выпуск набора данных и моделей, при значительном участии партнеров, таких как Университет Торонто, который совместно руководил исследованием.
Связанная статья
Компания Baidu Health в ближайшее время проведет внутреннее тестирование AI-помощника врача DoctorClaw для поиска научной информации и оказания помощи в офисной работе
По имеющимся данным, компания Baidu Health приступила к внутреннему тестированию профессионального интеллектуального помощника на базе искусственного интеллекта, предназначенного для врачей. Этот прод
Cursor Composer 2 против Claude Opus 4.6: тест производительности разжигает новую дискуссию о программировании с помощью ИИ
19 марта компания Cursor официально представила свою собственную модель кодирования — Composer 2. Это объявление сразу же вызвало бурную дискуссию в сообществе разработчиков — по данным Cursor, Compos
На конференции StrictlyVC в Сан-Франциско соберутся руководители компаний TDK Ventures, Replit и других
Первое в этом году мероприятие StrictlyVC состоится в Сан-Франциско раньше, чем вы думаете. Еще есть билеты на нашу встречу 30 апреля в Sentro Filipino Cultural Center, где выступит впечатляющий соста
Рекомендации по связанным специальным темам
Комментарии (2)
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

EleutherAI, ведущая группа исследований ИИ, запустила одну из крупнейших коллекций лицензированных и общедоступных текстов для обучения моделей ИИ.
Названный Common Pile v0.1, этот набор данных объемом 8 терабайт разрабатывался в течение двух лет совместно с ИИ-стартапами Poolside, Hugging Face и различными академическими институтами. Он использовался для обучения двух новых моделей EleutherAI, Comma v0.1-1T и Comma v0.1-2T, которые, по утверждению организации, соответствуют производительности моделей, обученных на нелицензированных, защищенных авторским правом данных.
Компании ИИ, включая OpenAI, сталкиваются с юридическими проблемами из-за использования данных, собранных с веб-сайтов, включая защищенные авторским правом книги и журналы, для обучения моделей. Хотя некоторые имеют лицензионные соглашения с поставщиками контента, многие полагаются на доктрину добросовестного использования в США, чтобы оправдать обучение на защищенных авторским правом материалах без разрешения.
EleutherAI утверждает, что эти судебные иски значительно снизили прозрачность в индустрии ИИ, ограничивая понимание функциональности и слабых мест моделей, что наносит ущерб более широкому исследовательскому сообществу.
“Юридические проблемы не существенно изменили практики получения данных для обучения моделей, но они резко снизили открытость компаний ИИ,” — сказала Стелла Бидерман, исполнительный директор EleutherAI, в посте на блоге Hugging Face в пятницу. “Исследователи в некоторых компаниях, с которыми мы беседовали, ссылаются на судебные иски как на причину, по которой они не могут делиться своими исследованиями, связанными с данными.”
Common Pile v0.1, доступный на платформе ИИ Hugging Face и GitHub, был разработан с юридической консультацией и включает источники, такие как 300 000 книг общественного достояния, оцифрованных Библиотекой Конгресса и Интернет-архивом. EleutherAI также использовала модель Whisper от OpenAI для транскрипции аудиоконтента.
EleutherAI утверждает, что Comma v0.1-1T и Comma v0.1-2T демонстрируют качество Common Pile v0.1, позволяя разработчикам создавать модели, конкурентоспособные с проприетарными системами. Обе модели, с 7 миллиардами параметров и обученные на части набора данных, соперничают с оригинальной моделью Llama от Meta в тестах по программированию, пониманию изображений и математике.
Сэкономьте более 200 долларов на вашем TechCrunch All Stage Pass
Инновируйте умнее. Растите быстрее. Стройте связи глубже. Общайтесь с визионерами из Precursor Ventures, NEA, Index Ventures, Underscore VC и других для дня полных идей, мастер-классов и ценных связей.
Сэкономьте более 200 долларов на вашем TechCrunch All Stage Pass
Инновируйте умнее. Растите быстрее. Стройте связи глубже. Общайтесь с визионерами из Precursor Ventures, NEA, Index Ventures, Underscore VC и других для дня полных идей, мастер-классов и ценных связей.
Бостон, Массачусетс | 15 июля ЗАРЕГИСТРИРУЙТЕСЬ СЕЙЧАСПараметры, часто называемые весами, являются внутренними элементами модели ИИ, которые формируют ее поведение и ответы.
“Мнение, что нелицензированный текст необходим для высокой производительности, необоснованно,” — заявила Бидерман в своем посте. “По мере того как лицензированные и общедоступные данные становятся более доступными, мы ожидаем значительных улучшений в моделях, обученных на таком контенте.”
Common Pile v0.1 частично решает прошлые противоречия EleutherAI. Несколько лет назад группа выпустила The Pile, открытый набор данных, содержащий защищенные авторским правом материалы, что вызвало критику и юридическое внимание за использование в обучении ИИ.
EleutherAI обязуется регулярно выпускать открытые наборы данных, сотрудничая с исследовательскими и инфраструктурными партнерами.
Обновлено в 9:48 утра по тихоокеанскому времени: Бидерман отметила на X, что EleutherAI внесла вклад в выпуск набора данных и моделей, при значительном участии партнеров, таких как Университет Торонто, который совместно руководил исследованием.
Компания Baidu Health в ближайшее время проведет внутреннее тестирование AI-помощника врача DoctorClaw для поиска научной информации и оказания помощи в офисной работе
По имеющимся данным, компания Baidu Health приступила к внутреннему тестированию профессионального интеллектуального помощника на базе искусственного интеллекта, предназначенного для врачей. Этот прод
Cursor Composer 2 против Claude Opus 4.6: тест производительности разжигает новую дискуссию о программировании с помощью ИИ
19 марта компания Cursor официально представила свою собственную модель кодирования — Composer 2. Это объявление сразу же вызвало бурную дискуссию в сообществе разработчиков — по данным Cursor, Compos
На конференции StrictlyVC в Сан-Франциско соберутся руководители компаний TDK Ventures, Replit и других
Первое в этом году мероприятие StrictlyVC состоится в Сан-Франциско раньше, чем вы думаете. Еще есть билеты на нашу встречу 30 апреля в Sentro Filipino Cultural Center, где выступит впечатляющий соста
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀











