EleutherAI представляет массивный лицензированный текстовый набор данных для обучения ИИ

Дом

Новости

30 августа 2025 г.

WillSmith

EleutherAI представляет массивный лицензированный текстовый набор данных для обучения ИИ

EleutherAI, ведущая группа исследований ИИ, запустила одну из крупнейших коллекций лицензированных и общедоступных текстов для обучения моделей ИИ.

Названный Common Pile v0.1, этот набор данных объемом 8 терабайт разрабатывался в течение двух лет совместно с ИИ-стартапами Poolside, Hugging Face и различными академическими институтами. Он использовался для обучения двух новых моделей EleutherAI, Comma v0.1-1T и Comma v0.1-2T, которые, по утверждению организации, соответствуют производительности моделей, обученных на нелицензированных, защищенных авторским правом данных.

Компании ИИ, включая OpenAI, сталкиваются с юридическими проблемами из-за использования данных, собранных с веб-сайтов, включая защищенные авторским правом книги и журналы, для обучения моделей. Хотя некоторые имеют лицензионные соглашения с поставщиками контента, многие полагаются на доктрину добросовестного использования в США, чтобы оправдать обучение на защищенных авторским правом материалах без разрешения.

EleutherAI утверждает, что эти судебные иски значительно снизили прозрачность в индустрии ИИ, ограничивая понимание функциональности и слабых мест моделей, что наносит ущерб более широкому исследовательскому сообществу.

“Юридические проблемы не существенно изменили практики получения данных для обучения моделей, но они резко снизили открытость компаний ИИ,” — сказала Стелла Бидерман, исполнительный директор EleutherAI, в посте на блоге Hugging Face в пятницу. “Исследователи в некоторых компаниях, с которыми мы беседовали, ссылаются на судебные иски как на причину, по которой они не могут делиться своими исследованиями, связанными с данными.”

Common Pile v0.1, доступный на платформе ИИ Hugging Face и GitHub, был разработан с юридической консультацией и включает источники, такие как 300 000 книг общественного достояния, оцифрованных Библиотекой Конгресса и Интернет-архивом. EleutherAI также использовала модель Whisper от OpenAI для транскрипции аудиоконтента.

EleutherAI утверждает, что Comma v0.1-1T и Comma v0.1-2T демонстрируют качество Common Pile v0.1, позволяя разработчикам создавать модели, конкурентоспособные с проприетарными системами. Обе модели, с 7 миллиардами параметров и обученные на части набора данных, соперничают с оригинальной моделью Llama от Meta в тестах по программированию, пониманию изображений и математике.

Сэкономьте более 200 долларов на вашем TechCrunch All Stage Pass

Инновируйте умнее. Растите быстрее. Стройте связи глубже. Общайтесь с визионерами из Precursor Ventures, NEA, Index Ventures, Underscore VC и других для дня полных идей, мастер-классов и ценных связей.

Сэкономьте более 200 долларов на вашем TechCrunch All Stage Pass

Инновируйте умнее. Растите быстрее. Стройте связи глубже. Общайтесь с визионерами из Precursor Ventures, NEA, Index Ventures, Underscore VC и других для дня полных идей, мастер-классов и ценных связей.

Бостон, Массачусетс | 15 июля ЗАРЕГИСТРИРУЙТЕСЬ СЕЙЧАС

Параметры, часто называемые весами, являются внутренними элементами модели ИИ, которые формируют ее поведение и ответы.

“Мнение, что нелицензированный текст необходим для высокой производительности, необоснованно,” — заявила Бидерман в своем посте. “По мере того как лицензированные и общедоступные данные становятся более доступными, мы ожидаем значительных улучшений в моделях, обученных на таком контенте.”

Common Pile v0.1 частично решает прошлые противоречия EleutherAI. Несколько лет назад группа выпустила The Pile, открытый набор данных, содержащий защищенные авторским правом материалы, что вызвало критику и юридическое внимание за использование в обучении ИИ.

EleutherAI обязуется регулярно выпускать открытые наборы данных, сотрудничая с исследовательскими и инфраструктурными партнерами.

Обновлено в 9:48 утра по тихоокеанскому времени: Бидерман отметила на X, что EleutherAI внесла вклад в выпуск набора данных и моделей, при значительном участии партнеров, таких как Университет Торонто, который совместно руководил исследованием.

Связанная статья

Компания Baidu Health в ближайшее время проведет внутреннее тестирование AI-помощника врача DoctorClaw для поиска научной информации и оказания помощи в офисной работе По имеющимся данным, компания Baidu Health приступила к внутреннему тестированию профессионального интеллектуального помощника на базе искусственного интеллекта, предназначенного для врачей. Этот прод

Cursor Composer 2 против Claude Opus 4.6: тест производительности разжигает новую дискуссию о программировании с помощью ИИ 19 марта компания Cursor официально представила свою собственную модель кодирования — Composer 2. Это объявление сразу же вызвало бурную дискуссию в сообществе разработчиков — по данным Cursor, Compos

На конференции StrictlyVC в Сан-Франциско соберутся руководители компаний TDK Ventures, Replit и других Первое в этом году мероприятие StrictlyVC состоится в Сан-Франциско раньше, чем вы думаете. Еще есть билеты на нашу встречу 30 апреля в Sentro Filipino Cultural Center, где выступит впечатляющий соста

Рекомендации по связанным специальным темам

письмо

Лучшие инструменты для создания скриптов на основе искусственного интеллекта для радио и подкастинга: написание увлекательных аудиореклам

Откройте для себя лучшие инструменты для создания скриптов на основе искусственного интеллекта в 2026 году, предназначенные для радио- и подкастинга, на сайте XIX.AI. Наш тщательно отобранный список включает мощные решения, способные значительно ускорить процесс создания привлекательных аудиореклам. Сравните бесплатные и платные варианты на основе реальных тестов и еженедельно обновляемых рейтингов. Раскройте свой творческий потенциал уже сегодня!

10 инструментов

xix.ai

Бизнес

Лучшее программное обеспечение для проверки договоров с помощью ИИ: мгновенное выявление юридических лазеек и рисков несоблюдения нормативных требований

Откройте для себя лучшее программное обеспечение 2026 года для анализа договоров с помощью ИИ на сайте XIX.AI. В нашем тщательно отобранном списке лидеров представлены мощные инструменты, которые мгновенно выявляют юридические лазейки и риски несоответствия нормативным требованиям. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемых рейтингов. Найдите решение, которое кардинально изменит ваш подход к безопасному и эффективному анализу договоров. Ознакомьтесь с исчерпывающим руководством прямо сейчас.

10 инструментов

xix.ai

Создание анимации

Генератор аниме на основе искусственного интеллекта для Donghua: Создание персонажей для веб-романов и аватаров для комиксов

Откройте для себя лучшие генераторы аниме на основе искусственного интеллекта 2026 года для создания донхуа. Наш список, составленный специально для вас, включает мощные инструменты, позволяющие создавать потрясающих персонажей для веб-новелл и комиксов. Сравните бесплатные и платные варианты на основе реальных тестов. Найдите идеального помощника в творчестве и превратите свои истории в жизнь сегодня на сайте XIX.AI.

10 инструментов

xix.ai

Создание комиксов

Лучшие инструменты для автоматической раскраски манги с помощью ИИ: нанесение плоских цветов без ошибок в цветовом решении

Откройте для себя лучшие инструменты для автоматической раскраски манги с помощью ИИ в 2026 году на сайте XIX.AI. В нашем тщательно составленном списке представлены самые популярные и революционные решения, которые наносят плоские цвета без единой ошибки в цветовом соответствии, что значительно повышает вашу продуктивность. Изучите сравнения бесплатных и платных версий, результаты реальных тестов и еженедельно обновляемые рейтинги, чтобы найти идеальный вариант для себя. Воспользуйтесь преимуществами ИИ уже сегодня.

10 инструментов

xix.ai

письмо

Лучшие программы для создания персонажей в жанре научной фантастики: генерация последовательных мотиваций персонажей и их роковых недостатков

Откройте для себя 20 лучших инструментов 2026 года для создания персонажей с помощью искусственного интеллекта, которые помогут вам придать своим героям глубину. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, способные генерировать правдоподобные мотивации и роковые недостатки персонажей. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой потенциал в области создания историй уже сейчас.

10 инструментов

xix.ai

Бизнес

Лучшее ПО для оптимизации цен с помощью ИИ: отслеживание конкурентов и автоматическая корректировка цен в магазине

Откройте для себя лучшее программное обеспечение 2026 года для оптимизации цен с помощью ИИ на сайте XIX.AI. В нашем тщательно подобранном списке представлены высокооцененные, революционные инструменты, которые отслеживают конкурентов и автоматически корректируют цены в вашем магазине для получения максимальной прибыли. Сравните бесплатные и платные варианты на основе реальных тестов. Получите преимущество в ценообразовании уже сейчас.

10 инструментов

xix.ai

Комментарии (2)

0/500

Пожалуйста, войдите в систему

NicholasLewis

10 марта 2026 г., 13:01:03 GMT+03:00

Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?

RyanLopez

2 февраля 2026 г., 11:00:51 GMT+03:00

Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

Лучшие новости

AI Builder и Power Automate Революционизируют Суммирование Документов AI Hosts of Notebooklm подкаста теперь доступны для интервью Китай представляет национальный гуманоидный робот и стандарты воплощенного интеллекта По данным Ramp, корпоративное внедрение ИИ находится на плаву Руководство по создателю изображений Bing: Гайд по генерации искусством ИИ Научитесь создавать музыку ИИ, используя свой голос: пошаговый учебник SUNO iMyFone MagicMic: Обзор и руководство по реальном времени AI изменению голоса Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами DeepSeek V4 становится мультимодальным искусственным интеллектом, меняющим правила игры Компания Embodied Intelligence представляет первый отраслевой стандарт, призванный сдержать неконтролируемый рост

Более

Показан