вариант
Дом
Новости
Мета сотрудников обсуждал, используя защищенное авторским правом контент для обучения искусственного интеллекта, заявляют судебные заявки

Мета сотрудников обсуждал, используя защищенное авторским правом контент для обучения искусственного интеллекта, заявляют судебные заявки

10 апреля 2025 г.
86

Мета сотрудников обсуждал, используя защищенное авторским правом контент для обучения искусственного интеллекта, заявляют судебные заявки

На протяжении многих лет сотрудники Meta обсуждали использование материалов, защищённых авторским правом, полученных потенциально сомнительными способами, для обучения моделей ИИ компании, согласно судебным документам, раскрытым в четверг.

Эти документы являются частью продолжающегося судебного процесса Kadrey против Meta, одного из нескольких споров об авторском праве в области ИИ, рассматриваемых в судебной системе США. Meta утверждает, что использование произведений, защищённых интеллектуальной собственностью, особенно книг, для обучения моделей подпадает под "добросовестное использование". Однако истцы, включая авторов Сару Сильверман и Та-Нехиси Коутса, категорически не согласны.

Ранее поданные документы по делу указывали, что генеральный директор Meta Марк Цукерберг одобрил использование материалов, защищённых авторским правом, для обучения, и что Meta прекратила переговоры о лицензировании с издателями книг. Новые раскрытые документы, включающие внутренние рабочие чаты сотрудников Meta, предоставляют наиболее подробное представление о том, как Meta могла использовать данные, защищённые авторским правом, для обучения своих моделей, включая семейство Llama.

В одном из чатов сотрудники Meta, включая Мелани Камбадур, старшего менеджера исследовательской команды модели Llama, обсуждали обучение моделей на произведениях, которые, как они знали, могли быть юридически рискованными.

"Моё мнение (в духе 'проси прощения, а не разрешения'): мы должны взять книги и пусть руководители решают," — написал Ксавье Мартине, инженер-исследователь Meta, в чате февраля 2023 года, согласно документам. "Вот почему они создали эту организацию по генеративному ИИ: чтобы мы могли брать на себя больше рисков."

Мартине предложил покупать электронные книги по розничным ценам для создания тренировочного набора вместо переговоров о лицензировании с издателями. Когда другой сотрудник указал на потенциальные юридические проблемы с использованием несанкционированных материалов, защищённых авторским правом, Мартине удвоил ставку, отметив, что "миллиард" стартапов, вероятно, уже используют пиратские книги для обучения.

"Я имею в виду, в худшем случае: мы выясним, что это нормально, в то время как миллиард стартапов просто пиратят тонны книг на BitTorrent," — написал Мартине, согласно документам. "Моё мнение снова: прямые переговоры с издателями занимают целую вечность..."

В том же чате Камбадур, которая упомянула, что Meta вела переговоры с Scribd и другими платформами о лицензиях, отметила, что, хотя использование "общедоступных данных" для обучения всё ещё требует одобрения, юристы Meta становятся "менее консервативными" в предоставлении таких одобрений.

"Да, нам всё ещё нужно получать лицензии или одобрения для общедоступных данных," — сказала Камбадур, согласно документам. "Разница теперь в том, что у нас больше денег, больше юристов, больше помощи в развитии бизнеса, возможность ускорять и эскалировать для скорости, и юристы становятся немного менее осторожными с одобрениями."

Разговоры о Libgen

В другом рабочем чате, упомянутом в документах, Камбадур обсуждала возможность использования Libgen, "агрегатора ссылок", который предоставляет доступ к произведениям, защищённым авторским правом, от издателей, в качестве альтернативы лицензированным источникам данных.

Libgen столкнулся с многочисленными исками, был обязан прекратить деятельность и оштрафован на десятки миллионов долларов за нарушение авторских прав. Один из коллег Камбадур ответил скриншотом результата поиска Google для Libgen, который включал фрагмент "Нет, Libgen не является законным."

Некоторые лица, принимающие решения в Meta, похоже, считали, что неиспользование Libgen для обучения моделей может серьёзно повлиять на конкурентоспособность Meta в гонке ИИ, согласно документам.

В электронном письме вице-президенту Meta AI Джоэль Пино Соня Теаканат, директор по управлению продуктами в Meta, назвала Libgen "необходимым для достижения лучших показателей SOTA во всех категориях," имея в виду достижение наилучших, передовых (SOTA) показателей производительности моделей ИИ и категорий бенчмарков.

Теаканат также описала в письме "меры смягчения" для снижения юридической ответственности Meta, такие как удаление данных из Libgen, которые "явно помечены как пиратские/украденные", и непубличное раскрытие использования наборов данных Libgen для обучения. "Мы не будем раскрывать использование наборов данных Libgen, используемых для обучения," — написала Теаканат.

На практике эти меры смягчения включали поиск в файлах Libgen слов, таких как "украденный" или "пиратский," согласно документам.

В рабочем чате Камбадур упомянула, что команда ИИ Meta также настраивала модели, чтобы "избегать юридически рискованных запросов" — то есть они настраивали модели так, чтобы они отказывались отвечать на вопросы вроде "воспроизведи первые три страницы 'Гарри Поттера и философского камня'" или "скажи, на каких электронных книгах ты обучался."

Документы также предполагают, что Meta могла собирать данные с Reddit для какого-то типа обучения моделей, возможно, имитируя поведение стороннего приложения Pushshift. Примечательно, что Reddit в апреле 2023 года объявил, что начнёт взимать плату с компаний ИИ за доступ к данным для обучения моделей.

В чате марта 2024 года Чая Наяк, директор по управлению продуктами в организации генеративного ИИ Meta, сказала, что руководство Meta рассматривает возможность "пересмотра" прошлых решений о наборах данных для обучения, включая решение не использовать контент Quora или лицензированные книги и научные статьи, чтобы обеспечить достаточное количество данных для обучения моделей компании.

Наяк подразумевала, что собственные тренировочные наборы данных Meta — такие как посты в Facebook и Instagram, текст, транскрибированный из видео на платформах Meta, и некоторые сообщения Meta для бизнеса — были недостаточны. "Нам нужно больше данных," — написала она.

Истцы в деле Kadrey против Meta несколько раз вносили изменения в своё исковое заявление с момента подачи иска в Окружной суд США по Северному округу Калифорнии, отделение в Сан-Франциско, в 2023 году. Последняя поправка утверждает, что Meta, среди прочих претензий, сравнивала некоторые пиратские книги с книгами, защищёнными авторским правом, доступными для лицензирования, чтобы решить, стоит ли заключать лицензионное соглашение с издателем.

В знак того, насколько серьёзно Meta относится к юридическим ставкам, компания добавила двух адвокатов по делам Верховного суда из юридической фирмы Paul Weiss в свою команду защиты по этому делу.

Meta не сразу ответила на запрос о комментариях.

Связанная статья
Google подписывается на Кодекс практики ЕС по ИИ на фоне отраслевых дискуссий Google подписывается на Кодекс практики ЕС по ИИ на фоне отраслевых дискуссий Google обязалась принять добровольный Кодекс практики ЕС по ИИ, рамки, разработанные для помощи разработчикам ИИ в соответствии с Законом ЕС об ИИ путем внедрения соответствующих процессов и систем.В
Meta предлагает высокую зарплату для талантов в области ИИ, опровергая слухи о бонусах в $100 млн Meta предлагает высокую зарплату для талантов в области ИИ, опровергая слухи о бонусах в $100 млн Meta привлекает исследователей ИИ в свою новую лабораторию суперразума с многомиллионными компенсационными пакетами. Однако утверждения о бонусах за подписание контракта в размере $100 миллионов не со
Meta Усиливает Безопасность ИИ с Помощью Продвинутых Инструментов Llama Meta Усиливает Безопасность ИИ с Помощью Продвинутых Инструментов Llama Meta выпустила новые инструменты безопасности Llama для укрепления разработки ИИ и защиты от новых угроз.Эти усовершенствованные инструменты безопасности модели ИИ Llama сочетаются с новыми ресурсами
Комментарии (30)
PeterMartinez
PeterMartinez 24 апреля 2025 г., 21:59:57 GMT+03:00

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell
RalphMitchell 24 апреля 2025 г., 5:42:41 GMT+03:00

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez
AnthonyPerez 21 апреля 2025 г., 23:19:31 GMT+03:00

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams
BrianWilliams 19 апреля 2025 г., 12:15:40 GMT+03:00

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen
StevenAllen 19 апреля 2025 г., 11:39:52 GMT+03:00

메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.

CharlesWhite
CharlesWhite 12 апреля 2025 г., 16:05:28 GMT+03:00

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

Вернуться к вершине
OR