Дом
Мета сотрудников обсуждал, используя защищенное авторским правом контент для обучения искусственного интеллекта, заявляют судебные заявки

На протяжении многих лет сотрудники Meta обсуждали использование материалов, защищённых авторским правом, полученных потенциально сомнительными способами, для обучения моделей ИИ компании, согласно судебным документам, раскрытым в четверг.
Эти документы являются частью продолжающегося судебного процесса Kadrey против Meta, одного из нескольких споров об авторском праве в области ИИ, рассматриваемых в судебной системе США. Meta утверждает, что использование произведений, защищённых интеллектуальной собственностью, особенно книг, для обучения моделей подпадает под "добросовестное использование". Однако истцы, включая авторов Сару Сильверман и Та-Нехиси Коутса, категорически не согласны.
Ранее поданные документы по делу указывали, что генеральный директор Meta Марк Цукерберг одобрил использование материалов, защищённых авторским правом, для обучения, и что Meta прекратила переговоры о лицензировании с издателями книг. Новые раскрытые документы, включающие внутренние рабочие чаты сотрудников Meta, предоставляют наиболее подробное представление о том, как Meta могла использовать данные, защищённые авторским правом, для обучения своих моделей, включая семейство Llama.
В одном из чатов сотрудники Meta, включая Мелани Камбадур, старшего менеджера исследовательской команды модели Llama, обсуждали обучение моделей на произведениях, которые, как они знали, могли быть юридически рискованными.
"Моё мнение (в духе 'проси прощения, а не разрешения'): мы должны взять книги и пусть руководители решают," — написал Ксавье Мартине, инженер-исследователь Meta, в чате февраля 2023 года, согласно документам. "Вот почему они создали эту организацию по генеративному ИИ: чтобы мы могли брать на себя больше рисков."
Мартине предложил покупать электронные книги по розничным ценам для создания тренировочного набора вместо переговоров о лицензировании с издателями. Когда другой сотрудник указал на потенциальные юридические проблемы с использованием несанкционированных материалов, защищённых авторским правом, Мартине удвоил ставку, отметив, что "миллиард" стартапов, вероятно, уже используют пиратские книги для обучения.
"Я имею в виду, в худшем случае: мы выясним, что это нормально, в то время как миллиард стартапов просто пиратят тонны книг на BitTorrent," — написал Мартине, согласно документам. "Моё мнение снова: прямые переговоры с издателями занимают целую вечность..."
В том же чате Камбадур, которая упомянула, что Meta вела переговоры с Scribd и другими платформами о лицензиях, отметила, что, хотя использование "общедоступных данных" для обучения всё ещё требует одобрения, юристы Meta становятся "менее консервативными" в предоставлении таких одобрений.
"Да, нам всё ещё нужно получать лицензии или одобрения для общедоступных данных," — сказала Камбадур, согласно документам. "Разница теперь в том, что у нас больше денег, больше юристов, больше помощи в развитии бизнеса, возможность ускорять и эскалировать для скорости, и юристы становятся немного менее осторожными с одобрениями."
Разговоры о Libgen
В другом рабочем чате, упомянутом в документах, Камбадур обсуждала возможность использования Libgen, "агрегатора ссылок", который предоставляет доступ к произведениям, защищённым авторским правом, от издателей, в качестве альтернативы лицензированным источникам данных.
Libgen столкнулся с многочисленными исками, был обязан прекратить деятельность и оштрафован на десятки миллионов долларов за нарушение авторских прав. Один из коллег Камбадур ответил скриншотом результата поиска Google для Libgen, который включал фрагмент "Нет, Libgen не является законным."
Некоторые лица, принимающие решения в Meta, похоже, считали, что неиспользование Libgen для обучения моделей может серьёзно повлиять на конкурентоспособность Meta в гонке ИИ, согласно документам.
В электронном письме вице-президенту Meta AI Джоэль Пино Соня Теаканат, директор по управлению продуктами в Meta, назвала Libgen "необходимым для достижения лучших показателей SOTA во всех категориях," имея в виду достижение наилучших, передовых (SOTA) показателей производительности моделей ИИ и категорий бенчмарков.
Теаканат также описала в письме "меры смягчения" для снижения юридической ответственности Meta, такие как удаление данных из Libgen, которые "явно помечены как пиратские/украденные", и непубличное раскрытие использования наборов данных Libgen для обучения. "Мы не будем раскрывать использование наборов данных Libgen, используемых для обучения," — написала Теаканат.
На практике эти меры смягчения включали поиск в файлах Libgen слов, таких как "украденный" или "пиратский," согласно документам.
В рабочем чате Камбадур упомянула, что команда ИИ Meta также настраивала модели, чтобы "избегать юридически рискованных запросов" — то есть они настраивали модели так, чтобы они отказывались отвечать на вопросы вроде "воспроизведи первые три страницы 'Гарри Поттера и философского камня'" или "скажи, на каких электронных книгах ты обучался."
Документы также предполагают, что Meta могла собирать данные с Reddit для какого-то типа обучения моделей, возможно, имитируя поведение стороннего приложения Pushshift. Примечательно, что Reddit в апреле 2023 года объявил, что начнёт взимать плату с компаний ИИ за доступ к данным для обучения моделей.
В чате марта 2024 года Чая Наяк, директор по управлению продуктами в организации генеративного ИИ Meta, сказала, что руководство Meta рассматривает возможность "пересмотра" прошлых решений о наборах данных для обучения, включая решение не использовать контент Quora или лицензированные книги и научные статьи, чтобы обеспечить достаточное количество данных для обучения моделей компании.
Наяк подразумевала, что собственные тренировочные наборы данных Meta — такие как посты в Facebook и Instagram, текст, транскрибированный из видео на платформах Meta, и некоторые сообщения Meta для бизнеса — были недостаточны. "Нам нужно больше данных," — написала она.
Истцы в деле Kadrey против Meta несколько раз вносили изменения в своё исковое заявление с момента подачи иска в Окружной суд США по Северному округу Калифорнии, отделение в Сан-Франциско, в 2023 году. Последняя поправка утверждает, что Meta, среди прочих претензий, сравнивала некоторые пиратские книги с книгами, защищёнными авторским правом, доступными для лицензирования, чтобы решить, стоит ли заключать лицензионное соглашение с издателем.
В знак того, насколько серьёзно Meta относится к юридическим ставкам, компания добавила двух адвокатов по делам Верховного суда из юридической фирмы Paul Weiss в свою команду защиты по этому делу.
Meta не сразу ответила на запрос о комментариях.
Связанная статья
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace
Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
Meta заключила контракт на поставку миллионов процессоров Amazon для искусственного интеллекта
Компания Amazon заключила важное партнерское соглашение с Meta, вновь сделав ставку на свои собственные чипы, разработанные по индивидуальному заказу. Как подтвердила Amazon в пятницу, Meta согласилас
Рост объемов добычи природного газа компанией Meta может обеспечить энергией энергосистему Южной Дакоты
Центры обработки данных стали настолько масштабными, что их потребление электроэнергии теперь сопоставимо с потреблением целых штатов США. Возьмем, к примеру, центр обработки данных Hyperion AI компан
Рекомендации по связанным специальным темам
Комментарии (32)
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

На протяжении многих лет сотрудники Meta обсуждали использование материалов, защищённых авторским правом, полученных потенциально сомнительными способами, для обучения моделей ИИ компании, согласно судебным документам, раскрытым в четверг.
Эти документы являются частью продолжающегося судебного процесса Kadrey против Meta, одного из нескольких споров об авторском праве в области ИИ, рассматриваемых в судебной системе США. Meta утверждает, что использование произведений, защищённых интеллектуальной собственностью, особенно книг, для обучения моделей подпадает под "добросовестное использование". Однако истцы, включая авторов Сару Сильверман и Та-Нехиси Коутса, категорически не согласны.
Ранее поданные документы по делу указывали, что генеральный директор Meta Марк Цукерберг одобрил использование материалов, защищённых авторским правом, для обучения, и что Meta прекратила переговоры о лицензировании с издателями книг. Новые раскрытые документы, включающие внутренние рабочие чаты сотрудников Meta, предоставляют наиболее подробное представление о том, как Meta могла использовать данные, защищённые авторским правом, для обучения своих моделей, включая семейство Llama.
В одном из чатов сотрудники Meta, включая Мелани Камбадур, старшего менеджера исследовательской команды модели Llama, обсуждали обучение моделей на произведениях, которые, как они знали, могли быть юридически рискованными.
"Моё мнение (в духе 'проси прощения, а не разрешения'): мы должны взять книги и пусть руководители решают," — написал Ксавье Мартине, инженер-исследователь Meta, в чате февраля 2023 года, согласно документам. "Вот почему они создали эту организацию по генеративному ИИ: чтобы мы могли брать на себя больше рисков."
Мартине предложил покупать электронные книги по розничным ценам для создания тренировочного набора вместо переговоров о лицензировании с издателями. Когда другой сотрудник указал на потенциальные юридические проблемы с использованием несанкционированных материалов, защищённых авторским правом, Мартине удвоил ставку, отметив, что "миллиард" стартапов, вероятно, уже используют пиратские книги для обучения.
"Я имею в виду, в худшем случае: мы выясним, что это нормально, в то время как миллиард стартапов просто пиратят тонны книг на BitTorrent," — написал Мартине, согласно документам. "Моё мнение снова: прямые переговоры с издателями занимают целую вечность..."
В том же чате Камбадур, которая упомянула, что Meta вела переговоры с Scribd и другими платформами о лицензиях, отметила, что, хотя использование "общедоступных данных" для обучения всё ещё требует одобрения, юристы Meta становятся "менее консервативными" в предоставлении таких одобрений.
"Да, нам всё ещё нужно получать лицензии или одобрения для общедоступных данных," — сказала Камбадур, согласно документам. "Разница теперь в том, что у нас больше денег, больше юристов, больше помощи в развитии бизнеса, возможность ускорять и эскалировать для скорости, и юристы становятся немного менее осторожными с одобрениями."
Разговоры о Libgen
В другом рабочем чате, упомянутом в документах, Камбадур обсуждала возможность использования Libgen, "агрегатора ссылок", который предоставляет доступ к произведениям, защищённым авторским правом, от издателей, в качестве альтернативы лицензированным источникам данных.
Libgen столкнулся с многочисленными исками, был обязан прекратить деятельность и оштрафован на десятки миллионов долларов за нарушение авторских прав. Один из коллег Камбадур ответил скриншотом результата поиска Google для Libgen, который включал фрагмент "Нет, Libgen не является законным."
Некоторые лица, принимающие решения в Meta, похоже, считали, что неиспользование Libgen для обучения моделей может серьёзно повлиять на конкурентоспособность Meta в гонке ИИ, согласно документам.
В электронном письме вице-президенту Meta AI Джоэль Пино Соня Теаканат, директор по управлению продуктами в Meta, назвала Libgen "необходимым для достижения лучших показателей SOTA во всех категориях," имея в виду достижение наилучших, передовых (SOTA) показателей производительности моделей ИИ и категорий бенчмарков.
Теаканат также описала в письме "меры смягчения" для снижения юридической ответственности Meta, такие как удаление данных из Libgen, которые "явно помечены как пиратские/украденные", и непубличное раскрытие использования наборов данных Libgen для обучения. "Мы не будем раскрывать использование наборов данных Libgen, используемых для обучения," — написала Теаканат.
На практике эти меры смягчения включали поиск в файлах Libgen слов, таких как "украденный" или "пиратский," согласно документам.
В рабочем чате Камбадур упомянула, что команда ИИ Meta также настраивала модели, чтобы "избегать юридически рискованных запросов" — то есть они настраивали модели так, чтобы они отказывались отвечать на вопросы вроде "воспроизведи первые три страницы 'Гарри Поттера и философского камня'" или "скажи, на каких электронных книгах ты обучался."
Документы также предполагают, что Meta могла собирать данные с Reddit для какого-то типа обучения моделей, возможно, имитируя поведение стороннего приложения Pushshift. Примечательно, что Reddit в апреле 2023 года объявил, что начнёт взимать плату с компаний ИИ за доступ к данным для обучения моделей.
В чате марта 2024 года Чая Наяк, директор по управлению продуктами в организации генеративного ИИ Meta, сказала, что руководство Meta рассматривает возможность "пересмотра" прошлых решений о наборах данных для обучения, включая решение не использовать контент Quora или лицензированные книги и научные статьи, чтобы обеспечить достаточное количество данных для обучения моделей компании.
Наяк подразумевала, что собственные тренировочные наборы данных Meta — такие как посты в Facebook и Instagram, текст, транскрибированный из видео на платформах Meta, и некоторые сообщения Meta для бизнеса — были недостаточны. "Нам нужно больше данных," — написала она.
Истцы в деле Kadrey против Meta несколько раз вносили изменения в своё исковое заявление с момента подачи иска в Окружной суд США по Северному округу Калифорнии, отделение в Сан-Франциско, в 2023 году. Последняя поправка утверждает, что Meta, среди прочих претензий, сравнивала некоторые пиратские книги с книгами, защищёнными авторским правом, доступными для лицензирования, чтобы решить, стоит ли заключать лицензионное соглашение с издателем.
В знак того, насколько серьёзно Meta относится к юридическим ставкам, компания добавила двух адвокатов по делам Верховного суда из юридической фирмы Paul Weiss в свою команду защиты по этому делу.
Meta не сразу ответила на запрос о комментариях.
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace
Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
Meta заключила контракт на поставку миллионов процессоров Amazon для искусственного интеллекта
Компания Amazon заключила важное партнерское соглашение с Meta, вновь сделав ставку на свои собственные чипы, разработанные по индивидуальному заказу. Как подтвердила Amazon в пятницу, Meta согласилас
Рост объемов добычи природного газа компанией Meta может обеспечить энергией энергосистему Южной Дакоты
Центры обработки данных стали настолько масштабными, что их потребление электроэнергии теперь сопоставимо с потреблением целых штатов США. Возьмем, к примеру, центр обработки данных Hyperion AI компан
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.











