Hogar
El meta personal discutido utilizando contenido con derechos de autor para la capacitación de IA, revelan las presentaciones judiciales

Durante años, los empleados de Meta han estado discutiendo el uso de materiales protegidos por derechos de autor, obtenidos a través de medios potencialmente dudosos, para entrenar los modelos de IA de la compañía, según documentos judiciales que fueron desclasificados el jueves.
Estos documentos forman parte de la demanda en curso Kadrey v. Meta, una de varias disputas sobre derechos de autor de IA que están avanzando en el sistema judicial de EE. UU. Meta argumenta que el uso de obras protegidas por propiedad intelectual, especialmente libros, para entrenar sus modelos cae bajo el concepto de "uso justo". Sin embargo, los demandantes, incluidos los autores Sarah Silverman y Ta-Nehisi Coates, están en fuerte desacuerdo.
Documentos previos en el caso sugerían que el CEO de Meta, Mark Zuckerberg, había aprobado el uso de contenido protegido por derechos de autor para el entrenamiento y que Meta había dejado de negociar acuerdos de licencia con editoriales de libros. Los documentos recientemente desclasificados, que incluyen chats de trabajo internos entre el personal de Meta, ofrecen la visión más detallada hasta ahora sobre cómo Meta podría haber utilizado datos protegidos por derechos de autor para entrenar sus modelos, incluidos los de la familia Llama.
En un chat, empleados de Meta, incluida Melanie Kambadur, gerente senior del equipo de investigación del modelo Llama de Meta, hablaron sobre entrenar modelos con obras que sabían que podrían ser legalmente riesgosas.
"Mi opinión es (en el espíritu de 'pide perdón, no permiso'): deberíamos tomar los libros y dejar que los ejecutivos decidan", escribió Xavier Martinet, ingeniero de investigación de Meta, en un chat de febrero de 2023, según los documentos. "Por eso crearon esta organización de IA generativa: para que podamos asumir más riesgos."
Martinet sugirió comprar libros electrónicos a precios minoristas para construir un conjunto de entrenamiento en lugar de negociar acuerdos de licencia con editoriales. Cuando otro miembro del personal señaló los posibles problemas legales con el uso de materiales protegidos por derechos de autor no autorizados, Martinet insistió, señalando que "un montón" de startups probablemente ya estaban usando libros pirateados para el entrenamiento.
"Quiero decir, en el peor de los casos: descubrimos que está bien, mientras que un montón de startups simplemente piratearon toneladas de libros en BitTorrent", escribió Martinet, según los documentos. "Mi opinión de nuevo: tratar directamente con editoriales lleva una eternidad..."
En el mismo chat, Kambadur, quien mencionó que Meta estaba negociando con Scribd y otras plataformas para obtener licencias, señaló que aunque usar "datos disponibles públicamente" para el entrenamiento aún requeriría aprobaciones, los abogados de Meta se estaban volviendo "menos conservadores" al otorgar dichas aprobaciones.
"Sí, todavía necesitamos obtener licencias o aprobaciones para datos disponibles públicamente", dijo Kambadur, según los documentos. "La diferencia ahora es que tenemos más dinero, más abogados, más ayuda en desarrollo de negocios, la capacidad de acelerar y escalar para mayor rapidez, y los abogados están siendo un poco menos cautelosos con las aprobaciones."
Conversaciones sobre Libgen
En otro chat de trabajo mencionado en los documentos, Kambadur discutió la posibilidad de usar Libgen, un "agregador de enlaces" que proporciona acceso a obras protegidas por derechos de autor de editoriales, como alternativa a fuentes de datos con licencia.
Libgen ha enfrentado numerosas demandas, ha sido ordenado cerrar y ha sido multado con decenas de millones de dólares por infracción de derechos de autor. Uno de los colegas de Kambadur respondió con una captura de pantalla de un resultado de búsqueda de Google para Libgen que incluía el fragmento "No, Libgen no es legal".
Algunos tomadores de decisiones en Meta parecían creer que no usar Libgen para el entrenamiento de modelos podría afectar gravemente la competitividad de Meta en la carrera de la IA, según los documentos.
En un correo electrónico a la vicepresidenta de IA de Meta, Joelle Pineau, Sony Theakanath, director de gestión de productos en Meta, llamó a Libgen "esencial para alcanzar números SOTA en todas las categorías", refiriéndose a lograr el mejor rendimiento de modelos de IA de vanguardia (SOTA) y categorías de referencia.
Theakanath también esbozó "mitigaciones" en el correo para reducir la exposición legal de Meta, como eliminar datos de Libgen que estuvieran "claramente marcados como pirateados/robados" y no divulgar públicamente el uso de conjuntos de datos de Libgen para el entrenamiento. "No divulgaríamos el uso de conjuntos de datos de Libgen utilizados para entrenar", escribió Theakanath.
En la práctica, estas mitigaciones implicaban buscar en los archivos de Libgen palabras como "robado" o "pirateado", según los documentos.
En un chat de trabajo, Kambadur mencionó que el equipo de IA de Meta también ajustó los modelos para "evitar prompts riesgosos de propiedad intelectual", lo que significa que configuraron los modelos para negarse a responder preguntas como "reproduce las primeras tres páginas de 'Harry Potter y la piedra filosofal'" o "dime en qué libros electrónicos fuiste entrenado".
Los documentos también sugieren que Meta podría haber recopilado datos de Reddit para algún tipo de entrenamiento de modelos, posiblemente imitando el comportamiento de una aplicación de terceros llamada Pushshift. Cabe destacar que Reddit anunció en abril de 2023 que planeaba comenzar a cobrar a las empresas de IA por el acceso a datos para el entrenamiento de modelos.
En un chat de marzo de 2024, Chaya Nayak, directora de gestión de productos en la organización de IA generativa de Meta, dijo que el liderazgo de Meta estaba considerando "anular" decisiones pasadas sobre conjuntos de entrenamiento, incluida una decisión de no usar contenido de Quora o libros y artículos científicos con licencia, para asegurar que los modelos de la compañía tuvieran suficientes datos de entrenamiento.
Nayak insinuó que los conjuntos de datos de entrenamiento propios de Meta, como publicaciones de Facebook e Instagram, texto transcrito de videos en plataformas de Meta y ciertos mensajes de Meta for Business, no eran suficientes. "Necesitamos más datos", escribió.
Los demandantes en Kadrey v. Meta han enmendado su denuncia varias veces desde que presentaron el caso en el Tribunal de Distrito de EE. UU. para el Distrito Norte de California, División de San Francisco, en 2023. La última enmienda alega que Meta, entre otras afirmaciones, comparó ciertos libros pirateados con libros protegidos por derechos de autor disponibles para licencia para decidir si buscar un acuerdo de licencia con una editorial.
En una señal de cuán en serio Meta ve las apuestas legales, la compañía ha añadido dos litigantes de la Corte Suprema de la firma de abogados Paul Weiss a su equipo de defensa en el caso.
Meta no respondió de inmediato a una solicitud de comentarios.
Artículo relacionado
Meta AI ya responde a los mensajes de los compradores en Facebook Marketplace
Facebook Marketplace presenta nuevas funciones de Meta AI, entre las que se incluyen respuestas automáticas a las consultas de los compradores, según anunció la empresa el jueves. La plataforma tambié
Meta firma un acuerdo para adquirir millones de CPU de IA de Amazon
Amazon ha cerrado una importante alianza con Meta, apostando una vez más por sus propios chips de diseño propio. Meta ha acordado implementar millones de chips AWS Graviton para satisfacer sus crecien
El auge del gas natural de Meta podría impulsar la red eléctrica de Dakota del Sur
Los centros de datos han alcanzado tal magnitud que su consumo eléctrico equivale ahora al de estados enteros de EE. UU. Tomemos como ejemplo el centro de datos Hyperion AI de Meta: una vez terminado,
Recomendaciones de temas especiales relacionados
comentario (32)
0/500
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

Durante años, los empleados de Meta han estado discutiendo el uso de materiales protegidos por derechos de autor, obtenidos a través de medios potencialmente dudosos, para entrenar los modelos de IA de la compañía, según documentos judiciales que fueron desclasificados el jueves.
Estos documentos forman parte de la demanda en curso Kadrey v. Meta, una de varias disputas sobre derechos de autor de IA que están avanzando en el sistema judicial de EE. UU. Meta argumenta que el uso de obras protegidas por propiedad intelectual, especialmente libros, para entrenar sus modelos cae bajo el concepto de "uso justo". Sin embargo, los demandantes, incluidos los autores Sarah Silverman y Ta-Nehisi Coates, están en fuerte desacuerdo.
Documentos previos en el caso sugerían que el CEO de Meta, Mark Zuckerberg, había aprobado el uso de contenido protegido por derechos de autor para el entrenamiento y que Meta había dejado de negociar acuerdos de licencia con editoriales de libros. Los documentos recientemente desclasificados, que incluyen chats de trabajo internos entre el personal de Meta, ofrecen la visión más detallada hasta ahora sobre cómo Meta podría haber utilizado datos protegidos por derechos de autor para entrenar sus modelos, incluidos los de la familia Llama.
En un chat, empleados de Meta, incluida Melanie Kambadur, gerente senior del equipo de investigación del modelo Llama de Meta, hablaron sobre entrenar modelos con obras que sabían que podrían ser legalmente riesgosas.
"Mi opinión es (en el espíritu de 'pide perdón, no permiso'): deberíamos tomar los libros y dejar que los ejecutivos decidan", escribió Xavier Martinet, ingeniero de investigación de Meta, en un chat de febrero de 2023, según los documentos. "Por eso crearon esta organización de IA generativa: para que podamos asumir más riesgos."
Martinet sugirió comprar libros electrónicos a precios minoristas para construir un conjunto de entrenamiento en lugar de negociar acuerdos de licencia con editoriales. Cuando otro miembro del personal señaló los posibles problemas legales con el uso de materiales protegidos por derechos de autor no autorizados, Martinet insistió, señalando que "un montón" de startups probablemente ya estaban usando libros pirateados para el entrenamiento.
"Quiero decir, en el peor de los casos: descubrimos que está bien, mientras que un montón de startups simplemente piratearon toneladas de libros en BitTorrent", escribió Martinet, según los documentos. "Mi opinión de nuevo: tratar directamente con editoriales lleva una eternidad..."
En el mismo chat, Kambadur, quien mencionó que Meta estaba negociando con Scribd y otras plataformas para obtener licencias, señaló que aunque usar "datos disponibles públicamente" para el entrenamiento aún requeriría aprobaciones, los abogados de Meta se estaban volviendo "menos conservadores" al otorgar dichas aprobaciones.
"Sí, todavía necesitamos obtener licencias o aprobaciones para datos disponibles públicamente", dijo Kambadur, según los documentos. "La diferencia ahora es que tenemos más dinero, más abogados, más ayuda en desarrollo de negocios, la capacidad de acelerar y escalar para mayor rapidez, y los abogados están siendo un poco menos cautelosos con las aprobaciones."
Conversaciones sobre Libgen
En otro chat de trabajo mencionado en los documentos, Kambadur discutió la posibilidad de usar Libgen, un "agregador de enlaces" que proporciona acceso a obras protegidas por derechos de autor de editoriales, como alternativa a fuentes de datos con licencia.
Libgen ha enfrentado numerosas demandas, ha sido ordenado cerrar y ha sido multado con decenas de millones de dólares por infracción de derechos de autor. Uno de los colegas de Kambadur respondió con una captura de pantalla de un resultado de búsqueda de Google para Libgen que incluía el fragmento "No, Libgen no es legal".
Algunos tomadores de decisiones en Meta parecían creer que no usar Libgen para el entrenamiento de modelos podría afectar gravemente la competitividad de Meta en la carrera de la IA, según los documentos.
En un correo electrónico a la vicepresidenta de IA de Meta, Joelle Pineau, Sony Theakanath, director de gestión de productos en Meta, llamó a Libgen "esencial para alcanzar números SOTA en todas las categorías", refiriéndose a lograr el mejor rendimiento de modelos de IA de vanguardia (SOTA) y categorías de referencia.
Theakanath también esbozó "mitigaciones" en el correo para reducir la exposición legal de Meta, como eliminar datos de Libgen que estuvieran "claramente marcados como pirateados/robados" y no divulgar públicamente el uso de conjuntos de datos de Libgen para el entrenamiento. "No divulgaríamos el uso de conjuntos de datos de Libgen utilizados para entrenar", escribió Theakanath.
En la práctica, estas mitigaciones implicaban buscar en los archivos de Libgen palabras como "robado" o "pirateado", según los documentos.
En un chat de trabajo, Kambadur mencionó que el equipo de IA de Meta también ajustó los modelos para "evitar prompts riesgosos de propiedad intelectual", lo que significa que configuraron los modelos para negarse a responder preguntas como "reproduce las primeras tres páginas de 'Harry Potter y la piedra filosofal'" o "dime en qué libros electrónicos fuiste entrenado".
Los documentos también sugieren que Meta podría haber recopilado datos de Reddit para algún tipo de entrenamiento de modelos, posiblemente imitando el comportamiento de una aplicación de terceros llamada Pushshift. Cabe destacar que Reddit anunció en abril de 2023 que planeaba comenzar a cobrar a las empresas de IA por el acceso a datos para el entrenamiento de modelos.
En un chat de marzo de 2024, Chaya Nayak, directora de gestión de productos en la organización de IA generativa de Meta, dijo que el liderazgo de Meta estaba considerando "anular" decisiones pasadas sobre conjuntos de entrenamiento, incluida una decisión de no usar contenido de Quora o libros y artículos científicos con licencia, para asegurar que los modelos de la compañía tuvieran suficientes datos de entrenamiento.
Nayak insinuó que los conjuntos de datos de entrenamiento propios de Meta, como publicaciones de Facebook e Instagram, texto transcrito de videos en plataformas de Meta y ciertos mensajes de Meta for Business, no eran suficientes. "Necesitamos más datos", escribió.
Los demandantes en Kadrey v. Meta han enmendado su denuncia varias veces desde que presentaron el caso en el Tribunal de Distrito de EE. UU. para el Distrito Norte de California, División de San Francisco, en 2023. La última enmienda alega que Meta, entre otras afirmaciones, comparó ciertos libros pirateados con libros protegidos por derechos de autor disponibles para licencia para decidir si buscar un acuerdo de licencia con una editorial.
En una señal de cuán en serio Meta ve las apuestas legales, la compañía ha añadido dos litigantes de la Corte Suprema de la firma de abogados Paul Weiss a su equipo de defensa en el caso.
Meta no respondió de inmediato a una solicitud de comentarios.
Meta AI ya responde a los mensajes de los compradores en Facebook Marketplace
Facebook Marketplace presenta nuevas funciones de Meta AI, entre las que se incluyen respuestas automáticas a las consultas de los compradores, según anunció la empresa el jueves. La plataforma tambié
Meta firma un acuerdo para adquirir millones de CPU de IA de Amazon
Amazon ha cerrado una importante alianza con Meta, apostando una vez más por sus propios chips de diseño propio. Meta ha acordado implementar millones de chips AWS Graviton para satisfacer sus crecien
El auge del gas natural de Meta podría impulsar la red eléctrica de Dakota del Sur
Los centros de datos han alcanzado tal magnitud que su consumo eléctrico equivale ahora al de estados enteros de EE. UU. Tomemos como ejemplo el centro de datos Hyperion AI de Meta: una vez terminado,
Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.
¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.











