El meta personal discutido utilizando contenido con derechos de autor para la capacitación de IA, revelan las presentaciones judiciales

Durante años, los empleados de Meta han estado discutiendo el uso de materiales protegidos por derechos de autor, obtenidos a través de medios potencialmente dudosos, para entrenar los modelos de IA de la compañía, según documentos judiciales que fueron desclasificados el jueves.
Estos documentos forman parte de la demanda en curso Kadrey v. Meta, una de varias disputas sobre derechos de autor de IA que están avanzando en el sistema judicial de EE. UU. Meta argumenta que el uso de obras protegidas por propiedad intelectual, especialmente libros, para entrenar sus modelos cae bajo el concepto de "uso justo". Sin embargo, los demandantes, incluidos los autores Sarah Silverman y Ta-Nehisi Coates, están en fuerte desacuerdo.
Documentos previos en el caso sugerían que el CEO de Meta, Mark Zuckerberg, había aprobado el uso de contenido protegido por derechos de autor para el entrenamiento y que Meta había dejado de negociar acuerdos de licencia con editoriales de libros. Los documentos recientemente desclasificados, que incluyen chats de trabajo internos entre el personal de Meta, ofrecen la visión más detallada hasta ahora sobre cómo Meta podría haber utilizado datos protegidos por derechos de autor para entrenar sus modelos, incluidos los de la familia Llama.
En un chat, empleados de Meta, incluida Melanie Kambadur, gerente senior del equipo de investigación del modelo Llama de Meta, hablaron sobre entrenar modelos con obras que sabían que podrían ser legalmente riesgosas.
"Mi opinión es (en el espíritu de 'pide perdón, no permiso'): deberíamos tomar los libros y dejar que los ejecutivos decidan", escribió Xavier Martinet, ingeniero de investigación de Meta, en un chat de febrero de 2023, según los documentos. "Por eso crearon esta organización de IA generativa: para que podamos asumir más riesgos."
Martinet sugirió comprar libros electrónicos a precios minoristas para construir un conjunto de entrenamiento en lugar de negociar acuerdos de licencia con editoriales. Cuando otro miembro del personal señaló los posibles problemas legales con el uso de materiales protegidos por derechos de autor no autorizados, Martinet insistió, señalando que "un montón" de startups probablemente ya estaban usando libros pirateados para el entrenamiento.
"Quiero decir, en el peor de los casos: descubrimos que está bien, mientras que un montón de startups simplemente piratearon toneladas de libros en BitTorrent", escribió Martinet, según los documentos. "Mi opinión de nuevo: tratar directamente con editoriales lleva una eternidad..."
En el mismo chat, Kambadur, quien mencionó que Meta estaba negociando con Scribd y otras plataformas para obtener licencias, señaló que aunque usar "datos disponibles públicamente" para el entrenamiento aún requeriría aprobaciones, los abogados de Meta se estaban volviendo "menos conservadores" al otorgar dichas aprobaciones.
"Sí, todavía necesitamos obtener licencias o aprobaciones para datos disponibles públicamente", dijo Kambadur, según los documentos. "La diferencia ahora es que tenemos más dinero, más abogados, más ayuda en desarrollo de negocios, la capacidad de acelerar y escalar para mayor rapidez, y los abogados están siendo un poco menos cautelosos con las aprobaciones."
Conversaciones sobre Libgen
En otro chat de trabajo mencionado en los documentos, Kambadur discutió la posibilidad de usar Libgen, un "agregador de enlaces" que proporciona acceso a obras protegidas por derechos de autor de editoriales, como alternativa a fuentes de datos con licencia.
Libgen ha enfrentado numerosas demandas, ha sido ordenado cerrar y ha sido multado con decenas de millones de dólares por infracción de derechos de autor. Uno de los colegas de Kambadur respondió con una captura de pantalla de un resultado de búsqueda de Google para Libgen que incluía el fragmento "No, Libgen no es legal".
Algunos tomadores de decisiones en Meta parecían creer que no usar Libgen para el entrenamiento de modelos podría afectar gravemente la competitividad de Meta en la carrera de la IA, según los documentos.
En un correo electrónico a la vicepresidenta de IA de Meta, Joelle Pineau, Sony Theakanath, director de gestión de productos en Meta, llamó a Libgen "esencial para alcanzar números SOTA en todas las categorías", refiriéndose a lograr el mejor rendimiento de modelos de IA de vanguardia (SOTA) y categorías de referencia.
Theakanath también esbozó "mitigaciones" en el correo para reducir la exposición legal de Meta, como eliminar datos de Libgen que estuvieran "claramente marcados como pirateados/robados" y no divulgar públicamente el uso de conjuntos de datos de Libgen para el entrenamiento. "No divulgaríamos el uso de conjuntos de datos de Libgen utilizados para entrenar", escribió Theakanath.
En la práctica, estas mitigaciones implicaban buscar en los archivos de Libgen palabras como "robado" o "pirateado", según los documentos.
En un chat de trabajo, Kambadur mencionó que el equipo de IA de Meta también ajustó los modelos para "evitar prompts riesgosos de propiedad intelectual", lo que significa que configuraron los modelos para negarse a responder preguntas como "reproduce las primeras tres páginas de 'Harry Potter y la piedra filosofal'" o "dime en qué libros electrónicos fuiste entrenado".
Los documentos también sugieren que Meta podría haber recopilado datos de Reddit para algún tipo de entrenamiento de modelos, posiblemente imitando el comportamiento de una aplicación de terceros llamada Pushshift. Cabe destacar que Reddit anunció en abril de 2023 que planeaba comenzar a cobrar a las empresas de IA por el acceso a datos para el entrenamiento de modelos.
En un chat de marzo de 2024, Chaya Nayak, directora de gestión de productos en la organización de IA generativa de Meta, dijo que el liderazgo de Meta estaba considerando "anular" decisiones pasadas sobre conjuntos de entrenamiento, incluida una decisión de no usar contenido de Quora o libros y artículos científicos con licencia, para asegurar que los modelos de la compañía tuvieran suficientes datos de entrenamiento.
Nayak insinuó que los conjuntos de datos de entrenamiento propios de Meta, como publicaciones de Facebook e Instagram, texto transcrito de videos en plataformas de Meta y ciertos mensajes de Meta for Business, no eran suficientes. "Necesitamos más datos", escribió.
Los demandantes en Kadrey v. Meta han enmendado su denuncia varias veces desde que presentaron el caso en el Tribunal de Distrito de EE. UU. para el Distrito Norte de California, División de San Francisco, en 2023. La última enmienda alega que Meta, entre otras afirmaciones, comparó ciertos libros pirateados con libros protegidos por derechos de autor disponibles para licencia para decidir si buscar un acuerdo de licencia con una editorial.
En una señal de cuán en serio Meta ve las apuestas legales, la compañía ha añadido dos litigantes de la Corte Suprema de la firma de abogados Paul Weiss a su equipo de defensa en el caso.
Meta no respondió de inmediato a una solicitud de comentarios.
Artículo relacionado
Google se compromete con el Código de Práctica de IA de la UE en medio del debate de la industria
Google se ha comprometido a adoptar el código de práctica de IA voluntario de la Unión Europea, un marco diseñado para ayudar a los desarrolladores de IA a alinearse con la Ley de IA de la UE mediante
Meta Ofrece Altos Salarios para Talento en IA, Niega Bonos de Firma de $100M
Meta está atrayendo a investigadores de IA a su nuevo laboratorio de superinteligencia con paquetes de compensación multimillonarios sustanciales. Sin embargo, las afirmaciones de bonos de firma de $1
Meta Mejora la Seguridad de la IA con Herramientas Avanzadas de Llama
Meta ha lanzado nuevas herramientas de seguridad de Llama para fortalecer el desarrollo de la IA y proteger contra amenazas emergentes.Estas herramientas de seguridad mejoradas del modelo de IA Llama
comentario (30)
0/200
PeterMartinez
24 de abril de 2025 20:59:57 GMT+02:00
Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.
0
RalphMitchell
24 de abril de 2025 04:42:41 GMT+02:00
Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。
0
AnthonyPerez
21 de abril de 2025 22:19:31 GMT+02:00
¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.
0
BrianWilliams
19 de abril de 2025 11:15:40 GMT+02:00
I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.
0
StevenAllen
19 de abril de 2025 10:39:52 GMT+02:00
메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.
0
CharlesWhite
12 de abril de 2025 15:05:28 GMT+02:00
Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.
0
Durante años, los empleados de Meta han estado discutiendo el uso de materiales protegidos por derechos de autor, obtenidos a través de medios potencialmente dudosos, para entrenar los modelos de IA de la compañía, según documentos judiciales que fueron desclasificados el jueves.
Estos documentos forman parte de la demanda en curso Kadrey v. Meta, una de varias disputas sobre derechos de autor de IA que están avanzando en el sistema judicial de EE. UU. Meta argumenta que el uso de obras protegidas por propiedad intelectual, especialmente libros, para entrenar sus modelos cae bajo el concepto de "uso justo". Sin embargo, los demandantes, incluidos los autores Sarah Silverman y Ta-Nehisi Coates, están en fuerte desacuerdo.
Documentos previos en el caso sugerían que el CEO de Meta, Mark Zuckerberg, había aprobado el uso de contenido protegido por derechos de autor para el entrenamiento y que Meta había dejado de negociar acuerdos de licencia con editoriales de libros. Los documentos recientemente desclasificados, que incluyen chats de trabajo internos entre el personal de Meta, ofrecen la visión más detallada hasta ahora sobre cómo Meta podría haber utilizado datos protegidos por derechos de autor para entrenar sus modelos, incluidos los de la familia Llama.
En un chat, empleados de Meta, incluida Melanie Kambadur, gerente senior del equipo de investigación del modelo Llama de Meta, hablaron sobre entrenar modelos con obras que sabían que podrían ser legalmente riesgosas.
"Mi opinión es (en el espíritu de 'pide perdón, no permiso'): deberíamos tomar los libros y dejar que los ejecutivos decidan", escribió Xavier Martinet, ingeniero de investigación de Meta, en un chat de febrero de 2023, según los documentos. "Por eso crearon esta organización de IA generativa: para que podamos asumir más riesgos."
Martinet sugirió comprar libros electrónicos a precios minoristas para construir un conjunto de entrenamiento en lugar de negociar acuerdos de licencia con editoriales. Cuando otro miembro del personal señaló los posibles problemas legales con el uso de materiales protegidos por derechos de autor no autorizados, Martinet insistió, señalando que "un montón" de startups probablemente ya estaban usando libros pirateados para el entrenamiento.
"Quiero decir, en el peor de los casos: descubrimos que está bien, mientras que un montón de startups simplemente piratearon toneladas de libros en BitTorrent", escribió Martinet, según los documentos. "Mi opinión de nuevo: tratar directamente con editoriales lleva una eternidad..."
En el mismo chat, Kambadur, quien mencionó que Meta estaba negociando con Scribd y otras plataformas para obtener licencias, señaló que aunque usar "datos disponibles públicamente" para el entrenamiento aún requeriría aprobaciones, los abogados de Meta se estaban volviendo "menos conservadores" al otorgar dichas aprobaciones.
"Sí, todavía necesitamos obtener licencias o aprobaciones para datos disponibles públicamente", dijo Kambadur, según los documentos. "La diferencia ahora es que tenemos más dinero, más abogados, más ayuda en desarrollo de negocios, la capacidad de acelerar y escalar para mayor rapidez, y los abogados están siendo un poco menos cautelosos con las aprobaciones."
Conversaciones sobre Libgen
En otro chat de trabajo mencionado en los documentos, Kambadur discutió la posibilidad de usar Libgen, un "agregador de enlaces" que proporciona acceso a obras protegidas por derechos de autor de editoriales, como alternativa a fuentes de datos con licencia.
Libgen ha enfrentado numerosas demandas, ha sido ordenado cerrar y ha sido multado con decenas de millones de dólares por infracción de derechos de autor. Uno de los colegas de Kambadur respondió con una captura de pantalla de un resultado de búsqueda de Google para Libgen que incluía el fragmento "No, Libgen no es legal".
Algunos tomadores de decisiones en Meta parecían creer que no usar Libgen para el entrenamiento de modelos podría afectar gravemente la competitividad de Meta en la carrera de la IA, según los documentos.
En un correo electrónico a la vicepresidenta de IA de Meta, Joelle Pineau, Sony Theakanath, director de gestión de productos en Meta, llamó a Libgen "esencial para alcanzar números SOTA en todas las categorías", refiriéndose a lograr el mejor rendimiento de modelos de IA de vanguardia (SOTA) y categorías de referencia.
Theakanath también esbozó "mitigaciones" en el correo para reducir la exposición legal de Meta, como eliminar datos de Libgen que estuvieran "claramente marcados como pirateados/robados" y no divulgar públicamente el uso de conjuntos de datos de Libgen para el entrenamiento. "No divulgaríamos el uso de conjuntos de datos de Libgen utilizados para entrenar", escribió Theakanath.
En la práctica, estas mitigaciones implicaban buscar en los archivos de Libgen palabras como "robado" o "pirateado", según los documentos.
En un chat de trabajo, Kambadur mencionó que el equipo de IA de Meta también ajustó los modelos para "evitar prompts riesgosos de propiedad intelectual", lo que significa que configuraron los modelos para negarse a responder preguntas como "reproduce las primeras tres páginas de 'Harry Potter y la piedra filosofal'" o "dime en qué libros electrónicos fuiste entrenado".
Los documentos también sugieren que Meta podría haber recopilado datos de Reddit para algún tipo de entrenamiento de modelos, posiblemente imitando el comportamiento de una aplicación de terceros llamada Pushshift. Cabe destacar que Reddit anunció en abril de 2023 que planeaba comenzar a cobrar a las empresas de IA por el acceso a datos para el entrenamiento de modelos.
En un chat de marzo de 2024, Chaya Nayak, directora de gestión de productos en la organización de IA generativa de Meta, dijo que el liderazgo de Meta estaba considerando "anular" decisiones pasadas sobre conjuntos de entrenamiento, incluida una decisión de no usar contenido de Quora o libros y artículos científicos con licencia, para asegurar que los modelos de la compañía tuvieran suficientes datos de entrenamiento.
Nayak insinuó que los conjuntos de datos de entrenamiento propios de Meta, como publicaciones de Facebook e Instagram, texto transcrito de videos en plataformas de Meta y ciertos mensajes de Meta for Business, no eran suficientes. "Necesitamos más datos", escribió.
Los demandantes en Kadrey v. Meta han enmendado su denuncia varias veces desde que presentaron el caso en el Tribunal de Distrito de EE. UU. para el Distrito Norte de California, División de San Francisco, en 2023. La última enmienda alega que Meta, entre otras afirmaciones, comparó ciertos libros pirateados con libros protegidos por derechos de autor disponibles para licencia para decidir si buscar un acuerdo de licencia con una editorial.
En una señal de cuán en serio Meta ve las apuestas legales, la compañía ha añadido dos litigantes de la Corte Suprema de la firma de abogados Paul Weiss a su equipo de defensa en el caso.
Meta no respondió de inmediato a una solicitud de comentarios.



Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.




Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました!🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。




¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.




I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.




메타가 저작권 있는 콘텐츠를 AI 훈련에 사용했다니 충격적이에요! 🤯 좀 비윤리적인데, AI 성능은 정말 좋네요. 좀 더 윤리적인 방법을 찾았으면 좋겠어요. 그래도 이런 기업들의 운영 방식을 알게 돼서 눈이 번쩍 뜨였어요.




Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.












