

El meta personal discutido utilizando contenido con derechos de autor para la capacitación de IA, revelan las presentaciones judiciales
10 de abril de 2025
JosephEvans
16

Durante años, los meta empleados han estado discutiendo el uso de materiales con derechos de autor, obtenidos a través de medios potencialmente sombríos, para capacitar a los modelos de IA de la compañía, según documentos judiciales que se revelaron el jueves.
Estos documentos formaron parte de la demanda en curso Kadrey v. Meta, una de varias disputas de derechos de autor de IA que se abrieron paso a través del sistema judicial de los Estados Unidos. Meta argumenta que el uso de obras protegidas por IP, especialmente libros, para capacitar a sus modelos se encuentra en "uso justo". Sin embargo, los demandantes, incluidos los autores Sarah Silverman y Ta-Nehisi Coates, no están de acuerdo.
Las presentaciones anteriores en el caso sugirieron que el CEO de Meta Mark Zuckerberg había aprobado el uso de contenido con derechos de autor para la capacitación y que Meta había dejado de negociar acuerdos de licencias con editores de libros. Los documentos recién sinllevados, que incluyen chats de trabajo internos entre meta personal, proporcionan la visión más detallada de cómo Meta podría haber utilizado datos con derechos de autor para capacitar a sus modelos, incluidos los de la familia Llama.
En una chat, los meta empleados, incluida Melanie Kambadur, gerente senior del equipo de investigación de modelos de llamas de Meta, hablaron sobre modelos de capacitación sobre obras que sabían que podrían ser legalmente arriesgados.
"Mi opinión es (en el espíritu de 'pedir perdón, no permiso'): deberíamos tomar los libros y dejar que los ejecutivos decidan", escribió Xavier Martinet, un ingeniero de meta investigación, en un chat de febrero de 2023, según las presentaciones. "Es por eso que crearon esta organización de Gen Ai: para que podamos correr más riesgos".
Martinet sugirió comprar libros electrónicos a precios minoristas para construir un conjunto de capacitación en lugar de negociar acuerdos de licencias con editores. Cuando otro miembro del personal señaló los posibles problemas legales con el uso de materiales con derechos de autor no autorizados, Martinet se duplicó, señalando que las nuevas empresas de "mil millones" probablemente ya estaban usando libros pirateados para capacitación.
"Quiero decir, el peor de los casos: descubrimos que está bien, mientras que las startups de miles de startups simplemente piratearon toneladas de libros sobre BitTorrent", escribió Martinet, según las presentaciones. "Mis dos centavos nuevamente: tratar directamente con los editores lleva una eternidad ..."
En el mismo chat, Kambadur, quien mencionó que Meta estaba negociando con Scribd y otras plataformas para licencias, señaló que al usar "datos disponibles públicamente" para la capacitación aún necesitaría aprobaciones, los abogados de Meta se estaban volviendo "menos conservadores" sobre la otorgación de tales aprobaciones.
"Sí, todavía necesitamos obtener licencias o aprobaciones para datos disponibles públicamente", dijo Kambadur, según las presentaciones. "La diferencia ahora es que tenemos más dinero, más abogados, más ayuda para el desarrollo empresarial, la capacidad de acelerar y aumentar para la velocidad, y los abogados están siendo un poco menos cautelosos con las aprobaciones".
Charlas de libgen
En otro chat de trabajo mencionado en las presentaciones, Kambadur discutió la posibilidad de usar LibGen, un "agregador de enlaces" que proporciona acceso a trabajos con derechos de autor de los editores, como una alternativa a las fuentes de datos con licencia.
Libgen se ha enfrentado a numerosas demandas, se le ordenó cerrar y recibió una multa de decenas de millones de dólares por infracción de derechos de autor. Uno de los colegas de Kambadur respondió con una captura de pantalla de un resultado de búsqueda de Google para Libgen que incluyó el fragmento "No, Libgen no es legal".
Algunos tomadores de decisiones en Meta parecían creer que no usar LibGen para el entrenamiento modelo podría afectar seriamente la competitividad de Meta en la carrera de IA, según las presentaciones.
En un correo electrónico a la vicepresidenta de Meta AI, Joelle Pineau, Sony Theakanath, director de gestión de productos de Meta, llamado Libgen "esencial para cumplir con los números de SOTA en todas las categorías", refiriéndose a lograr el mejor rendimiento del modelo de IA (SOTA) y las categorías de referencia.
Theakanath también describió las "mitigaciones" en el correo electrónico para reducir la exposición legal de Meta, como eliminar datos de LibGen que "claramente marcados como pirateados/robados" y no revelar públicamente el uso de conjuntos de datos de LibGen para la capacitación. "No divulgaríamos el uso de conjuntos de datos de Libgen utilizados para entrenar", escribió Theakanath.
En la práctica, estas mitigaciones implicaron la búsqueda de archivos de LibGen para palabras como "robadas" o "pirateadas", según las presentaciones.
En un chat de trabajo, Kambadur mencionó que el equipo de IA de Meta también ajustó los modelos para "evitar las indicaciones de riesgo IP", lo que significa que configuraron los modelos para negarse a responder preguntas como "Reproducir las primeras tres páginas de 'Harry Potter y la piedra del hechicero'" o "Dígame en qué libros electrónicos estaban entrenados".
Las presentaciones también sugieren que Meta puede haber raspado los datos de Reddit para algún tipo de entrenamiento de modelos, posiblemente imitando el comportamiento de una aplicación de terceros llamada PushShift. En particular, Reddit anunció en abril de 2023 que planeaba comenzar a cobrar a las compañías de IA por acceso a datos para capacitación modelo.
En una chat de marzo de 2024, Chaya Nayak, directora de gestión de productos de la organización de IA generativa de Meta, dijo que el liderazgo de Meta estaba considerando "anular" las decisiones pasadas sobre los conjuntos de capacitación, incluida la decisión de no usar contenido de Quora o libros con licencia y artículos científicos, para garantizar que los modelos de la compañía tuvieran suficientes datos de capacitación.
Nayak implicaba que los conjuntos de datos de capacitación de primera parte de Meta, como las publicaciones de Facebook e Instagram, el texto transcrito de los videos en las plataformas meta y ciertos meta para mensajes comerciales, no eran suficientes. "Necesitamos más datos", escribió.
Los demandantes en Kadrey v. Meta han modificado su queja varias veces desde que presentó el caso en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, la División de San Francisco, en 2023. La última enmienda alega que Meta, entre otros reclamos, comparó ciertos libros pirateados con libros con derechos de autor para la licencia para decidir para perseguir un acuerdo de licencia con un editor.
En una señal de cuán seriamente meta ve las apuestas legales, la compañía ha agregado dos litigantes de la Corte Suprema del bufete de abogados Paul Weiss a su equipo de defensa en el caso.
Meta no respondió de inmediato a una solicitud de comentarios.
Artículo relacionado
Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因
在周末,Facebook,Instagram,WhatsApp和Quest VR背后的强大力量Meta通过揭露其最新的AI语言模型Llama 4。不仅是一个,而且引入了三个新版本,每个版本都具有增强功能,这要归功于“ Architecturs” Architecturs”
法学教授支持作者在AI的版权与META的版权之战中
一组版权法学教授在起诉元的作者后面提供了支持,指控这家科技巨头未经作者同意就在电子书上训练了其Llama AI模型。教授于周五在美国加利福尼亚北区的美国地方法院提交了一份法庭之友。
Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手
Openai对其联合创始人Elon Musk及其竞争的AI公司Xai发起了激烈的法律反击。在他们正在进行的争执的戏剧性升级中,Openai指责马斯克发动了一场“无情”和“恶意”运动,破坏了他帮助创办的公司。根据法院D
comentario (25)
0/200
FrankMartínez
11 de abril de 2025 02:36:50 GMT
So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?
0
WilliamYoung
11 de abril de 2025 02:36:50 GMT
メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?
0
HenryJackson
11 de abril de 2025 02:36:50 GMT
메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?
0
HarryRoberts
11 de abril de 2025 02:36:50 GMT
Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?
0
JoseJackson
11 de abril de 2025 02:36:50 GMT
Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?
0
AlbertHill
10 de abril de 2025 19:16:25 GMT
So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?
0






Durante años, los meta empleados han estado discutiendo el uso de materiales con derechos de autor, obtenidos a través de medios potencialmente sombríos, para capacitar a los modelos de IA de la compañía, según documentos judiciales que se revelaron el jueves.
Estos documentos formaron parte de la demanda en curso Kadrey v. Meta, una de varias disputas de derechos de autor de IA que se abrieron paso a través del sistema judicial de los Estados Unidos. Meta argumenta que el uso de obras protegidas por IP, especialmente libros, para capacitar a sus modelos se encuentra en "uso justo". Sin embargo, los demandantes, incluidos los autores Sarah Silverman y Ta-Nehisi Coates, no están de acuerdo.
Las presentaciones anteriores en el caso sugirieron que el CEO de Meta Mark Zuckerberg había aprobado el uso de contenido con derechos de autor para la capacitación y que Meta había dejado de negociar acuerdos de licencias con editores de libros. Los documentos recién sinllevados, que incluyen chats de trabajo internos entre meta personal, proporcionan la visión más detallada de cómo Meta podría haber utilizado datos con derechos de autor para capacitar a sus modelos, incluidos los de la familia Llama.
En una chat, los meta empleados, incluida Melanie Kambadur, gerente senior del equipo de investigación de modelos de llamas de Meta, hablaron sobre modelos de capacitación sobre obras que sabían que podrían ser legalmente arriesgados.
"Mi opinión es (en el espíritu de 'pedir perdón, no permiso'): deberíamos tomar los libros y dejar que los ejecutivos decidan", escribió Xavier Martinet, un ingeniero de meta investigación, en un chat de febrero de 2023, según las presentaciones. "Es por eso que crearon esta organización de Gen Ai: para que podamos correr más riesgos".
Martinet sugirió comprar libros electrónicos a precios minoristas para construir un conjunto de capacitación en lugar de negociar acuerdos de licencias con editores. Cuando otro miembro del personal señaló los posibles problemas legales con el uso de materiales con derechos de autor no autorizados, Martinet se duplicó, señalando que las nuevas empresas de "mil millones" probablemente ya estaban usando libros pirateados para capacitación.
"Quiero decir, el peor de los casos: descubrimos que está bien, mientras que las startups de miles de startups simplemente piratearon toneladas de libros sobre BitTorrent", escribió Martinet, según las presentaciones. "Mis dos centavos nuevamente: tratar directamente con los editores lleva una eternidad ..."
En el mismo chat, Kambadur, quien mencionó que Meta estaba negociando con Scribd y otras plataformas para licencias, señaló que al usar "datos disponibles públicamente" para la capacitación aún necesitaría aprobaciones, los abogados de Meta se estaban volviendo "menos conservadores" sobre la otorgación de tales aprobaciones.
"Sí, todavía necesitamos obtener licencias o aprobaciones para datos disponibles públicamente", dijo Kambadur, según las presentaciones. "La diferencia ahora es que tenemos más dinero, más abogados, más ayuda para el desarrollo empresarial, la capacidad de acelerar y aumentar para la velocidad, y los abogados están siendo un poco menos cautelosos con las aprobaciones".
Charlas de libgen
En otro chat de trabajo mencionado en las presentaciones, Kambadur discutió la posibilidad de usar LibGen, un "agregador de enlaces" que proporciona acceso a trabajos con derechos de autor de los editores, como una alternativa a las fuentes de datos con licencia.
Libgen se ha enfrentado a numerosas demandas, se le ordenó cerrar y recibió una multa de decenas de millones de dólares por infracción de derechos de autor. Uno de los colegas de Kambadur respondió con una captura de pantalla de un resultado de búsqueda de Google para Libgen que incluyó el fragmento "No, Libgen no es legal".
Algunos tomadores de decisiones en Meta parecían creer que no usar LibGen para el entrenamiento modelo podría afectar seriamente la competitividad de Meta en la carrera de IA, según las presentaciones.
En un correo electrónico a la vicepresidenta de Meta AI, Joelle Pineau, Sony Theakanath, director de gestión de productos de Meta, llamado Libgen "esencial para cumplir con los números de SOTA en todas las categorías", refiriéndose a lograr el mejor rendimiento del modelo de IA (SOTA) y las categorías de referencia.
Theakanath también describió las "mitigaciones" en el correo electrónico para reducir la exposición legal de Meta, como eliminar datos de LibGen que "claramente marcados como pirateados/robados" y no revelar públicamente el uso de conjuntos de datos de LibGen para la capacitación. "No divulgaríamos el uso de conjuntos de datos de Libgen utilizados para entrenar", escribió Theakanath.
En la práctica, estas mitigaciones implicaron la búsqueda de archivos de LibGen para palabras como "robadas" o "pirateadas", según las presentaciones.
En un chat de trabajo, Kambadur mencionó que el equipo de IA de Meta también ajustó los modelos para "evitar las indicaciones de riesgo IP", lo que significa que configuraron los modelos para negarse a responder preguntas como "Reproducir las primeras tres páginas de 'Harry Potter y la piedra del hechicero'" o "Dígame en qué libros electrónicos estaban entrenados".
Las presentaciones también sugieren que Meta puede haber raspado los datos de Reddit para algún tipo de entrenamiento de modelos, posiblemente imitando el comportamiento de una aplicación de terceros llamada PushShift. En particular, Reddit anunció en abril de 2023 que planeaba comenzar a cobrar a las compañías de IA por acceso a datos para capacitación modelo.
En una chat de marzo de 2024, Chaya Nayak, directora de gestión de productos de la organización de IA generativa de Meta, dijo que el liderazgo de Meta estaba considerando "anular" las decisiones pasadas sobre los conjuntos de capacitación, incluida la decisión de no usar contenido de Quora o libros con licencia y artículos científicos, para garantizar que los modelos de la compañía tuvieran suficientes datos de capacitación.
Nayak implicaba que los conjuntos de datos de capacitación de primera parte de Meta, como las publicaciones de Facebook e Instagram, el texto transcrito de los videos en las plataformas meta y ciertos meta para mensajes comerciales, no eran suficientes. "Necesitamos más datos", escribió.
Los demandantes en Kadrey v. Meta han modificado su queja varias veces desde que presentó el caso en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, la División de San Francisco, en 2023. La última enmienda alega que Meta, entre otros reclamos, comparó ciertos libros pirateados con libros con derechos de autor para la licencia para decidir para perseguir un acuerdo de licencia con un editor.
En una señal de cuán seriamente meta ve las apuestas legales, la compañía ha agregado dos litigantes de la Corte Suprema del bufete de abogados Paul Weiss a su equipo de defensa en el caso.
Meta no respondió de inmediato a una solicitud de comentarios.



So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?




メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?




메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?




Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?




Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?




So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?












