opción
Hogar
Noticias
El meta personal discutido utilizando contenido con derechos de autor para la capacitación de IA, revelan las presentaciones judiciales

El meta personal discutido utilizando contenido con derechos de autor para la capacitación de IA, revelan las presentaciones judiciales

10 de abril de 2025
65

El meta personal discutido utilizando contenido con derechos de autor para la capacitación de IA, revelan las presentaciones judiciales

Durante años, los meta empleados han estado discutiendo el uso de materiales con derechos de autor, obtenidos a través de medios potencialmente sombríos, para capacitar a los modelos de IA de la compañía, según documentos judiciales que se revelaron el jueves.

Estos documentos formaron parte de la demanda en curso Kadrey v. Meta, una de varias disputas de derechos de autor de IA que se abrieron paso a través del sistema judicial de los Estados Unidos. Meta argumenta que el uso de obras protegidas por IP, especialmente libros, para capacitar a sus modelos se encuentra en "uso justo". Sin embargo, los demandantes, incluidos los autores Sarah Silverman y Ta-Nehisi Coates, no están de acuerdo.

Las presentaciones anteriores en el caso sugirieron que el CEO de Meta Mark Zuckerberg había aprobado el uso de contenido con derechos de autor para la capacitación y que Meta había dejado de negociar acuerdos de licencias con editores de libros. Los documentos recién sinllevados, que incluyen chats de trabajo internos entre meta personal, proporcionan la visión más detallada de cómo Meta podría haber utilizado datos con derechos de autor para capacitar a sus modelos, incluidos los de la familia Llama.

En una chat, los meta empleados, incluida Melanie Kambadur, gerente senior del equipo de investigación de modelos de llamas de Meta, hablaron sobre modelos de capacitación sobre obras que sabían que podrían ser legalmente arriesgados.

"Mi opinión es (en el espíritu de 'pedir perdón, no permiso'): deberíamos tomar los libros y dejar que los ejecutivos decidan", escribió Xavier Martinet, un ingeniero de meta investigación, en un chat de febrero de 2023, según las presentaciones. "Es por eso que crearon esta organización de Gen Ai: para que podamos correr más riesgos".

Martinet sugirió comprar libros electrónicos a precios minoristas para construir un conjunto de capacitación en lugar de negociar acuerdos de licencias con editores. Cuando otro miembro del personal señaló los posibles problemas legales con el uso de materiales con derechos de autor no autorizados, Martinet se duplicó, señalando que las nuevas empresas de "mil millones" probablemente ya estaban usando libros pirateados para capacitación.

"Quiero decir, el peor de los casos: descubrimos que está bien, mientras que las startups de miles de startups simplemente piratearon toneladas de libros sobre BitTorrent", escribió Martinet, según las presentaciones. "Mis dos centavos nuevamente: tratar directamente con los editores lleva una eternidad ..."

En el mismo chat, Kambadur, quien mencionó que Meta estaba negociando con Scribd y otras plataformas para licencias, señaló que al usar "datos disponibles públicamente" para la capacitación aún necesitaría aprobaciones, los abogados de Meta se estaban volviendo "menos conservadores" sobre la otorgación de tales aprobaciones.

"Sí, todavía necesitamos obtener licencias o aprobaciones para datos disponibles públicamente", dijo Kambadur, según las presentaciones. "La diferencia ahora es que tenemos más dinero, más abogados, más ayuda para el desarrollo empresarial, la capacidad de acelerar y aumentar para la velocidad, y los abogados están siendo un poco menos cautelosos con las aprobaciones".

Charlas de libgen

En otro chat de trabajo mencionado en las presentaciones, Kambadur discutió la posibilidad de usar LibGen, un "agregador de enlaces" que proporciona acceso a trabajos con derechos de autor de los editores, como una alternativa a las fuentes de datos con licencia.

Libgen se ha enfrentado a numerosas demandas, se le ordenó cerrar y recibió una multa de decenas de millones de dólares por infracción de derechos de autor. Uno de los colegas de Kambadur respondió con una captura de pantalla de un resultado de búsqueda de Google para Libgen que incluyó el fragmento "No, Libgen no es legal".

Algunos tomadores de decisiones en Meta parecían creer que no usar LibGen para el entrenamiento modelo podría afectar seriamente la competitividad de Meta en la carrera de IA, según las presentaciones.

En un correo electrónico a la vicepresidenta de Meta AI, Joelle Pineau, Sony Theakanath, director de gestión de productos de Meta, llamado Libgen "esencial para cumplir con los números de SOTA en todas las categorías", refiriéndose a lograr el mejor rendimiento del modelo de IA (SOTA) y las categorías de referencia.

Theakanath también describió las "mitigaciones" en el correo electrónico para reducir la exposición legal de Meta, como eliminar datos de LibGen que "claramente marcados como pirateados/robados" y no revelar públicamente el uso de conjuntos de datos de LibGen para la capacitación. "No divulgaríamos el uso de conjuntos de datos de Libgen utilizados para entrenar", escribió Theakanath.

En la práctica, estas mitigaciones implicaron la búsqueda de archivos de LibGen para palabras como "robadas" o "pirateadas", según las presentaciones.

En un chat de trabajo, Kambadur mencionó que el equipo de IA de Meta también ajustó los modelos para "evitar las indicaciones de riesgo IP", lo que significa que configuraron los modelos para negarse a responder preguntas como "Reproducir las primeras tres páginas de 'Harry Potter y la piedra del hechicero'" o "Dígame en qué libros electrónicos estaban entrenados".

Las presentaciones también sugieren que Meta puede haber raspado los datos de Reddit para algún tipo de entrenamiento de modelos, posiblemente imitando el comportamiento de una aplicación de terceros llamada PushShift. En particular, Reddit anunció en abril de 2023 que planeaba comenzar a cobrar a las compañías de IA por acceso a datos para capacitación modelo.

En una chat de marzo de 2024, Chaya Nayak, directora de gestión de productos de la organización de IA generativa de Meta, dijo que el liderazgo de Meta estaba considerando "anular" las decisiones pasadas sobre los conjuntos de capacitación, incluida la decisión de no usar contenido de Quora o libros con licencia y artículos científicos, para garantizar que los modelos de la compañía tuvieran suficientes datos de capacitación.

Nayak implicaba que los conjuntos de datos de capacitación de primera parte de Meta, como las publicaciones de Facebook e Instagram, el texto transcrito de los videos en las plataformas meta y ciertos meta para mensajes comerciales, no eran suficientes. "Necesitamos más datos", escribió.

Los demandantes en Kadrey v. Meta han modificado su queja varias veces desde que presentó el caso en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, la División de San Francisco, en 2023. La última enmienda alega que Meta, entre otros reclamos, comparó ciertos libros pirateados con libros con derechos de autor para la licencia para decidir para perseguir un acuerdo de licencia con un editor.

En una señal de cuán seriamente meta ve las apuestas legales, la compañía ha agregado dos litigantes de la Corte Suprema del bufete de abogados Paul Weiss a su equipo de defensa en el caso.

Meta no respondió de inmediato a una solicitud de comentarios.

Artículo relacionado
Meta AI在欧盟推出并实施限制 Meta AI在欧盟推出并实施限制 Meta的人工智能虚拟助手Meta AI终于在与欧洲隐私机构的激烈监管斗争中进入了欧盟。该公司周四宣布,这款类似聊天机器人的工具将在其一系列社交平台上集成,不过功能比美国市场上的要少。在另一项发展上,Meta向TechCrunch确认,Meta AI很快将在英国的WhatsApp上可用,从今年十月在Facebook、Instagram和Ray-Ban Met
OpenAI 聘请前Facebook应用负责人 OpenAI 聘请前Facebook应用负责人 菲吉·西莫加入 OpenAI 担任应用业务主管OpenAI 通过聘请现任 Instacart 首席执行官兼前 Facebook 应用负责人菲吉·西莫来领导其应用业务,引起了广泛关注。这一任命直接来自高层,OpenAI 首席执行官山姆·阿尔特曼在 X 上分享称,新职位将使他能够更多地专注于研究、计算和安全性。显然,他们正在为应用领域的一些令人兴奋的发展奠定基础
Meta预测到2035年生成性AI收入将达1.4万亿美元 Meta预测到2035年生成性AI收入将达1.4万亿美元 去年,Meta 大胆预测其生成式 AI 产品到 2025 年将产生 20 亿至 30 亿美元的收入。展望未来,他们预计到 2035 年将增长到惊人的 4600 亿至 1.4 万亿美元之间。这些预测是在周三浮出水面的法庭文件中披露的,当时正值书籍作者对 Meta 提起诉讼。他们指控该公司未经许可就用他们的作品训练 AI。然而,文件并未具体说明 Meta 如何定
comentario (30)
0/200
FrankMartínez
FrankMartínez 11 de abril de 2025 00:00:00 GMT

So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?

WilliamYoung
WilliamYoung 11 de abril de 2025 00:00:00 GMT

メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?

HenryJackson
HenryJackson 11 de abril de 2025 00:00:00 GMT

메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?

HarryRoberts
HarryRoberts 11 de abril de 2025 00:00:00 GMT

Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?

JoseJackson
JoseJackson 11 de abril de 2025 00:00:00 GMT

Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?

AlbertHill
AlbertHill 11 de abril de 2025 00:00:00 GMT

So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?

Volver arriba
OR