El meta personal discutido utilizando contenido con derechos de autor para la capacitación de IA, revelan las presentaciones judiciales

Hogar

Noticias

10 de abril de 2025

JosephEvans

169

# meta # Lawsuit

El meta personal discutido utilizando contenido con derechos de autor para la capacitación de IA, revelan las presentaciones judiciales

Durante años, los empleados de Meta han estado discutiendo el uso de materiales protegidos por derechos de autor, obtenidos a través de medios potencialmente dudosos, para entrenar los modelos de IA de la compañía, según documentos judiciales que fueron desclasificados el jueves.

Estos documentos forman parte de la demanda en curso Kadrey v. Meta, una de varias disputas sobre derechos de autor de IA que están avanzando en el sistema judicial de EE. UU. Meta argumenta que el uso de obras protegidas por propiedad intelectual, especialmente libros, para entrenar sus modelos cae bajo el concepto de "uso justo". Sin embargo, los demandantes, incluidos los autores Sarah Silverman y Ta-Nehisi Coates, están en fuerte desacuerdo.

Documentos previos en el caso sugerían que el CEO de Meta, Mark Zuckerberg, había aprobado el uso de contenido protegido por derechos de autor para el entrenamiento y que Meta había dejado de negociar acuerdos de licencia con editoriales de libros. Los documentos recientemente desclasificados, que incluyen chats de trabajo internos entre el personal de Meta, ofrecen la visión más detallada hasta ahora sobre cómo Meta podría haber utilizado datos protegidos por derechos de autor para entrenar sus modelos, incluidos los de la familia Llama.

En un chat, empleados de Meta, incluida Melanie Kambadur, gerente senior del equipo de investigación del modelo Llama de Meta, hablaron sobre entrenar modelos con obras que sabían que podrían ser legalmente riesgosas.

"Mi opinión es (en el espíritu de 'pide perdón, no permiso'): deberíamos tomar los libros y dejar que los ejecutivos decidan", escribió Xavier Martinet, ingeniero de investigación de Meta, en un chat de febrero de 2023, según los documentos. "Por eso crearon esta organización de IA generativa: para que podamos asumir más riesgos."

Martinet sugirió comprar libros electrónicos a precios minoristas para construir un conjunto de entrenamiento en lugar de negociar acuerdos de licencia con editoriales. Cuando otro miembro del personal señaló los posibles problemas legales con el uso de materiales protegidos por derechos de autor no autorizados, Martinet insistió, señalando que "un montón" de startups probablemente ya estaban usando libros pirateados para el entrenamiento.

"Quiero decir, en el peor de los casos: descubrimos que está bien, mientras que un montón de startups simplemente piratearon toneladas de libros en BitTorrent", escribió Martinet, según los documentos. "Mi opinión de nuevo: tratar directamente con editoriales lleva una eternidad..."

En el mismo chat, Kambadur, quien mencionó que Meta estaba negociando con Scribd y otras plataformas para obtener licencias, señaló que aunque usar "datos disponibles públicamente" para el entrenamiento aún requeriría aprobaciones, los abogados de Meta se estaban volviendo "menos conservadores" al otorgar dichas aprobaciones.

"Sí, todavía necesitamos obtener licencias o aprobaciones para datos disponibles públicamente", dijo Kambadur, según los documentos. "La diferencia ahora es que tenemos más dinero, más abogados, más ayuda en desarrollo de negocios, la capacidad de acelerar y escalar para mayor rapidez, y los abogados están siendo un poco menos cautelosos con las aprobaciones."

Conversaciones sobre Libgen

En otro chat de trabajo mencionado en los documentos, Kambadur discutió la posibilidad de usar Libgen, un "agregador de enlaces" que proporciona acceso a obras protegidas por derechos de autor de editoriales, como alternativa a fuentes de datos con licencia.

Libgen ha enfrentado numerosas demandas, ha sido ordenado cerrar y ha sido multado con decenas de millones de dólares por infracción de derechos de autor. Uno de los colegas de Kambadur respondió con una captura de pantalla de un resultado de búsqueda de Google para Libgen que incluía el fragmento "No, Libgen no es legal".

Algunos tomadores de decisiones en Meta parecían creer que no usar Libgen para el entrenamiento de modelos podría afectar gravemente la competitividad de Meta en la carrera de la IA, según los documentos.

En un correo electrónico a la vicepresidenta de IA de Meta, Joelle Pineau, Sony Theakanath, director de gestión de productos en Meta, llamó a Libgen "esencial para alcanzar números SOTA en todas las categorías", refiriéndose a lograr el mejor rendimiento de modelos de IA de vanguardia (SOTA) y categorías de referencia.

Theakanath también esbozó "mitigaciones" en el correo para reducir la exposición legal de Meta, como eliminar datos de Libgen que estuvieran "claramente marcados como pirateados/robados" y no divulgar públicamente el uso de conjuntos de datos de Libgen para el entrenamiento. "No divulgaríamos el uso de conjuntos de datos de Libgen utilizados para entrenar", escribió Theakanath.

En la práctica, estas mitigaciones implicaban buscar en los archivos de Libgen palabras como "robado" o "pirateado", según los documentos.

En un chat de trabajo, Kambadur mencionó que el equipo de IA de Meta también ajustó los modelos para "evitar prompts riesgosos de propiedad intelectual", lo que significa que configuraron los modelos para negarse a responder preguntas como "reproduce las primeras tres páginas de 'Harry Potter y la piedra filosofal'" o "dime en qué libros electrónicos fuiste entrenado".

Los documentos también sugieren que Meta podría haber recopilado datos de Reddit para algún tipo de entrenamiento de modelos, posiblemente imitando el comportamiento de una aplicación de terceros llamada Pushshift. Cabe destacar que Reddit anunció en abril de 2023 que planeaba comenzar a cobrar a las empresas de IA por el acceso a datos para el entrenamiento de modelos.

En un chat de marzo de 2024, Chaya Nayak, directora de gestión de productos en la organización de IA generativa de Meta, dijo que el liderazgo de Meta estaba considerando "anular" decisiones pasadas sobre conjuntos de entrenamiento, incluida una decisión de no usar contenido de Quora o libros y artículos científicos con licencia, para asegurar que los modelos de la compañía tuvieran suficientes datos de entrenamiento.

Nayak insinuó que los conjuntos de datos de entrenamiento propios de Meta, como publicaciones de Facebook e Instagram, texto transcrito de videos en plataformas de Meta y ciertos mensajes de Meta for Business, no eran suficientes. "Necesitamos más datos", escribió.

Los demandantes en Kadrey v. Meta han enmendado su denuncia varias veces desde que presentaron el caso en el Tribunal de Distrito de EE. UU. para el Distrito Norte de California, División de San Francisco, en 2023. La última enmienda alega que Meta, entre otras afirmaciones, comparó ciertos libros pirateados con libros protegidos por derechos de autor disponibles para licencia para decidir si buscar un acuerdo de licencia con una editorial.

En una señal de cuán en serio Meta ve las apuestas legales, la compañía ha añadido dos litigantes de la Corte Suprema de la firma de abogados Paul Weiss a su equipo de defensa en el caso.

Meta no respondió de inmediato a una solicitud de comentarios.

Artículo relacionado

Meta AI ya responde a los mensajes de los compradores en Facebook Marketplace Facebook Marketplace presenta nuevas funciones de Meta AI, entre las que se incluyen respuestas automáticas a las consultas de los compradores, según anunció la empresa el jueves. La plataforma tambié

Meta firma un acuerdo para adquirir millones de CPU de IA de Amazon Amazon ha cerrado una importante alianza con Meta, apostando una vez más por sus propios chips de diseño propio. Meta ha acordado implementar millones de chips AWS Graviton para satisfacer sus crecien

El auge del gas natural de Meta podría impulsar la red eléctrica de Dakota del Sur Los centros de datos han alcanzado tal magnitud que su consumo eléctrico equivale ahora al de estados enteros de EE. UU. Tomemos como ejemplo el centro de datos Hyperion AI de Meta: una vez terminado,

Recomendaciones de temas especiales relacionados

SEO

Los mejores herramientas de redirección de IA y búsqueda de enlaces dañados: Reparan automáticamente los errores de rastreo para ahorrar el presupuesto dedicado a este proceso.

Descubra los mejores herramientas de redirección de IA y búsqueda de enlaces dañados de 2026 en XIX.AI. Nuestra lista seleccionada y calificada incluye herramientas poderosas que reparan automáticamente los errores de rastreo, ahorrándole así recursos. Compare opciones gratuitas y pagadas a través de pruebas reales y clasificaciones actualizadas semanalmente. ¡Encuentre la solución SEO perfecta para usted ahora mismo!

10 herramientas

xix.ai

Creación de vídeos

Los mejores creadores de vídeos con IA para podcasters: convierte ondas de audio en atractivos vídeos con rostros en primer plano

Descubre los mejores creadores de vídeos con IA para podcasters de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada y con las mejores valoraciones, incluye potentes herramientas que convierten tu audio en atractivos vídeos de «talking head» sin esfuerzo. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. Aprovecha ahora tu ventaja en la narración visual.

10 herramientas

xix.ai

chatbot

Crea tu propia historia de amor con IA gracias a estas herramientas de juego de rol

Descubre las mejores herramientas de rol basadas en IA de 2026 para crear narrativas envolventes. La selección de XIX.AI incluye potentes asistentes revolucionarios que te permitirán desarrollar una narrativa creativa y una gran profundidad emocional. Compara las opciones gratuitas con las de pago mediante pruebas reales. Empieza hoy mismo tu viaje único.

10 herramientas

xix.ai

Texto a voz

Las mejores herramientas de voz con IA para desarrolladores de videojuegos independientes: ahorra tiempo en la grabación de voces para juegos de rol y novelas visuales

¡Descubre las mejores herramientas de voz con IA de 2026 para desarrolladores de videojuegos! La lista seleccionada por XIX.AI incluye soluciones de primera categoría que marcarán un antes y un después, y que te permitirán ahorrar tiempo y dinero en la locución de juegos de rol y novelas visuales. Explora comparativas entre opciones gratuitas y de pago, pruebas en condiciones reales y clasificaciones que se actualizan semanalmente. ¡Encuentra hoy mismo tu herramienta de voz perfecta!

10 herramientas

xix.ai

Educación y aprendizaje

Los mejores herramientas de repetición espaciada con IA: optimiza los horarios de estudio para estudiantes de medicina y derecho

Descubra los mejores herramientas de repetición espacial de IA para 2026, seleccionadas por XIX.AI. Nuestras opciones más recomendadas y revolucionarias ayudan a estudiantes de medicina y derecho a optimizar sus horarios de estudio para lograr un mayor retención del conocimiento. Compare las opciones gratuitas con las pagas mediante pruebas reales y clasificaciones actualizadas semanalmente. Despliegue todo su potencial de aprendizaje ahora mismo.

10 herramientas

xix.ai

Creación de vídeos

Las mejores plataformas de IA para convertir texto en vídeo, destinadas a la redacción de guiones y la narración visual

Las mejores plataformas de IA para convertir texto en vídeo de 2026: las herramientas mejor valoradas para la redacción de guiones y la narración visual. Descubre soluciones potentes y revolucionarias para transformar tu texto en vídeos atractivos. Compara las opciones gratuitas con las de pago gracias a nuestras clasificaciones, que se actualizan semanalmente, y a nuestras pruebas en condiciones reales. Encuentra la plataforma perfecta para potenciar tu creatividad y productividad. Explora la selección cuidada de XIX.AI.

10 herramientas

xix.ai

comentario (32)

0/500

Inicie sesión primero

PaulMartínez

6 de mayo de 2026 06:00:49 GMT+02:00

Meta scheint sich nicht an die Regeln zu halten, wenn es um Urheberrechte geht. Das erinnert mich an die frühen Tage von Napster – nur dass es diesmal um KI geht. Wenn große Tech-Firmen einfach alles verwenden, was sie finden können, ohne Rücksicht auf Künstler und Autoren, wo führt das hin? 🤔 Es ist nicht nur unethisch, sondern könnte auch langfristig die Kreativwirtschaft schädigen. Hoffentlich setzt das Gericht hier ein klares Zeichen.

CharlesYoung

6 de abril de 2026 00:02:04 GMT+02:00

¿Es legal usar contenido con derechos de autor para entrenar IA de esta manera? Parece que Meta ha estado considerando métodos cuestionables durante años. Esta noticia me hace pensar mucho en quién realmente se beneficia del 'progreso' tecnológico 🤔. Como usuario, me preocupa la falta de transparencia de estas empresas sobre cómo obtienen los datos.

PeterMartinez

24 de abril de 2025 20:59:57 GMT+02:00

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell

24 de abril de 2025 04:42:41 GMT+02:00

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました！🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez

21 de abril de 2025 22:19:31 GMT+02:00

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams

19 de abril de 2025 11:15:40 GMT+02:00

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

Noticias principales

AI Builder y Power Automate Revolucionan la Sumarización de Documentos Los anfitriones de AI del podcast Notebooklm ahora están disponibles para entrevistas China presenta su robot humanoide nacional y sus estándares de inteligencia incorporada Los datos de Ramp revelan un estancamiento en la adopción de la IA por parte de las empresas Guía de creación de arte con el creador de imágenes de Bing Aprende a crear música de IA usando tu voz: un tutorial de Suno paso a paso iMyFone MagicMic: Revisión y Tutorial de Cambio de Voz AI en Tiempo Real Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Embodied Intelligence presenta la primera norma del sector para frenar el crecimiento descontrolado DeepSeek V4 surge como un revolucionario sistema de IA multimodal

Más

Presentado