Hogar
La IA de Openai entrenada en los libros de O'Reilly de Paywalled, afirman los investigadores

Operai ha enfrentado numerosas acusaciones de usar material con derechos de autor sin permiso para entrenar sus modelos de IA. Un estudio reciente realizado por el Proyecto de divulgaciones de IA, una organización sin fines de lucro establecida en 2024 por el magnate de los medios Tim O'Reilly y el economista Ilan Strauss, sugiere que OpenAi puede haber usado libros no públicos de O'Reilly Media para capacitar a su modelo más avanzado, GPT-4O. Los modelos AI, motores de predicción esencialmente sofisticados, están entrenados en vastas conjuntos de datos que incluyen libros, películas y programas de televisión. Aprenden patrones y generan respuestas basadas en estos patrones, no crean nada verdaderamente nuevo, sino que se aproximan de su amplia base de conocimiento. A medida que las fuentes de datos del mundo real, como la red pública, se agotan, algunos laboratorios de IA, incluido OpenAI, han comenzado a usar datos generados por IA para capacitación, aunque pocos han abandonado completamente los datos del mundo real debido a los riesgos de un rendimiento del modelo degradante. El documento del Proyecto de Divulgaciones de AI afirma que el modelo GPT-4O de OpenAI, que es el valor predeterminado en ChatGPT, muestra un fuerte reconocimiento del contenido de los libros de O'Reilly de Paywalled, a diferencia del modelo Turbo GPT-3.5 anterior. El documento sugiere que GPT-4O probablemente fue capacitado en estos libros no públicos, a pesar de que los medios de comunicación de O'Reilly no tienen un acuerdo de licencia con OpenAI. El estudio empleó un método llamado Des-COP, introducido en 2024, para detectar contenido con derechos de autor en los datos de capacitación de IA. Este "ataque de inferencia de membresía" prueba si un modelo puede distinguir entre textos autorizados por los humanos y paráfrasis generadas por IA, lo que indica un conocimiento previo del texto si puede hacerlo de manera confiable. Los investigadores probaron los modelos GPT-4O, GPT-3.5 turbo y otros modelos Operai que utilizan 13,962 extractos de párrafos de 34 libros de O'Reilly, descubriendo que GPT-4O reconoció significativamente más contenido de paredes de pago que los modelos más antiguos. Si bien los autores reconocen que su método no es infalible y que el contenido de paredes podría haber sido introducido por los usuarios que copian y pegan en ChatGPT, los resultados plantean preguntas sobre las prácticas de datos de OpenAI. El estudio no evaluó los últimos modelos de Openai, como GPT-4.5 y modelos de razonamiento como O3-Mini y O1, dejando abiertos la posibilidad de que estos no hayan sido entrenados en los mismos datos. Operai ha estado presionando por leyes de derechos de autor más relajadas con respecto a los datos de capacitación de IA y ha estado buscando fuentes de datos de mayor calidad. La compañía incluso ha contratado a periodistas para que refine los resultados de sus modelos, una práctica que se ve en la industria de la IA donde los expertos en varios campos son reclutados para mejorar los sistemas de IA. Operai paga algunos de sus datos de capacitación, que tiene acuerdos de licencia con varios proveedores de contenido y ofrece mecanismos de exclusión para los propietarios de derechos de autor. Sin embargo, a medida que la compañía enfrenta desafíos legales sobre sus prácticas de datos, los hallazgos del documento O'Reilly arrojan una sombra sobre sus operaciones. Operai no respondió a las solicitudes de comentarios sobre el estudio.
Artículo relacionado
OpenAI adquiere la startup de finanzas personales basada en inteligencia artificial Hiro
OpenAI ha adquirido la startup de finanzas personales Hiro Finance, anunció el lunes su fundador Ethan Bloch, y OpenAI confirmó la transacción a TechCrunch. Esta startup contaba con el apoyo del destacado fondo de capital riesgo de fintech Ribbit, as
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Recomendaciones de temas especiales relacionados
comentario (42)
0/500
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

OpenAI adquiere la startup de finanzas personales basada en inteligencia artificial Hiro
OpenAI ha adquirido la startup de finanzas personales Hiro Finance, anunció el lunes su fundador Ethan Bloch, y OpenAI confirmó la transacción a TechCrunch. Esta startup contaba con el apoyo del destacado fondo de capital riesgo de fintech Ribbit, as
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅











