La IA de Openai entrenada en los libros de O'Reilly de Paywalled, afirman los investigadores

Operai ha enfrentado numerosas acusaciones de usar material con derechos de autor sin permiso para entrenar sus modelos de IA. Un estudio reciente realizado por el Proyecto de divulgaciones de IA, una organización sin fines de lucro establecida en 2024 por el magnate de los medios Tim O'Reilly y el economista Ilan Strauss, sugiere que OpenAi puede haber usado libros no públicos de O'Reilly Media para capacitar a su modelo más avanzado, GPT-4O. Los modelos AI, motores de predicción esencialmente sofisticados, están entrenados en vastas conjuntos de datos que incluyen libros, películas y programas de televisión. Aprenden patrones y generan respuestas basadas en estos patrones, no crean nada verdaderamente nuevo, sino que se aproximan de su amplia base de conocimiento. A medida que las fuentes de datos del mundo real, como la red pública, se agotan, algunos laboratorios de IA, incluido OpenAI, han comenzado a usar datos generados por IA para capacitación, aunque pocos han abandonado completamente los datos del mundo real debido a los riesgos de un rendimiento del modelo degradante. El documento del Proyecto de Divulgaciones de AI afirma que el modelo GPT-4O de OpenAI, que es el valor predeterminado en ChatGPT, muestra un fuerte reconocimiento del contenido de los libros de O'Reilly de Paywalled, a diferencia del modelo Turbo GPT-3.5 anterior. El documento sugiere que GPT-4O probablemente fue capacitado en estos libros no públicos, a pesar de que los medios de comunicación de O'Reilly no tienen un acuerdo de licencia con OpenAI. El estudio empleó un método llamado Des-COP, introducido en 2024, para detectar contenido con derechos de autor en los datos de capacitación de IA. Este "ataque de inferencia de membresía" prueba si un modelo puede distinguir entre textos autorizados por los humanos y paráfrasis generadas por IA, lo que indica un conocimiento previo del texto si puede hacerlo de manera confiable. Los investigadores probaron los modelos GPT-4O, GPT-3.5 turbo y otros modelos Operai que utilizan 13,962 extractos de párrafos de 34 libros de O'Reilly, descubriendo que GPT-4O reconoció significativamente más contenido de paredes de pago que los modelos más antiguos. Si bien los autores reconocen que su método no es infalible y que el contenido de paredes podría haber sido introducido por los usuarios que copian y pegan en ChatGPT, los resultados plantean preguntas sobre las prácticas de datos de OpenAI. El estudio no evaluó los últimos modelos de Openai, como GPT-4.5 y modelos de razonamiento como O3-Mini y O1, dejando abiertos la posibilidad de que estos no hayan sido entrenados en los mismos datos. Operai ha estado presionando por leyes de derechos de autor más relajadas con respecto a los datos de capacitación de IA y ha estado buscando fuentes de datos de mayor calidad. La compañía incluso ha contratado a periodistas para que refine los resultados de sus modelos, una práctica que se ve en la industria de la IA donde los expertos en varios campos son reclutados para mejorar los sistemas de IA. Operai paga algunos de sus datos de capacitación, que tiene acuerdos de licencia con varios proveedores de contenido y ofrece mecanismos de exclusión para los propietarios de derechos de autor. Sin embargo, a medida que la compañía enfrenta desafíos legales sobre sus prácticas de datos, los hallazgos del documento O'Reilly arrojan una sombra sobre sus operaciones. Operai no respondió a las solicitudes de comentarios sobre el estudio.
Artículo relacionado
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas
Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
SoftBank Adquiere Fábrica de Sharp por $676M para Centro de Datos de IA en Japón
SoftBank avanza en su objetivo de establecer un gran centro de IA en Japón, tanto de forma independiente como a través de asociaciones como OpenAI. El gigante tecnológico confirmó el viernes que inver
Adobe y Figma Integran el Modelo Avanzado de Generación de Imágenes de OpenAI
La generación de imágenes mejorada de OpenAI en ChatGPT ha impulsado un aumento en los usuarios, impulsado por su capacidad para producir visuales al estilo Studio Ghibli y diseños únicos, y ahora se
comentario (41)
0/200
PeterNelson
31 de julio de 2025 13:35:39 GMT+02:00
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅
0
HarperJones
23 de abril de 2025 04:24:27 GMT+02:00
OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔
0
WalterWhite
18 de abril de 2025 21:33:48 GMT+02:00
OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔
0
BruceClark
18 de abril de 2025 04:02:34 GMT+02:00
OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔
0
DennisGarcia
18 de abril de 2025 03:58:35 GMT+02:00
I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔
0
AvaHill
16 de abril de 2025 20:00:26 GMT+02:00
Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔
0


This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅




OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔




OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔




OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔




I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔




Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔












