La IA de Openai entrenada en los libros de O'Reilly de Paywalled, afirman los investigadores

Hogar

Noticias

7 de abril de 2025

JuanThomas

218

# openai

La IA de Openai entrenada en los libros de O'Reilly de Paywalled, afirman los investigadores

Operai ha enfrentado numerosas acusaciones de usar material con derechos de autor sin permiso para entrenar sus modelos de IA. Un estudio reciente realizado por el Proyecto de divulgaciones de IA, una organización sin fines de lucro establecida en 2024 por el magnate de los medios Tim O'Reilly y el economista Ilan Strauss, sugiere que OpenAi puede haber usado libros no públicos de O'Reilly Media para capacitar a su modelo más avanzado, GPT-4O. Los modelos AI, motores de predicción esencialmente sofisticados, están entrenados en vastas conjuntos de datos que incluyen libros, películas y programas de televisión. Aprenden patrones y generan respuestas basadas en estos patrones, no crean nada verdaderamente nuevo, sino que se aproximan de su amplia base de conocimiento. A medida que las fuentes de datos del mundo real, como la red pública, se agotan, algunos laboratorios de IA, incluido OpenAI, han comenzado a usar datos generados por IA para capacitación, aunque pocos han abandonado completamente los datos del mundo real debido a los riesgos de un rendimiento del modelo degradante. El documento del Proyecto de Divulgaciones de AI afirma que el modelo GPT-4O de OpenAI, que es el valor predeterminado en ChatGPT, muestra un fuerte reconocimiento del contenido de los libros de O'Reilly de Paywalled, a diferencia del modelo Turbo GPT-3.5 anterior. El documento sugiere que GPT-4O probablemente fue capacitado en estos libros no públicos, a pesar de que los medios de comunicación de O'Reilly no tienen un acuerdo de licencia con OpenAI. El estudio empleó un método llamado Des-COP, introducido en 2024, para detectar contenido con derechos de autor en los datos de capacitación de IA. Este "ataque de inferencia de membresía" prueba si un modelo puede distinguir entre textos autorizados por los humanos y paráfrasis generadas por IA, lo que indica un conocimiento previo del texto si puede hacerlo de manera confiable. Los investigadores probaron los modelos GPT-4O, GPT-3.5 turbo y otros modelos Operai que utilizan 13,962 extractos de párrafos de 34 libros de O'Reilly, descubriendo que GPT-4O reconoció significativamente más contenido de paredes de pago que los modelos más antiguos. Si bien los autores reconocen que su método no es infalible y que el contenido de paredes podría haber sido introducido por los usuarios que copian y pegan en ChatGPT, los resultados plantean preguntas sobre las prácticas de datos de OpenAI. El estudio no evaluó los últimos modelos de Openai, como GPT-4.5 y modelos de razonamiento como O3-Mini y O1, dejando abiertos la posibilidad de que estos no hayan sido entrenados en los mismos datos. Operai ha estado presionando por leyes de derechos de autor más relajadas con respecto a los datos de capacitación de IA y ha estado buscando fuentes de datos de mayor calidad. La compañía incluso ha contratado a periodistas para que refine los resultados de sus modelos, una práctica que se ve en la industria de la IA donde los expertos en varios campos son reclutados para mejorar los sistemas de IA. Operai paga algunos de sus datos de capacitación, que tiene acuerdos de licencia con varios proveedores de contenido y ofrece mecanismos de exclusión para los propietarios de derechos de autor. Sin embargo, a medida que la compañía enfrenta desafíos legales sobre sus prácticas de datos, los hallazgos del documento O'Reilly arrojan una sombra sobre sus operaciones. Operai no respondió a las solicitudes de comentarios sobre el estudio.

Artículo relacionado

OpenAI adquiere la startup de finanzas personales basada en inteligencia artificial Hiro OpenAI ha adquirido la startup de finanzas personales Hiro Finance, anunció el lunes su fundador Ethan Bloch, y OpenAI confirmó la transacción a TechCrunch. Esta startup contaba con el apoyo del destacado fondo de capital riesgo de fintech Ribbit, as

Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos

OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf

Recomendaciones de temas especiales relacionados

SEO

Los mejores herramientas de redirección de IA y búsqueda de enlaces dañados: Reparan automáticamente los errores de rastreo para ahorrar el presupuesto dedicado a este proceso.

Descubra los mejores herramientas de redirección de IA y búsqueda de enlaces dañados de 2026 en XIX.AI. Nuestra lista seleccionada y calificada incluye herramientas poderosas que reparan automáticamente los errores de rastreo, ahorrándole así recursos. Compare opciones gratuitas y pagadas a través de pruebas reales y clasificaciones actualizadas semanalmente. ¡Encuentre la solución SEO perfecta para usted ahora mismo!

10 herramientas

xix.ai

Creación de vídeos

Los mejores creadores de vídeos con IA para podcasters: convierte ondas de audio en atractivos vídeos con rostros en primer plano

Descubre los mejores creadores de vídeos con IA para podcasters de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada y con las mejores valoraciones, incluye potentes herramientas que convierten tu audio en atractivos vídeos de «talking head» sin esfuerzo. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. Aprovecha ahora tu ventaja en la narración visual.

10 herramientas

xix.ai

chatbot

Crea tu propia historia de amor con IA gracias a estas herramientas de juego de rol

Descubre las mejores herramientas de rol basadas en IA de 2026 para crear narrativas envolventes. La selección de XIX.AI incluye potentes asistentes revolucionarios que te permitirán desarrollar una narrativa creativa y una gran profundidad emocional. Compara las opciones gratuitas con las de pago mediante pruebas reales. Empieza hoy mismo tu viaje único.

10 herramientas

xix.ai

Texto a voz

Las mejores herramientas de voz con IA para desarrolladores de videojuegos independientes: ahorra tiempo en la grabación de voces para juegos de rol y novelas visuales

¡Descubre las mejores herramientas de voz con IA de 2026 para desarrolladores de videojuegos! La lista seleccionada por XIX.AI incluye soluciones de primera categoría que marcarán un antes y un después, y que te permitirán ahorrar tiempo y dinero en la locución de juegos de rol y novelas visuales. Explora comparativas entre opciones gratuitas y de pago, pruebas en condiciones reales y clasificaciones que se actualizan semanalmente. ¡Encuentra hoy mismo tu herramienta de voz perfecta!

10 herramientas

xix.ai

Educación y aprendizaje

Los mejores herramientas de repetición espaciada con IA: optimiza los horarios de estudio para estudiantes de medicina y derecho

Descubra los mejores herramientas de repetición espacial de IA para 2026, seleccionadas por XIX.AI. Nuestras opciones más recomendadas y revolucionarias ayudan a estudiantes de medicina y derecho a optimizar sus horarios de estudio para lograr un mayor retención del conocimiento. Compare las opciones gratuitas con las pagas mediante pruebas reales y clasificaciones actualizadas semanalmente. Despliegue todo su potencial de aprendizaje ahora mismo.

10 herramientas

xix.ai

Creación de vídeos

Las mejores plataformas de IA para convertir texto en vídeo, destinadas a la redacción de guiones y la narración visual

Las mejores plataformas de IA para convertir texto en vídeo de 2026: las herramientas mejor valoradas para la redacción de guiones y la narración visual. Descubre soluciones potentes y revolucionarias para transformar tu texto en vídeos atractivos. Compara las opciones gratuitas con las de pago gracias a nuestras clasificaciones, que se actualizan semanalmente, y a nuestras pruebas en condiciones reales. Encuentra la plataforma perfecta para potenciar tu creatividad y productividad. Explora la selección cuidada de XIX.AI.

10 herramientas

xix.ai

comentario (42)

0/500

Inicie sesión primero

RichardJackson

16 de noviembre de 2025 15:30:37 GMT+01:00

こんなことされてしまうと、著作権料を払って制作している出版社側はたまったもんじゃないよね…AIの学習データの透明性、もっと求められるべきだと思う。🤔

PeterNelson

31 de julio de 2025 13:35:39 GMT+02:00

This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

HarperJones

23 de abril de 2025 04:24:27 GMT+02:00

OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔

WalterWhite

18 de abril de 2025 21:33:48 GMT+02:00

OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも？🤔

BruceClark

18 de abril de 2025 04:02:34 GMT+02:00

OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔

DennisGarcia

18 de abril de 2025 03:58:35 GMT+02:00

I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔

Noticias principales

AI Builder y Power Automate Revolucionan la Sumarización de Documentos Los anfitriones de AI del podcast Notebooklm ahora están disponibles para entrevistas China presenta su robot humanoide nacional y sus estándares de inteligencia incorporada Los datos de Ramp revelan un estancamiento en la adopción de la IA por parte de las empresas Guía de creación de arte con el creador de imágenes de Bing Aprende a crear música de IA usando tu voz: un tutorial de Suno paso a paso iMyFone MagicMic: Revisión y Tutorial de Cambio de Voz AI en Tiempo Real Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Embodied Intelligence presenta la primera norma del sector para frenar el crecimiento descontrolado DeepSeek V4 surge como un revolucionario sistema de IA multimodal

Más

Presentado