opción
Hogar Noticias La IA de Openai entrenada en los libros de O'Reilly de Paywalled, afirman los investigadores

La IA de Openai entrenada en los libros de O'Reilly de Paywalled, afirman los investigadores

Fecha de lanzamiento Fecha de lanzamiento 7 de abril de 2025
Autor Autor JuanThomas
vistas vistas 94

La IA de Openai entrenada en los libros de O'Reilly de Paywalled, afirman los investigadores

Operai ha enfrentado numerosas acusaciones de usar material con derechos de autor sin permiso para entrenar sus modelos de IA. Un estudio reciente realizado por el Proyecto de divulgaciones de IA, una organización sin fines de lucro establecida en 2024 por el magnate de los medios Tim O'Reilly y el economista Ilan Strauss, sugiere que OpenAi puede haber usado libros no públicos de O'Reilly Media para capacitar a su modelo más avanzado, GPT-4O. Los modelos AI, motores de predicción esencialmente sofisticados, están entrenados en vastas conjuntos de datos que incluyen libros, películas y programas de televisión. Aprenden patrones y generan respuestas basadas en estos patrones, no crean nada verdaderamente nuevo, sino que se aproximan de su amplia base de conocimiento. A medida que las fuentes de datos del mundo real, como la red pública, se agotan, algunos laboratorios de IA, incluido OpenAI, han comenzado a usar datos generados por IA para capacitación, aunque pocos han abandonado completamente los datos del mundo real debido a los riesgos de un rendimiento del modelo degradante. El documento del Proyecto de Divulgaciones de AI afirma que el modelo GPT-4O de OpenAI, que es el valor predeterminado en ChatGPT, muestra un fuerte reconocimiento del contenido de los libros de O'Reilly de Paywalled, a diferencia del modelo Turbo GPT-3.5 anterior. El documento sugiere que GPT-4O probablemente fue capacitado en estos libros no públicos, a pesar de que los medios de comunicación de O'Reilly no tienen un acuerdo de licencia con OpenAI. El estudio empleó un método llamado Des-COP, introducido en 2024, para detectar contenido con derechos de autor en los datos de capacitación de IA. Este "ataque de inferencia de membresía" prueba si un modelo puede distinguir entre textos autorizados por los humanos y paráfrasis generadas por IA, lo que indica un conocimiento previo del texto si puede hacerlo de manera confiable. Los investigadores probaron los modelos GPT-4O, GPT-3.5 turbo y otros modelos Operai que utilizan 13,962 extractos de párrafos de 34 libros de O'Reilly, descubriendo que GPT-4O reconoció significativamente más contenido de paredes de pago que los modelos más antiguos. Si bien los autores reconocen que su método no es infalible y que el contenido de paredes podría haber sido introducido por los usuarios que copian y pegan en ChatGPT, los resultados plantean preguntas sobre las prácticas de datos de OpenAI. El estudio no evaluó los últimos modelos de Openai, como GPT-4.5 y modelos de razonamiento como O3-Mini y O1, dejando abiertos la posibilidad de que estos no hayan sido entrenados en los mismos datos. Operai ha estado presionando por leyes de derechos de autor más relajadas con respecto a los datos de capacitación de IA y ha estado buscando fuentes de datos de mayor calidad. La compañía incluso ha contratado a periodistas para que refine los resultados de sus modelos, una práctica que se ve en la industria de la IA donde los expertos en varios campos son reclutados para mejorar los sistemas de IA. Operai paga algunos de sus datos de capacitación, que tiene acuerdos de licencia con varios proveedores de contenido y ofrece mecanismos de exclusión para los propietarios de derechos de autor. Sin embargo, a medida que la compañía enfrenta desafíos legales sobre sus prácticas de datos, los hallazgos del documento O'Reilly arrojan una sombra sobre sus operaciones. Operai no respondió a las solicitudes de comentarios sobre el estudio.
Artículo relacionado
Tìm kiếm Google giới thiệu 'chế độ AI' cho các truy vấn phức tạp, đa phần Tìm kiếm Google giới thiệu 'chế độ AI' cho các truy vấn phức tạp, đa phần Google tiết lộ "Chế độ AI" khi tìm kiếm đối thủ Perplexity AI và Chatgptgoogle đang đẩy mạnh trò chơi của mình trong AI Arena với sự ra mắt của tính năng "AI Mode" thử nghiệm trong công cụ tìm kiếm. Nhằm mục đích tham gia vào tìm kiếm của Perplexity AI và Openai, chế độ mới này đã được công bố vào Wed
Việc sử dụng tên người dùng không được yêu cầu của Chats Việc sử dụng tên người dùng không được yêu cầu của Chats Một số người dùng Chatgpt gần đây đã gặp phải một tính năng mới kỳ lạ: Chatbot thỉnh thoảng sử dụng tên của họ trong khi làm việc thông qua các vấn đề. Đây không phải là một phần của hành vi thông thường của nó trước đây và nhiều người dùng báo cáo rằng TATGPT đề cập đến tên của họ mà không bao giờ được nói những gì cần gọi họ. Ý kiến ​​về
Openai tăng cường Chatgpt để nhớ lại các cuộc hội thoại trước đó Openai tăng cường Chatgpt để nhớ lại các cuộc hội thoại trước đó Openai đã đưa ra một thông báo lớn vào thứ năm về việc tung ra một tính năng mới trong TATGPT có tên là "Bộ nhớ". Công cụ tiện lợi này được thiết kế để làm cho các cuộc trò chuyện của bạn với AI được cá nhân hóa hơn bằng cách ghi nhớ những gì bạn đã nói trước đây. Hãy tưởng tượng không phải lặp lại bản thân mỗi khi bạn bắt đầu một cuộc truyền đạt mới
comentario (40)
0/200
RoyPerez
RoyPerez 11 de abril de 2025 04:31:26 GMT

So, OpenAI's AI got trained on paywalled books? That's a bit shady, isn't it? I mean, I love the tech, but using copyrighted material without permission? Come on, OpenAI, you can do better than that. Maybe they should focus on creating their own content instead.

KeithGonzález
KeithGonzález 10 de abril de 2025 19:27:39 GMT

オープンAIのAIが有料の本で訓練されたって?ちょっと怪しいよね?技術は好きだけど、許可なく著作権物を使うなんて。オープンAI、もっとできるはずだよ。自分のコンテンツを作ることに集中すべきだね。

MatthewHill
MatthewHill 7 de abril de 2025 19:28:56 GMT

오픈AI의 AI가 유료 책으로 훈련되었다고요? 좀 수상하죠? 기술은 좋아하지만, 허락 없이 저작권이 있는 자료를 사용하다니요. 오픈AI, 더 잘할 수 있어요. 자신의 콘텐츠를 만드는 데 집중해야 해요.

BenWalker
BenWalker 9 de abril de 2025 13:31:14 GMT

Então, a IA da OpenAI foi treinada com livros pagos? Isso é um pouco suspeito, não é? Eu gosto da tecnologia, mas usar material com direitos autorais sem permissão? Vamos, OpenAI, você pode fazer melhor do que isso. Talvez eles deveriam se concentrar em criar seu próprio conteúdo.

FrankMartínez
FrankMartínez 9 de abril de 2025 10:03:15 GMT

¿Así que la IA de OpenAI fue entrenada con libros de pago? Eso es un poco sospechoso, ¿no? Me gusta la tecnología, pero usar material con derechos de autor sin permiso... Vamos, OpenAI, puedes hacerlo mejor. Tal vez deberían centrarse en crear su propio contenido.

LarryHernández
LarryHernández 10 de abril de 2025 06:32:40 GMT

I'm torn about OpenAI using O’Reilly books to train their AI. On one hand, it's impressive how advanced their models are getting. On the other, it feels a bit shady to use paywalled content. I guess innovation sometimes walks a fine line, huh? Maybe they should just pay for the books next time!

Volver arriba
OR