Estudio: los modelos de OpenAI memorizaron contenido con derechos de autor
Un estudio reciente sugiere que OpenAi puede haber usado material con derechos de autor para capacitar a algunos de sus modelos de IA, agregando combustible a las batallas legales en curso que enfrenta la compañía. Los autores, programadores y otros creadores de contenido han acusado a OpenAi de usar sus obras, como libros y código, sin permiso para desarrollar sus modelos AI. Si bien OpenAi se ha defendido al reclamar un uso justo, los demandantes argumentan que la ley de derechos de autor de EE. UU. No proporciona una excepción para los datos de capacitación.
El estudio, una colaboración entre investigadores de la Universidad de Washington, la Universidad de Copenhague y Stanford, introduce una nueva técnica para detectar datos de capacitación "memorizados" en modelos a los que se accede a través de una API, como los de OpenAI. Los modelos de IA esencialmente aprenden de grandes cantidades de datos para reconocer patrones, permitiéndoles crear ensayos, imágenes y más. Aunque la mayoría de los resultados no son copias directas de los datos de capacitación, algunos inevitablemente se deben al proceso de aprendizaje. Por ejemplo, se sabe que los modelos de imagen reproducen capturas de pantalla de películas, mientras que los modelos de idiomas han sido atrapados esencialmente que los artículos de noticias plagiaron.
El método descrito en el estudio se centra en palabras de "alta expresión", palabras que son inusuales en un contexto dado. Por ejemplo, en la oración "Jack y yo nos quedamos perfectamente quietas con el zumbido del radar," "radar" sería una palabra de alta expresal porque es menos esperado que palabras como "motor" o "radio" para preceder "tarareando".
Los investigadores probaron varios modelos OpenAI, incluidos GPT-4 y GPT-3.5, al eliminar las palabras de alta expresal de extractos de libros de ficción y artículos del New York Times y pedirles a los modelos que predicen estas palabras faltantes. Si los modelos adivinaron con precisión las palabras, sugirió que habían memorizado el texto durante el entrenamiento.

Un ejemplo de tener un modelo "adivinar" una palabra de alta expresal. Créditos de imagen: OpenAI Los resultados indicaron que GPT-4 probablemente había memorizado partes de los libros de ficción populares, incluidos los del conjunto de datos Bookmia de los libros electrónicos con derechos de autor. También parecía haber memorizado algunos artículos del New York Times, aunque a una frecuencia más baja.
Abhilasha Ravichander, estudiante de doctorado en la Universidad de Washington y coautora del estudio, enfatizó a TechCrunch que estos hallazgos destacan los "datos contenciosos" que podrían haberse utilizado para capacitar a estos modelos. "Para tener modelos de idiomas grandes que sean confiables, necesitamos tener modelos que podamos sondear, auditar y examinar científicamente", dijo Ravichander. "Nuestro trabajo tiene como objetivo proporcionar una herramienta para sondear modelos de idiomas grandes, pero existe una necesidad real de una mayor transparencia de datos en todo el ecosistema".
Operai ha presionado para reglas más relajadas sobre el uso de datos con derechos de autor para desarrollar modelos de IA. Aunque la compañía tiene algunos acuerdos de licencia de contenido y ofrece opciones de exclusión para los titulares de derechos de autor, ha presionado a varios gobiernos para establecer reglas de "uso justo" específicamente para la capacitación de IA.
Artículo relacionado
OpenAI mejora el modelo de IA detrás de su Operator Agent
OpenAI lleva a Operator al siguiente nivelOpenAI está dando una gran actualización a su agente de IA autónomo, Operator. Los próximos cambios significan que Operator pronto funcion
El modelo o3 de IA de OpenAI obtiene una puntuación más baja en la prueba de referencia de lo que se sugirió inicialmente
Por qué las discrepancias en las pruebas de rendimiento importan en la IACuando se trata de IA, los números suelen contar la historia, y a veces esos números no cuadran del todo. T
Ziff Davis demanda a OpenAI por violación de derechos de autor
Ziff Davis presenta una demanda por infracción de derechos de autor contra OpenAIEn un movimiento que ha causado conmoción en los mundos de la tecnología y la publicación, Ziff Dav
comentario (30)
0/200
AlbertHernández
15 de abril de 2025 00:00:00 GMT
This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔
0
TimothyMitchell
22 de abril de 2025 00:00:00 GMT
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
0
WillLopez
21 de abril de 2025 00:00:00 GMT
오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔
0
JamesMiller
11 de abril de 2025 00:00:00 GMT
Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔
0
BruceSmith
13 de abril de 2025 00:00:00 GMT
Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔
0
JohnWilson
18 de abril de 2025 00:00:00 GMT
This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞
0
Un estudio reciente sugiere que OpenAi puede haber usado material con derechos de autor para capacitar a algunos de sus modelos de IA, agregando combustible a las batallas legales en curso que enfrenta la compañía. Los autores, programadores y otros creadores de contenido han acusado a OpenAi de usar sus obras, como libros y código, sin permiso para desarrollar sus modelos AI. Si bien OpenAi se ha defendido al reclamar un uso justo, los demandantes argumentan que la ley de derechos de autor de EE. UU. No proporciona una excepción para los datos de capacitación.
El estudio, una colaboración entre investigadores de la Universidad de Washington, la Universidad de Copenhague y Stanford, introduce una nueva técnica para detectar datos de capacitación "memorizados" en modelos a los que se accede a través de una API, como los de OpenAI. Los modelos de IA esencialmente aprenden de grandes cantidades de datos para reconocer patrones, permitiéndoles crear ensayos, imágenes y más. Aunque la mayoría de los resultados no son copias directas de los datos de capacitación, algunos inevitablemente se deben al proceso de aprendizaje. Por ejemplo, se sabe que los modelos de imagen reproducen capturas de pantalla de películas, mientras que los modelos de idiomas han sido atrapados esencialmente que los artículos de noticias plagiaron.
El método descrito en el estudio se centra en palabras de "alta expresión", palabras que son inusuales en un contexto dado. Por ejemplo, en la oración "Jack y yo nos quedamos perfectamente quietas con el zumbido del radar," "radar" sería una palabra de alta expresal porque es menos esperado que palabras como "motor" o "radio" para preceder "tarareando".
Los investigadores probaron varios modelos OpenAI, incluidos GPT-4 y GPT-3.5, al eliminar las palabras de alta expresal de extractos de libros de ficción y artículos del New York Times y pedirles a los modelos que predicen estas palabras faltantes. Si los modelos adivinaron con precisión las palabras, sugirió que habían memorizado el texto durante el entrenamiento.
Abhilasha Ravichander, estudiante de doctorado en la Universidad de Washington y coautora del estudio, enfatizó a TechCrunch que estos hallazgos destacan los "datos contenciosos" que podrían haberse utilizado para capacitar a estos modelos. "Para tener modelos de idiomas grandes que sean confiables, necesitamos tener modelos que podamos sondear, auditar y examinar científicamente", dijo Ravichander. "Nuestro trabajo tiene como objetivo proporcionar una herramienta para sondear modelos de idiomas grandes, pero existe una necesidad real de una mayor transparencia de datos en todo el ecosistema".
Operai ha presionado para reglas más relajadas sobre el uso de datos con derechos de autor para desarrollar modelos de IA. Aunque la compañía tiene algunos acuerdos de licencia de contenido y ofrece opciones de exclusión para los titulares de derechos de autor, ha presionado a varios gobiernos para establecer reglas de "uso justo" específicamente para la capacitación de IA.




This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔




OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔




오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔




Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔




Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔




This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞












