Étude: les modèles OpenAI ont mémorisé le contenu protégé par le droit d'auteur
10 avril 2025
RonaldHernández
44
Une étude récente suggère qu'OpenAI a peut-être utilisé du matériel protégé par le droit d'auteur pour former certains de ses modèles d'IA, ajoutant du carburant aux batailles juridiques en cours auxquelles l'entreprise est confrontée. Les auteurs, les programmeurs et autres créateurs de contenu ont accusé Openai d'utiliser leurs œuvres - comme des livres et du code - sans autorisation de développer ses modèles d'IA. Alors qu'Openai s'est défendu en réclamant une utilisation équitable, les plaignants soutiennent que la loi sur le droit d'auteur américain ne fournit pas d'exception pour la formation des données.
L'étude, une collaboration entre des chercheurs de l'Université de Washington, de l'Université de Copenhague et de Stanford, présente une nouvelle technique pour détecter les données de formation "mémorisées" dans des modèles accessibles via une API, comme celles d'Openai. Les modèles AI apprennent essentiellement de grandes quantités de données pour reconnaître les modèles, leur permettant de créer des essais, des images, etc. Bien que la plupart des résultats ne soient pas des copies directes des données de formation, certaines sont inévitablement dues au processus d'apprentissage. Par exemple, les modèles d'images sont connus pour reproduire des captures d'écran de film, tandis que les modèles de langage ont été capturés essentiellement plagier des articles de presse.
La méthode décrite dans l'étude se concentre sur les mots «à haute tension» - des mots inhabituels dans un contexte donné. Par exemple, dans la phrase "Jack et moi nous sommes assis parfaitement toujours avec le bourdonnement radar," "radar" serait un mot à haut surprise parce qu'il est moins attendu que des mots comme "moteur" ou "radio" pour précéder "bourdonnement".
Les chercheurs ont testé plusieurs modèles OpenAI, dont GPT-4 et GPT-3.5, en supprimant les mots à haute teneur en extraits de livres de fiction et des articles du New York Times et en demandant aux modèles de prédire ces mots manquants. Si les modèles devinaient avec précision les mots, cela suggère qu'ils avaient mémorisé le texte pendant la formation.

Un exemple d'avoir un modèle «devinez» un mot à haut surprise. Crédits d'image: OpenAI Les résultats ont indiqué que le GPT-4 avait probablement mémorisé des parties de livres de fiction populaires, y compris ceux de l'ensemble de données de bookmia des livres électroniques protégés par le droit d'auteur. Il semblait également avoir mémorisé certains articles du New York Times, mais à une fréquence plus basse.
Abhilasha Ravichander, doctorante à l'Université de Washington et co-auteur de l'étude, a souligné à TechCrunch que ces résultats mettent en évidence les "données controversées" qui auraient pu être utilisées pour former ces modèles. "Afin d'avoir de grands modèles de langage qui sont dignes de confiance, nous devons avoir des modèles que nous pouvons sonder et auditer et examiner scientifiquement", a déclaré Ravichander. "Notre travail vise à fournir un outil pour sonder de grands modèles de langue, mais il existe un réel besoin d'une plus grande transparence de données dans tout l'écosystème."
OpenAI a fait pression pour des règles plus assouplies sur l'utilisation des données protégées par le droit d'auteur pour développer des modèles d'IA. Bien que l'entreprise ait des accords de licence de contenu et propose des options de désactivation pour les détenteurs de droits d'auteur, il a fait pression sur divers gouvernements pour établir des règles "Utilisation équitable" spécifiquement pour la formation de l'IA.
Article connexe
Google Search présente le «mode AI» pour les requêtes complexes et multi-parties
Google dévoile le "mode AI" dans la recherche pour rivaliser avec perplexité AI et ChatgptGoogle intensifie son jeu dans l'arène AI avec le lancement d'une fonction expérimentale "Mode AI" dans son moteur de recherche. Visant à prendre des goûts de perplexity AI et de la recherche Chatgpt d'Openai, ce nouveau mode a été annoncé le mercredi
L'utilisation non sollicitée par Chatgpt des noms d'utilisateurs étimule les préoccupations «effrayantes» parmi certains
Certains utilisateurs de Chatgpt ont récemment rencontré une nouvelle fonctionnalité étrange: le chatbot utilise occasionnellement leur nom tout en travaillant sur des problèmes. Cela ne faisait pas partie de son comportement habituel auparavant, et de nombreux utilisateurs signalent que Chatgpt mentionne leurs noms sans jamais leur dire comment les appeler. Opinions sur
Openai améliore le chatppt pour rappeler les conversations précédentes
Openai a fait une grande annonce jeudi à propos de déployer une nouvelle fonctionnalité dans Chatgpt intitulée "Memory". Cet outil Nifty est conçu pour rendre vos conversations avec l'IA plus personnalisées en se souvenant de ce dont vous avez déjà parlé. Imaginez de ne pas avoir à vous répéter chaque fois que vous commencez un nouveau conve
commentaires (20)
0/200
AlbertHernández
14 avril 2025 21:39:34 UTC
This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔
0
TimothyMitchell
22 avril 2025 00:12:42 UTC
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
0
WillLopez
21 avril 2025 11:49:05 UTC
오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔
0
JamesMiller
10 avril 2025 18:07:57 UTC
Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔
0
BruceSmith
13 avril 2025 01:01:58 UTC
Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔
0
JohnWilson
17 avril 2025 17:16:23 UTC
This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞
0






Une étude récente suggère qu'OpenAI a peut-être utilisé du matériel protégé par le droit d'auteur pour former certains de ses modèles d'IA, ajoutant du carburant aux batailles juridiques en cours auxquelles l'entreprise est confrontée. Les auteurs, les programmeurs et autres créateurs de contenu ont accusé Openai d'utiliser leurs œuvres - comme des livres et du code - sans autorisation de développer ses modèles d'IA. Alors qu'Openai s'est défendu en réclamant une utilisation équitable, les plaignants soutiennent que la loi sur le droit d'auteur américain ne fournit pas d'exception pour la formation des données.
L'étude, une collaboration entre des chercheurs de l'Université de Washington, de l'Université de Copenhague et de Stanford, présente une nouvelle technique pour détecter les données de formation "mémorisées" dans des modèles accessibles via une API, comme celles d'Openai. Les modèles AI apprennent essentiellement de grandes quantités de données pour reconnaître les modèles, leur permettant de créer des essais, des images, etc. Bien que la plupart des résultats ne soient pas des copies directes des données de formation, certaines sont inévitablement dues au processus d'apprentissage. Par exemple, les modèles d'images sont connus pour reproduire des captures d'écran de film, tandis que les modèles de langage ont été capturés essentiellement plagier des articles de presse.
La méthode décrite dans l'étude se concentre sur les mots «à haute tension» - des mots inhabituels dans un contexte donné. Par exemple, dans la phrase "Jack et moi nous sommes assis parfaitement toujours avec le bourdonnement radar," "radar" serait un mot à haut surprise parce qu'il est moins attendu que des mots comme "moteur" ou "radio" pour précéder "bourdonnement".
Les chercheurs ont testé plusieurs modèles OpenAI, dont GPT-4 et GPT-3.5, en supprimant les mots à haute teneur en extraits de livres de fiction et des articles du New York Times et en demandant aux modèles de prédire ces mots manquants. Si les modèles devinaient avec précision les mots, cela suggère qu'ils avaient mémorisé le texte pendant la formation.
Abhilasha Ravichander, doctorante à l'Université de Washington et co-auteur de l'étude, a souligné à TechCrunch que ces résultats mettent en évidence les "données controversées" qui auraient pu être utilisées pour former ces modèles. "Afin d'avoir de grands modèles de langage qui sont dignes de confiance, nous devons avoir des modèles que nous pouvons sonder et auditer et examiner scientifiquement", a déclaré Ravichander. "Notre travail vise à fournir un outil pour sonder de grands modèles de langue, mais il existe un réel besoin d'une plus grande transparence de données dans tout l'écosystème."
OpenAI a fait pression pour des règles plus assouplies sur l'utilisation des données protégées par le droit d'auteur pour développer des modèles d'IA. Bien que l'entreprise ait des accords de licence de contenu et propose des options de désactivation pour les détenteurs de droits d'auteur, il a fait pression sur divers gouvernements pour établir des règles "Utilisation équitable" spécifiquement pour la formation de l'IA.




This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔




OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔




오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔




Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔




Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔




This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞












