Étude: les modèles OpenAI ont mémorisé le contenu protégé par le droit d'auteur
Une étude récente suggère qu'OpenAI a peut-être effectivement utilisé du matériel protégé par des droits d'auteur pour entraîner certains de ses modèles d'IA, ajoutant du carburant aux batailles juridiques en cours auxquelles l'entreprise est confrontée. Des auteurs, des programmeurs et d'autres créateurs de contenu ont accusé OpenAI d'utiliser leurs œuvres — telles que des livres et du code — sans permission pour développer ses modèles d'IA. Alors qu'OpenAI s'est défendu en invoquant l'usage équitable, les plaignants soutiennent que la loi sur le droit d'auteur aux États-Unis ne prévoit pas d'exception pour les données d'entraînement.
L'étude, une collaboration entre des chercheurs de l'Université de Washington, de l'Université de Copenhague et de Stanford, introduit une nouvelle technique pour détecter les données d'entraînement "mémorisées" dans les modèles accessibles via une API, comme ceux d'OpenAI. Les modèles d'IA apprennent essentiellement à partir de grandes quantités de données pour reconnaître des motifs, ce qui leur permet de créer des essais, des images, et plus encore. Bien que la plupart des sorties ne soient pas des copies directes des données d'entraînement, certaines le sont inévitablement en raison du processus d'apprentissage. Par exemple, les modèles d'images ont été connus pour reproduire des captures d'écran de films, tandis que les modèles de langage ont été surpris en train de plagier essentiellement des articles de presse.
La méthode décrite dans l'étude se concentre sur les mots à "forte surprise" — des mots qui sont inhabituels dans un contexte donné. Par exemple, dans la phrase "Jack et moi sommes restés parfaitement immobiles avec le radar bourdonnant," "radar" serait un mot à forte surprise car il est moins attendu que des mots comme "moteur" ou "radio" pour précéder "bourdonnant."
Les chercheurs ont testé plusieurs modèles d'OpenAI, y compris GPT-4 et GPT-3.5, en supprimant les mots à forte surprise d'extraits de livres de fiction et d'articles du New York Times et en demandant aux modèles de prédire ces mots manquants. Si les modèles devinaient correctement les mots, cela suggérait qu'ils avaient mémorisé le texte pendant l'entraînement.

Un exemple de faire "deviner" un mot à forte surprise par un modèle. Crédits image : OpenAI Les résultats ont indiqué que GPT-4 avait probablement mémorisé des parties de livres de fiction populaires, y compris ceux du dataset BookMIA de livres électroniques protégés par des droits d'auteur. Il semblait également avoir mémorisé certains articles du New York Times, bien que moins fréquemment.Abhilasha Ravichander, doctorante à l'Université de Washington et co-auteure de l'étude, a souligné à TechCrunch que ces résultats mettent en lumière les "données controversées" qui pourraient avoir été utilisées pour entraîner ces modèles. "Pour avoir des modèles de langage de grande échelle fiables, nous devons avoir des modèles que nous pouvons sonder, auditer et examiner scientifiquement," a déclaré Ravichander. "Notre travail vise à fournir un outil pour sonder les grands modèles de langage, mais il y a un réel besoin de plus grande transparence des données dans tout l'écosystème."
OpenAI a plaidé pour des règles plus souples sur l'utilisation des données protégées par des droits d'auteur pour développer des modèles d'IA. Bien que l'entreprise ait certains accords de licence de contenu et propose des options de retrait pour les détenteurs de droits d'auteur, elle a fait pression sur divers gouvernements pour établir des règles d'"usage équitable" spécifiquement pour l'entraînement d'IA.
Article connexe
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Le Pentagone signe des accords avec Nvidia, Microsoft et AWS pour déployer l’intelligence artificielle sur les réseaux classés.
Après avoir précédemment conclu des accords avec Google, SpaceX et OpenAI, le Département de la Défense américain a annoncé vendredi qu’il avait signé des contrats avec Nvidia, Microsoft, Amazon Web Services et Reflection AI pour mettre en œuvre leur
Recommandations de sujets spéciaux liés
commentaires (33)
这篇文章提到的版权问题确实让人担忧,以后AI生成的内容会不会都带着'侵权'的标签?想想就觉得挺讽刺的,毕竟这些模型训练数据不透明,普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。
This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤
This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.
Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔
Une étude récente suggère qu'OpenAI a peut-être effectivement utilisé du matériel protégé par des droits d'auteur pour entraîner certains de ses modèles d'IA, ajoutant du carburant aux batailles juridiques en cours auxquelles l'entreprise est confrontée. Des auteurs, des programmeurs et d'autres créateurs de contenu ont accusé OpenAI d'utiliser leurs œuvres — telles que des livres et du code — sans permission pour développer ses modèles d'IA. Alors qu'OpenAI s'est défendu en invoquant l'usage équitable, les plaignants soutiennent que la loi sur le droit d'auteur aux États-Unis ne prévoit pas d'exception pour les données d'entraînement.
L'étude, une collaboration entre des chercheurs de l'Université de Washington, de l'Université de Copenhague et de Stanford, introduit une nouvelle technique pour détecter les données d'entraînement "mémorisées" dans les modèles accessibles via une API, comme ceux d'OpenAI. Les modèles d'IA apprennent essentiellement à partir de grandes quantités de données pour reconnaître des motifs, ce qui leur permet de créer des essais, des images, et plus encore. Bien que la plupart des sorties ne soient pas des copies directes des données d'entraînement, certaines le sont inévitablement en raison du processus d'apprentissage. Par exemple, les modèles d'images ont été connus pour reproduire des captures d'écran de films, tandis que les modèles de langage ont été surpris en train de plagier essentiellement des articles de presse.
La méthode décrite dans l'étude se concentre sur les mots à "forte surprise" — des mots qui sont inhabituels dans un contexte donné. Par exemple, dans la phrase "Jack et moi sommes restés parfaitement immobiles avec le radar bourdonnant," "radar" serait un mot à forte surprise car il est moins attendu que des mots comme "moteur" ou "radio" pour précéder "bourdonnant."
Les chercheurs ont testé plusieurs modèles d'OpenAI, y compris GPT-4 et GPT-3.5, en supprimant les mots à forte surprise d'extraits de livres de fiction et d'articles du New York Times et en demandant aux modèles de prédire ces mots manquants. Si les modèles devinaient correctement les mots, cela suggérait qu'ils avaient mémorisé le texte pendant l'entraînement.

Abhilasha Ravichander, doctorante à l'Université de Washington et co-auteure de l'étude, a souligné à TechCrunch que ces résultats mettent en lumière les "données controversées" qui pourraient avoir été utilisées pour entraîner ces modèles. "Pour avoir des modèles de langage de grande échelle fiables, nous devons avoir des modèles que nous pouvons sonder, auditer et examiner scientifiquement," a déclaré Ravichander. "Notre travail vise à fournir un outil pour sonder les grands modèles de langage, mais il y a un réel besoin de plus grande transparence des données dans tout l'écosystème."
OpenAI a plaidé pour des règles plus souples sur l'utilisation des données protégées par des droits d'auteur pour développer des modèles d'IA. Bien que l'entreprise ait certains accords de licence de contenu et propose des options de retrait pour les détenteurs de droits d'auteur, elle a fait pression sur divers gouvernements pour établir des règles d'"usage équitable" spécifiquement pour l'entraînement d'IA.
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Le Pentagone signe des accords avec Nvidia, Microsoft et AWS pour déployer l’intelligence artificielle sur les réseaux classés.
Après avoir précédemment conclu des accords avec Google, SpaceX et OpenAI, le Département de la Défense américain a annoncé vendredi qu’il avait signé des contrats avec Nvidia, Microsoft, Amazon Web Services et Reflection AI pour mettre en œuvre leur
这篇文章提到的版权问题确实让人担忧,以后AI生成的内容会不会都带着'侵权'的标签?想想就觉得挺讽刺的,毕竟这些模型训练数据不透明,普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。
This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤
This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.
Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?
OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔





Maison






