option
Maison
Nouvelles
Étude: les modèles OpenAI ont mémorisé le contenu protégé par le droit d'auteur

Étude: les modèles OpenAI ont mémorisé le contenu protégé par le droit d'auteur

10 avril 2025
265

Une étude récente suggère qu'OpenAI a peut-être effectivement utilisé du matériel protégé par des droits d'auteur pour entraîner certains de ses modèles d'IA, ajoutant du carburant aux batailles juridiques en cours auxquelles l'entreprise est confrontée. Des auteurs, des programmeurs et d'autres créateurs de contenu ont accusé OpenAI d'utiliser leurs œuvres — telles que des livres et du code — sans permission pour développer ses modèles d'IA. Alors qu'OpenAI s'est défendu en invoquant l'usage équitable, les plaignants soutiennent que la loi sur le droit d'auteur aux États-Unis ne prévoit pas d'exception pour les données d'entraînement.

L'étude, une collaboration entre des chercheurs de l'Université de Washington, de l'Université de Copenhague et de Stanford, introduit une nouvelle technique pour détecter les données d'entraînement "mémorisées" dans les modèles accessibles via une API, comme ceux d'OpenAI. Les modèles d'IA apprennent essentiellement à partir de grandes quantités de données pour reconnaître des motifs, ce qui leur permet de créer des essais, des images, et plus encore. Bien que la plupart des sorties ne soient pas des copies directes des données d'entraînement, certaines le sont inévitablement en raison du processus d'apprentissage. Par exemple, les modèles d'images ont été connus pour reproduire des captures d'écran de films, tandis que les modèles de langage ont été surpris en train de plagier essentiellement des articles de presse.

La méthode décrite dans l'étude se concentre sur les mots à "forte surprise" — des mots qui sont inhabituels dans un contexte donné. Par exemple, dans la phrase "Jack et moi sommes restés parfaitement immobiles avec le radar bourdonnant," "radar" serait un mot à forte surprise car il est moins attendu que des mots comme "moteur" ou "radio" pour précéder "bourdonnant."

Les chercheurs ont testé plusieurs modèles d'OpenAI, y compris GPT-4 et GPT-3.5, en supprimant les mots à forte surprise d'extraits de livres de fiction et d'articles du New York Times et en demandant aux modèles de prédire ces mots manquants. Si les modèles devinaient correctement les mots, cela suggérait qu'ils avaient mémorisé le texte pendant l'entraînement.

Étude sur le droit d'auteur d'OpenAI

Un exemple de faire "deviner" un mot à forte surprise par un modèle. Crédits image : OpenAI
Les résultats ont indiqué que GPT-4 avait probablement mémorisé des parties de livres de fiction populaires, y compris ceux du dataset BookMIA de livres électroniques protégés par des droits d'auteur. Il semblait également avoir mémorisé certains articles du New York Times, bien que moins fréquemment.

Abhilasha Ravichander, doctorante à l'Université de Washington et co-auteure de l'étude, a souligné à TechCrunch que ces résultats mettent en lumière les "données controversées" qui pourraient avoir été utilisées pour entraîner ces modèles. "Pour avoir des modèles de langage de grande échelle fiables, nous devons avoir des modèles que nous pouvons sonder, auditer et examiner scientifiquement," a déclaré Ravichander. "Notre travail vise à fournir un outil pour sonder les grands modèles de langage, mais il y a un réel besoin de plus grande transparence des données dans tout l'écosystème."

OpenAI a plaidé pour des règles plus souples sur l'utilisation des données protégées par des droits d'auteur pour développer des modèles d'IA. Bien que l'entreprise ait certains accords de licence de contenu et propose des options de retrait pour les détenteurs de droits d'auteur, elle a fait pression sur divers gouvernements pour établir des règles d'"usage équitable" spécifiquement pour l'entraînement d'IA.

Article connexe
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI Greg Brockman révèle comment Elon Musk a quitté OpenAI Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Le Pentagone signe des accords avec Nvidia, Microsoft et AWS pour déployer l’intelligence artificielle sur les réseaux classés. Le Pentagone signe des accords avec Nvidia, Microsoft et AWS pour déployer l’intelligence artificielle sur les réseaux classés. Après avoir précédemment conclu des accords avec Google, SpaceX et OpenAI, le Département de la Défense américain a annoncé vendredi qu’il avait signé des contrats avec Nvidia, Microsoft, Amazon Web Services et Reflection AI pour mettre en œuvre leur
Recommandations de sujets spéciaux liés
Productivité Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale
Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils
xix.ai
chatbot Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes
Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes

Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.

10 outils
xix.ai
Éducation et apprentissage Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique
Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique

Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.

10 outils
xix.ai
chatbot Les meilleurs outils d'IA pour apprendre à flirter et à converser : renforcez votre charisme social et votre confiance en vous en temps réel
Les meilleurs outils d'IA pour apprendre à flirter et à converser : renforcez votre charisme social et votre confiance en vous en temps réel

Découvrez les meilleurs outils d'entraînement au flirt et à la conversation basés sur l'IA de 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée vous aide à développer votre charisme social et votre confiance en vous en temps réel. Découvrez des outils incontournables qui changent la donne, avec des comparaisons entre versions gratuites et payantes ainsi que des classements mis à jour chaque semaine. Développez dès aujourd'hui vos compétences sociales.

10 outils
xix.ai
code Meilleurs outils d'IA pour les tests unitaires automatisés : générer des cas de test Jest, PyTest et JUnit en un clic
Meilleurs outils d'IA pour les tests unitaires automatisés : générer des cas de test Jest, PyTest et JUnit en un clic

Découvrez les derniers outils d'IA hautement réputés de 2026 pour les tests unitaires automatisés. Notre sélection rigoureusement élaborée vous propose des solutions puissantes et révolutionnaires pour générer instantanément des cas de test Jest, PyTest et JUnit. Comparez les options gratuites et payantes à l'aide de tests réels et des classements mises à jour chaque semaine sur XIX.AI. Développez un avantage concurrentiel grâce à l'IA et améliorez rapidement votre productivité en développement.

10 outils
xix.ai
Analyse des données Les meilleurs outils de visualisation de données basés sur l'IA : générez automatiquement des tableaux de bord BI interactifs à partir de fichiers bruts
Les meilleurs outils de visualisation de données basés sur l'IA : générez automatiquement des tableaux de bord BI interactifs à partir de fichiers bruts

Découvrez les meilleurs outils de visualisation de données par IA de 2026 sur XIX.AI. Notre sélection rigoureuse et hautement notée vous aide à générer instantanément et automatiquement des tableaux de bord BI puissants et interactifs à partir de fichiers bruts. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Libérez dès aujourd'hui le potentiel de vos données.

10 outils
xix.ai
commentaires (33)
0/500
JackAllen
JackAllen 30 décembre 2025 15:30:40 UTC+01:00

这篇文章提到的版权问题确实让人担忧,以后AI生成的内容会不会都带着'侵权'的标签?想想就觉得挺讽刺的,毕竟这些模型训练数据不透明,普通用户根本不知道输出里夹带了什么'私货'。希望有更严格的管理办法吧。

WilliamGonzalez
WilliamGonzalez 25 août 2025 11:01:06 UTC+02:00

This is wild! OpenAI might’ve gobbled up copyrighted stuff to train their models? I’m not shocked, but it’s kinda shady. Hope those authors and coders get some justice! 😤

GregoryBaker
GregoryBaker 23 août 2025 13:01:18 UTC+02:00

This is wild! OpenAI might've trained their models on copyrighted stuff? 😳 I wonder how many books and code snippets got swept up in that data vacuum. Ethics in AI is such a messy topic right now.

JohnGarcia
JohnGarcia 23 avril 2025 17:10:14 UTC+02:00

Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?

TimothyMitchell
TimothyMitchell 22 avril 2025 02:12:42 UTC+02:00

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔

WillLopez
WillLopez 21 avril 2025 13:49:05 UTC+02:00

오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔

OR