Étude: les modèles OpenAI ont mémorisé le contenu protégé par le droit d'auteur

Maison

Nouvelles

10 avril 2025

RonaldHernández

154

# openai # Study

Une étude récente suggère qu'OpenAI a peut-être effectivement utilisé du matériel protégé par des droits d'auteur pour entraîner certains de ses modèles d'IA, ajoutant du carburant aux batailles juridiques en cours auxquelles l'entreprise est confrontée. Des auteurs, des programmeurs et d'autres créateurs de contenu ont accusé OpenAI d'utiliser leurs œuvres — telles que des livres et du code — sans permission pour développer ses modèles d'IA. Alors qu'OpenAI s'est défendu en invoquant l'usage équitable, les plaignants soutiennent que la loi sur le droit d'auteur aux États-Unis ne prévoit pas d'exception pour les données d'entraînement.

L'étude, une collaboration entre des chercheurs de l'Université de Washington, de l'Université de Copenhague et de Stanford, introduit une nouvelle technique pour détecter les données d'entraînement "mémorisées" dans les modèles accessibles via une API, comme ceux d'OpenAI. Les modèles d'IA apprennent essentiellement à partir de grandes quantités de données pour reconnaître des motifs, ce qui leur permet de créer des essais, des images, et plus encore. Bien que la plupart des sorties ne soient pas des copies directes des données d'entraînement, certaines le sont inévitablement en raison du processus d'apprentissage. Par exemple, les modèles d'images ont été connus pour reproduire des captures d'écran de films, tandis que les modèles de langage ont été surpris en train de plagier essentiellement des articles de presse.

La méthode décrite dans l'étude se concentre sur les mots à "forte surprise" — des mots qui sont inhabituels dans un contexte donné. Par exemple, dans la phrase "Jack et moi sommes restés parfaitement immobiles avec le radar bourdonnant," "radar" serait un mot à forte surprise car il est moins attendu que des mots comme "moteur" ou "radio" pour précéder "bourdonnant."

Les chercheurs ont testé plusieurs modèles d'OpenAI, y compris GPT-4 et GPT-3.5, en supprimant les mots à forte surprise d'extraits de livres de fiction et d'articles du New York Times et en demandant aux modèles de prédire ces mots manquants. Si les modèles devinaient correctement les mots, cela suggérait qu'ils avaient mémorisé le texte pendant l'entraînement.

Étude sur le droit d'auteur d'OpenAI

Un exemple de faire "deviner" un mot à forte surprise par un modèle. Crédits image : OpenAI

Les résultats ont indiqué que GPT-4 avait probablement mémorisé des parties de livres de fiction populaires, y compris ceux du dataset BookMIA de livres électroniques protégés par des droits d'auteur. Il semblait également avoir mémorisé certains articles du New York Times, bien que moins fréquemment.

Abhilasha Ravichander, doctorante à l'Université de Washington et co-auteure de l'étude, a souligné à TechCrunch que ces résultats mettent en lumière les "données controversées" qui pourraient avoir été utilisées pour entraîner ces modèles. "Pour avoir des modèles de langage de grande échelle fiables, nous devons avoir des modèles que nous pouvons sonder, auditer et examiner scientifiquement," a déclaré Ravichander. "Notre travail vise à fournir un outil pour sonder les grands modèles de langage, mais il y a un réel besoin de plus grande transparence des données dans tout l'écosystème."

OpenAI a plaidé pour des règles plus souples sur l'utilisation des données protégées par des droits d'auteur pour développer des modèles d'IA. Bien que l'entreprise ait certains accords de licence de contenu et propose des options de retrait pour les détenteurs de droits d'auteur, elle a fait pression sur divers gouvernements pour établir des règles d'"usage équitable" spécifiquement pour l'entraînement d'IA.

Article connexe

Ancien ingénieur d'OpenAI partage des idées sur la culture d'entreprise et la croissance rapide Il y a trois semaines, Calvin French-Owen, un ingénieur qui a contribué à un produit clé d'OpenAI, a quitté l'entreprise.Il a récemment partagé un article de blog captivant détaillant son année chez O

Google dévoile les modèles AI Gemini 2.5 prêts pour la production pour rivaliser avec OpenAI sur le marché des entreprises Google a intensifié sa stratégie AI lundi, lançant ses modèles avancés Gemini 2.5 pour une utilisation en entreprise et introduisant une variante économique pour concurrencer sur le prix et la perform

Meta Offre des Salaires Élevés pour les Talents en IA, Dément les Bonus de Signature de 100M$ Meta attire des chercheurs en IA vers son nouveau laboratoire de superintelligence avec des packages de rémunération de plusieurs millions de dollars. Cependant, les allégations de "bonus de signature

commentaires (30)

0/200

Soumettre

JohnGarcia

23 avril 2025 17:10:14 UTC+02:00

Me sorprendió un poco que OpenAI podría haber usado material con derechos de autor para entrenar sus modelos. Es un poco decepcionante, pero supongo que es el salvaje oeste allá en el mundo de la IA. 🤔 ¿Quizás deberían ser más cuidadosos la próxima vez?

TimothyMitchell

22 avril 2025 02:12:42 UTC+02:00

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね！クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね？🤔

WillLopez

21 avril 2025 13:49:05 UTC+02:00

오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔

WillMitchell

21 avril 2025 05:30:11 UTC+02:00

Este estudio sobre los modelos de OpenAI usando contenido con derechos de autor es bastante aterrador! 😱 Está genial que la IA se esté volviendo más inteligente, pero usar libros y códigos sin permiso no parece correcto. ¡Espero que lo resuelvan pronto! 🤞

JimmyRamirez

18 avril 2025 17:14:26 UTC+02:00

I'm kinda shocked that OpenAI might have used copyrighted stuff to train their models. It's a bit of a letdown, but I guess it's the wild west out there in AI land. 🤔 Maybe they should be more careful next time?

JohnWilson

17 avril 2025 19:16:23 UTC+02:00

This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞

Top nouvelles

Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Doublage par IA : Guide ultime pour la création de voix réalistes OpenAI améliore l'assistant vocal AI pour de meilleurs chats Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie L'informatique de l'IA pour consommer la puissance de plusieurs New York d'ici 2026, explique le fondateur Clonage Vocal IA: Guide Ultime pour Maîtriser la Conversion de Voix Découvrez les mots croisés d'E / S propulsés par l'IA: une touche moderne sur le jeu de mots classique Le PDG de Nvidia clarifie les idées fausses sur l'impact du marché de Deepseek

Plus

En vedette