Maison
L'IA d'Openai s'est formée sur les livres O'Reilly de paiement, réclame les chercheurs

OpenAI a fait face à de nombreuses accusations d'utilisation du matériel protégé par le droit d'auteur sans l'autorisation de former ses modèles d'IA. Une étude récente du projet de divulgation de l'IA, un organisme à but non lucratif établi en 2024 par le magnat des médias Tim O'Reilly et l'économiste Ilan Strauss, suggère qu'Openai a peut-être utilisé des livres non publics d'O'Reilly Media pour former son modèle plus avancé, GPT-4O. Les modèles AI, essentiellement sophistiqués, sont formés sur de vastes ensembles de données, y compris des livres, des films et des émissions de télévision. Ils apprennent des modèles et génèrent des réponses en fonction de ces modèles, et ne créant rien de vraiment nouveau mais se rapprochant de leur vaste base de connaissances. Alors que les sources de données du monde réel comme le Web public deviennent épuisées, certains laboratoires d'IA, y compris OpenAI, ont commencé à utiliser des données générées par l'IA pour la formation, bien que peu aient complètement abandonné les données du monde réel en raison des risques de dégradation des performances du modèle. Le document du projet de divulgation de l'IA affirme que le modèle GPT-4O d'OpenAI, qui est la valeur par défaut de Chatgpt, montre une forte reconnaissance du contenu des livres O'Reilly de paiement, contrairement au modèle turbo GPT-3.5 précédent. Le document suggère que GPT-4O a probablement été formé sur ces livres non publics, bien que O'Reilly Media n'ait pas eu de convention de licence avec OpenAI. L'étude a utilisé une méthode appelée Depop, introduite en 2024, pour détecter le contenu protégé par le droit d'auteur dans les données de formation d'IA. Cette «attaque d'inférence de l'adhésion» teste si un modèle peut faire la distinction entre les textes automatisés par l'homme et les paraphrases générées par l'AI, indiquant une connaissance préalable du texte si elle peut le faire de manière fiable. Les chercheurs ont testé GPT-4O, GPT-3.5 Turbo et d'autres modèles OpenAI en utilisant 13 962 extraits de paragraphes de livres de 34 O'Reilly, constatant que GPT-4O a reconnu beaucoup plus de contenu payé que les modèles plus anciens. Bien que les auteurs reconnaissent que leur méthode n'est pas infaillible et que le contenu de paiement payant pourrait avoir été introduit par les utilisateurs copiant et colorant dans Chatgpt, les résultats soulèvent des questions sur les pratiques de données d'Openai. L'étude n'a pas évalué les derniers modèles d'OpenAI, tels que GPT-4.5 et des modèles de raisonnement comme O3-MinI et O1, laissant ouverte la possibilité que ceux-ci n'étaient pas formés sur les mêmes données. OpenAI a fait pression pour des lois sur les droits d'auteur plus détendus concernant les données de formation de l'IA et a recherché des sources de données de meilleure qualité. La société a même embauché des journalistes pour affiner les résultats de ses modèles, une pratique observée dans l'industrie de l'IA où des experts dans divers domaines sont recrutés pour améliorer les systèmes d'IA. OpenAI paie certaines de ses données de formation, ayant des accords de licence avec divers fournisseurs de contenu et offrant des mécanismes d'opt-out aux titulaires de droits d'auteur. Cependant, alors que l'entreprise fait face à des défis juridiques sur ses pratiques de données, les résultats du journal O'Reilly ont jeté une ombre sur ses opérations. OpenAI n'a pas répondu aux demandes de commentaires sur l'étude.
Article connexe
OpenAI rachète Hiro, une start-up spécialisée dans la gestion financière personnelle basée sur l'IA
OpenAI a racheté la start-up spécialisée dans la gestion des finances personnelles Hiro Finance, a annoncé lundi son fondateur Ethan Bloch, OpenAI ayant confirmé cette transaction à TechCrunch. La sta
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Recommandations de sujets spéciaux liés
commentaires (42)
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

OpenAI rachète Hiro, une start-up spécialisée dans la gestion financière personnelle basée sur l'IA
OpenAI a racheté la start-up spécialisée dans la gestion des finances personnelles Hiro Finance, a annoncé lundi son fondateur Ethan Bloch, OpenAI ayant confirmé cette transaction à TechCrunch. La sta
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅











