L'IA d'Openai s'est formée sur les livres O'Reilly de paiement, réclame les chercheurs

Maison

Nouvelles

7 avril 2025

JuanThomas

217

# openai

L'IA d'Openai s'est formée sur les livres O'Reilly de paiement, réclame les chercheurs

OpenAI a fait face à de nombreuses accusations d'utilisation du matériel protégé par le droit d'auteur sans l'autorisation de former ses modèles d'IA. Une étude récente du projet de divulgation de l'IA, un organisme à but non lucratif établi en 2024 par le magnat des médias Tim O'Reilly et l'économiste Ilan Strauss, suggère qu'Openai a peut-être utilisé des livres non publics d'O'Reilly Media pour former son modèle plus avancé, GPT-4O. Les modèles AI, essentiellement sophistiqués, sont formés sur de vastes ensembles de données, y compris des livres, des films et des émissions de télévision. Ils apprennent des modèles et génèrent des réponses en fonction de ces modèles, et ne créant rien de vraiment nouveau mais se rapprochant de leur vaste base de connaissances. Alors que les sources de données du monde réel comme le Web public deviennent épuisées, certains laboratoires d'IA, y compris OpenAI, ont commencé à utiliser des données générées par l'IA pour la formation, bien que peu aient complètement abandonné les données du monde réel en raison des risques de dégradation des performances du modèle. Le document du projet de divulgation de l'IA affirme que le modèle GPT-4O d'OpenAI, qui est la valeur par défaut de Chatgpt, montre une forte reconnaissance du contenu des livres O'Reilly de paiement, contrairement au modèle turbo GPT-3.5 précédent. Le document suggère que GPT-4O a probablement été formé sur ces livres non publics, bien que O'Reilly Media n'ait pas eu de convention de licence avec OpenAI. L'étude a utilisé une méthode appelée Depop, introduite en 2024, pour détecter le contenu protégé par le droit d'auteur dans les données de formation d'IA. Cette «attaque d'inférence de l'adhésion» teste si un modèle peut faire la distinction entre les textes automatisés par l'homme et les paraphrases générées par l'AI, indiquant une connaissance préalable du texte si elle peut le faire de manière fiable. Les chercheurs ont testé GPT-4O, GPT-3.5 Turbo et d'autres modèles OpenAI en utilisant 13 962 extraits de paragraphes de livres de 34 O'Reilly, constatant que GPT-4O a reconnu beaucoup plus de contenu payé que les modèles plus anciens. Bien que les auteurs reconnaissent que leur méthode n'est pas infaillible et que le contenu de paiement payant pourrait avoir été introduit par les utilisateurs copiant et colorant dans Chatgpt, les résultats soulèvent des questions sur les pratiques de données d'Openai. L'étude n'a pas évalué les derniers modèles d'OpenAI, tels que GPT-4.5 et des modèles de raisonnement comme O3-MinI et O1, laissant ouverte la possibilité que ceux-ci n'étaient pas formés sur les mêmes données. OpenAI a fait pression pour des lois sur les droits d'auteur plus détendus concernant les données de formation de l'IA et a recherché des sources de données de meilleure qualité. La société a même embauché des journalistes pour affiner les résultats de ses modèles, une pratique observée dans l'industrie de l'IA où des experts dans divers domaines sont recrutés pour améliorer les systèmes d'IA. OpenAI paie certaines de ses données de formation, ayant des accords de licence avec divers fournisseurs de contenu et offrant des mécanismes d'opt-out aux titulaires de droits d'auteur. Cependant, alors que l'entreprise fait face à des défis juridiques sur ses pratiques de données, les résultats du journal O'Reilly ont jeté une ombre sur ses opérations. OpenAI n'a pas répondu aux demandes de commentaires sur l'étude.

Article connexe

OpenAI rachète Hiro, une start-up spécialisée dans la gestion financière personnelle basée sur l'IA OpenAI a racheté la start-up spécialisée dans la gestion des finances personnelles Hiro Finance, a annoncé lundi son fondateur Ethan Bloch, OpenAI ayant confirmé cette transaction à TechCrunch. La sta

Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour

OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra

Recommandations de sujets spéciaux liés

Création vidéo

Les meilleurs outils de création vidéo basés sur l'IA pour les podcasteurs : transformez vos fichiers audio en vidéos captivantes de type « talking head »

Découvrez sur XIX.AI les meilleurs outils de création vidéo basés sur l'IA pour les podcasteurs en 2026. Notre sélection des outils les mieux notés regroupe des solutions performantes qui transforment sans effort vos fichiers audio en vidéos captivantes de type « talking head ». Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Donnez dès maintenant un coup de pouce à votre narration visuelle.

10 outils

xix.ai

chatbot

Créez votre propre histoire d'amour grâce à l'IA avec ces outils de jeu de rôle

Découvrez les meilleurs outils de jeu de rôle basés sur l'IA de 2026 pour créer des récits immersifs. La sélection de XIX.AI regroupe des assistants puissants et révolutionnaires qui vous permettront de donner libre cours à votre créativité narrative et d'apporter une profondeur émotionnelle à vos récits. Comparez les options gratuites et payantes grâce à des tests concrets. Lancez-vous dès aujourd'hui dans une aventure unique.

10 outils

xix.ai

Synthèse vocale

Les meilleurs outils vocaux basés sur l'IA pour les développeurs de jeux indépendants : gagnez du temps sur le doublage de vos jeux de rôle et romans visuels

Découvrez les meilleurs outils vocaux basés sur l'IA pour les développeurs de jeux en 2026 ! La sélection de XIX.AI regroupe les solutions les mieux notées et les plus innovantes pour vous faire gagner du temps et de l'argent sur le doublage de vos jeux de rôle et romans visuels. Consultez nos comparatifs entre versions gratuites et payantes, nos tests en conditions réelles et nos classements mis à jour chaque semaine. Trouvez dès aujourd'hui l'outil vocal qui vous convient le mieux !

10 outils

xix.ai

Éducation et apprentissage

Meilleurs outils d'entraînement par répétition espacée avec intelligence artificielle : optimisez vos programmes d'études pour les étudiants en médecine et en droit

Découvrez les meilleurs outils d’entraînement par répétition espacée en AI pour 2026, sélectionnés par XIX.AI. Nos choix phares, révolutionnaires dans leur domaine, aident les étudiants en médecine et en droit à optimiser leurs programmes de révision afin d’améliorer leur mémorisation. Comparez les options gratuites et payantes grâce à des tests concrets et aux classements mis à jour chaque semaine. Développez rapidement un avantage dans votre apprentissage.

10 outils

xix.ai

Création vidéo

Les meilleures plateformes d'IA de conversion de texte en vidéo pour la rédaction de scénarios et la narration visuelle

Les meilleures plateformes d'IA de conversion de texte en vidéo en 2026 : les outils les mieux notés pour la rédaction de scénarios et la narration visuelle. Découvrez des solutions puissantes et révolutionnaires pour transformer votre texte en vidéos captivantes. Comparez les options gratuites et payantes grâce à nos classements mis à jour chaque semaine et à nos tests en conditions réelles. Trouvez la plateforme idéale pour booster votre créativité et votre productivité. Découvrez notre sélection soigneusement choisie sur XIX.AI.

10 outils

xix.ai

chatbot

Orchestrateurs multi-agents AI : Concevoir des flux de travail automatisés complexes à l'aide du langage naturel

Dernières informations de 2026 : Découvrez les meilleurs outils d’orchestration multi-agent basés sur l’intelligence artificielle pour concevoir des workflows automatisés complexes à l’aide du langage naturel. Notre sélection révèle des plateformes reconnues et puissantes, idéales pour une automation des tâches sans faille et une gestion intelligente des processus. Comparez les options gratuites et payantes en vous basant sur des données issues du monde réel. Optimisez vos performances grâce aux classements mis à jour chaque semaine par les experts de XIX.AI.

10 outils

xix.ai

commentaires (42)

0/500

Veuillez vous connecter d'abord

RichardJackson

16 novembre 2025 15:30:37 UTC+01:00

こんなことされてしまうと、著作権料を払って制作している出版社側はたまったもんじゃないよね…AIの学習データの透明性、もっと求められるべきだと思う。🤔

PeterNelson

31 juillet 2025 13:35:39 UTC+02:00

This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

HarperJones

23 avril 2025 04:24:27 UTC+02:00

OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔

WalterWhite

18 avril 2025 21:33:48 UTC+02:00

OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも？🤔

BruceClark

18 avril 2025 04:02:34 UTC+02:00

OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔

DennisGarcia

18 avril 2025 03:58:35 UTC+02:00

I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔

Top nouvelles

AI Builder et Power Automate Révolutionnent la Synthèse de Documents Podcast Hosts Of NoteBookLM maintenant disponible pour les interviews La Chine dévoile ses normes nationales relatives aux robots humanoïdes et à l'intelligence incarnée L'adoption de l'IA par les entreprises plafonne, selon les données de Ramp Tutoriel Créateur d'Images Bing : Guide de Génération d'Art IA Apprenez à créer de la musique AI en utilisant votre voix: un tutoriel Suno étape par étape iMyFone MagicMic : Revue et tutoriel sur le changeur de voix AI en temps réel Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Embodied Intelligence dévoile la première norme sectorielle visant à freiner la croissance anarchique DeepSeek V4 s'impose comme une technologie multimodale révolutionnaire dans le domaine de l'IA

Plus

En vedette