option
Maison
Nouvelles
L'IA d'Openai s'est formée sur les livres O'Reilly de paiement, réclame les chercheurs

L'IA d'Openai s'est formée sur les livres O'Reilly de paiement, réclame les chercheurs

7 avril 2025
161

L'IA d'Openai s'est formée sur les livres O'Reilly de paiement, réclame les chercheurs

OpenAI a fait face à de nombreuses accusations d'utilisation du matériel protégé par le droit d'auteur sans l'autorisation de former ses modèles d'IA. Une étude récente du projet de divulgation de l'IA, un organisme à but non lucratif établi en 2024 par le magnat des médias Tim O'Reilly et l'économiste Ilan Strauss, suggère qu'Openai a peut-être utilisé des livres non publics d'O'Reilly Media pour former son modèle plus avancé, GPT-4O. Les modèles AI, essentiellement sophistiqués, sont formés sur de vastes ensembles de données, y compris des livres, des films et des émissions de télévision. Ils apprennent des modèles et génèrent des réponses en fonction de ces modèles, et ne créant rien de vraiment nouveau mais se rapprochant de leur vaste base de connaissances. Alors que les sources de données du monde réel comme le Web public deviennent épuisées, certains laboratoires d'IA, y compris OpenAI, ont commencé à utiliser des données générées par l'IA pour la formation, bien que peu aient complètement abandonné les données du monde réel en raison des risques de dégradation des performances du modèle. Le document du projet de divulgation de l'IA affirme que le modèle GPT-4O d'OpenAI, qui est la valeur par défaut de Chatgpt, montre une forte reconnaissance du contenu des livres O'Reilly de paiement, contrairement au modèle turbo GPT-3.5 précédent. Le document suggère que GPT-4O a probablement été formé sur ces livres non publics, bien que O'Reilly Media n'ait pas eu de convention de licence avec OpenAI. L'étude a utilisé une méthode appelée Depop, introduite en 2024, pour détecter le contenu protégé par le droit d'auteur dans les données de formation d'IA. Cette «attaque d'inférence de l'adhésion» teste si un modèle peut faire la distinction entre les textes automatisés par l'homme et les paraphrases générées par l'AI, indiquant une connaissance préalable du texte si elle peut le faire de manière fiable. Les chercheurs ont testé GPT-4O, GPT-3.5 Turbo et d'autres modèles OpenAI en utilisant 13 962 extraits de paragraphes de livres de 34 O'Reilly, constatant que GPT-4O a reconnu beaucoup plus de contenu payé que les modèles plus anciens. Bien que les auteurs reconnaissent que leur méthode n'est pas infaillible et que le contenu de paiement payant pourrait avoir été introduit par les utilisateurs copiant et colorant dans Chatgpt, les résultats soulèvent des questions sur les pratiques de données d'Openai. L'étude n'a pas évalué les derniers modèles d'OpenAI, tels que GPT-4.5 et des modèles de raisonnement comme O3-MinI et O1, laissant ouverte la possibilité que ceux-ci n'étaient pas formés sur les mêmes données. OpenAI a fait pression pour des lois sur les droits d'auteur plus détendus concernant les données de formation de l'IA et a recherché des sources de données de meilleure qualité. La société a même embauché des journalistes pour affiner les résultats de ses modèles, une pratique observée dans l'industrie de l'IA où des experts dans divers domaines sont recrutés pour améliorer les systèmes d'IA. OpenAI paie certaines de ses données de formation, ayant des accords de licence avec divers fournisseurs de contenu et offrant des mécanismes d'opt-out aux titulaires de droits d'auteur. Cependant, alors que l'entreprise fait face à des défis juridiques sur ses pratiques de données, les résultats du journal O'Reilly ont jeté une ombre sur ses opérations. OpenAI n'a pas répondu aux demandes de commentaires sur l'étude.
Article connexe
Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas Oracle prévoit d'investir environ 40 milliards de dollars dans des puces Nvidia pour alimenter un nouveau centre de données majeur au Texas, développé par OpenAI, selon le Financial Times. Cette trans
SoftBank Acquiert une Usine Sharp de 676M$ pour un Centre de Données IA au Japon SoftBank Acquiert une Usine Sharp de 676M$ pour un Centre de Données IA au Japon SoftBank progresse vers son objectif d'établir un centre majeur d'IA au Japon, à la fois indépendamment et par des partenariats comme avec OpenAI. Le géant technologique a confirmé vendredi qu'il inve
Adobe et Figma intègrent le modèle avancé de génération d'images d'OpenAI Adobe et Figma intègrent le modèle avancé de génération d'images d'OpenAI La génération d'images améliorée d'OpenAI dans ChatGPT a entraîné une augmentation des utilisateurs, grâce à sa capacité à produire des visuels de style Studio Ghibli et des designs uniques, et s'éten
commentaires (41)
0/200
PeterNelson
PeterNelson 31 juillet 2025 13:35:39 UTC+02:00

This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

HarperJones
HarperJones 23 avril 2025 04:24:27 UTC+02:00

OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔

WalterWhite
WalterWhite 18 avril 2025 21:33:48 UTC+02:00

OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔

BruceClark
BruceClark 18 avril 2025 04:02:34 UTC+02:00

OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔

DennisGarcia
DennisGarcia 18 avril 2025 03:58:35 UTC+02:00

I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔

AvaHill
AvaHill 16 avril 2025 20:00:26 UTC+02:00

Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔

Retour en haut
OR