option
Maison Nouvelles L'IA d'Openai s'est formée sur les livres O'Reilly de paiement, réclame les chercheurs

L'IA d'Openai s'est formée sur les livres O'Reilly de paiement, réclame les chercheurs

date de sortie date de sortie 7 avril 2025
Auteur Auteur JuanThomas
vues vues 94

L'IA d'Openai s'est formée sur les livres O'Reilly de paiement, réclame les chercheurs

OpenAI a fait face à de nombreuses accusations d'utilisation du matériel protégé par le droit d'auteur sans l'autorisation de former ses modèles d'IA. Une étude récente du projet de divulgation de l'IA, un organisme à but non lucratif établi en 2024 par le magnat des médias Tim O'Reilly et l'économiste Ilan Strauss, suggère qu'Openai a peut-être utilisé des livres non publics d'O'Reilly Media pour former son modèle plus avancé, GPT-4O. Les modèles AI, essentiellement sophistiqués, sont formés sur de vastes ensembles de données, y compris des livres, des films et des émissions de télévision. Ils apprennent des modèles et génèrent des réponses en fonction de ces modèles, et ne créant rien de vraiment nouveau mais se rapprochant de leur vaste base de connaissances. Alors que les sources de données du monde réel comme le Web public deviennent épuisées, certains laboratoires d'IA, y compris OpenAI, ont commencé à utiliser des données générées par l'IA pour la formation, bien que peu aient complètement abandonné les données du monde réel en raison des risques de dégradation des performances du modèle. Le document du projet de divulgation de l'IA affirme que le modèle GPT-4O d'OpenAI, qui est la valeur par défaut de Chatgpt, montre une forte reconnaissance du contenu des livres O'Reilly de paiement, contrairement au modèle turbo GPT-3.5 précédent. Le document suggère que GPT-4O a probablement été formé sur ces livres non publics, bien que O'Reilly Media n'ait pas eu de convention de licence avec OpenAI. L'étude a utilisé une méthode appelée Depop, introduite en 2024, pour détecter le contenu protégé par le droit d'auteur dans les données de formation d'IA. Cette «attaque d'inférence de l'adhésion» teste si un modèle peut faire la distinction entre les textes automatisés par l'homme et les paraphrases générées par l'AI, indiquant une connaissance préalable du texte si elle peut le faire de manière fiable. Les chercheurs ont testé GPT-4O, GPT-3.5 Turbo et d'autres modèles OpenAI en utilisant 13 962 extraits de paragraphes de livres de 34 O'Reilly, constatant que GPT-4O a reconnu beaucoup plus de contenu payé que les modèles plus anciens. Bien que les auteurs reconnaissent que leur méthode n'est pas infaillible et que le contenu de paiement payant pourrait avoir été introduit par les utilisateurs copiant et colorant dans Chatgpt, les résultats soulèvent des questions sur les pratiques de données d'Openai. L'étude n'a pas évalué les derniers modèles d'OpenAI, tels que GPT-4.5 et des modèles de raisonnement comme O3-MinI et O1, laissant ouverte la possibilité que ceux-ci n'étaient pas formés sur les mêmes données. OpenAI a fait pression pour des lois sur les droits d'auteur plus détendus concernant les données de formation de l'IA et a recherché des sources de données de meilleure qualité. La société a même embauché des journalistes pour affiner les résultats de ses modèles, une pratique observée dans l'industrie de l'IA où des experts dans divers domaines sont recrutés pour améliorer les systèmes d'IA. OpenAI paie certaines de ses données de formation, ayant des accords de licence avec divers fournisseurs de contenu et offrant des mécanismes d'opt-out aux titulaires de droits d'auteur. Cependant, alors que l'entreprise fait face à des défis juridiques sur ses pratiques de données, les résultats du journal O'Reilly ont jeté une ombre sur ses opérations. OpenAI n'a pas répondu aux demandes de commentaires sur l'étude.
Article connexe
Tìm kiếm Google giới thiệu 'chế độ AI' cho các truy vấn phức tạp, đa phần Tìm kiếm Google giới thiệu 'chế độ AI' cho các truy vấn phức tạp, đa phần Google tiết lộ "Chế độ AI" khi tìm kiếm đối thủ Perplexity AI và Chatgptgoogle đang đẩy mạnh trò chơi của mình trong AI Arena với sự ra mắt của tính năng "AI Mode" thử nghiệm trong công cụ tìm kiếm. Nhằm mục đích tham gia vào tìm kiếm của Perplexity AI và Openai, chế độ mới này đã được công bố vào Wed
Việc sử dụng tên người dùng không được yêu cầu của Chats Việc sử dụng tên người dùng không được yêu cầu của Chats Một số người dùng Chatgpt gần đây đã gặp phải một tính năng mới kỳ lạ: Chatbot thỉnh thoảng sử dụng tên của họ trong khi làm việc thông qua các vấn đề. Đây không phải là một phần của hành vi thông thường của nó trước đây và nhiều người dùng báo cáo rằng TATGPT đề cập đến tên của họ mà không bao giờ được nói những gì cần gọi họ. Ý kiến ​​về
Openai tăng cường Chatgpt để nhớ lại các cuộc hội thoại trước đó Openai tăng cường Chatgpt để nhớ lại các cuộc hội thoại trước đó Openai đã đưa ra một thông báo lớn vào thứ năm về việc tung ra một tính năng mới trong TATGPT có tên là "Bộ nhớ". Công cụ tiện lợi này được thiết kế để làm cho các cuộc trò chuyện của bạn với AI được cá nhân hóa hơn bằng cách ghi nhớ những gì bạn đã nói trước đây. Hãy tưởng tượng không phải lặp lại bản thân mỗi khi bạn bắt đầu một cuộc truyền đạt mới
commentaires (40)
0/200
RoyPerez
RoyPerez 11 avril 2025 04:31:26 UTC

So, OpenAI's AI got trained on paywalled books? That's a bit shady, isn't it? I mean, I love the tech, but using copyrighted material without permission? Come on, OpenAI, you can do better than that. Maybe they should focus on creating their own content instead.

KeithGonzález
KeithGonzález 10 avril 2025 19:27:39 UTC

オープンAIのAIが有料の本で訓練されたって?ちょっと怪しいよね?技術は好きだけど、許可なく著作権物を使うなんて。オープンAI、もっとできるはずだよ。自分のコンテンツを作ることに集中すべきだね。

MatthewHill
MatthewHill 7 avril 2025 19:28:56 UTC

오픈AI의 AI가 유료 책으로 훈련되었다고요? 좀 수상하죠? 기술은 좋아하지만, 허락 없이 저작권이 있는 자료를 사용하다니요. 오픈AI, 더 잘할 수 있어요. 자신의 콘텐츠를 만드는 데 집중해야 해요.

BenWalker
BenWalker 9 avril 2025 13:31:14 UTC

Então, a IA da OpenAI foi treinada com livros pagos? Isso é um pouco suspeito, não é? Eu gosto da tecnologia, mas usar material com direitos autorais sem permissão? Vamos, OpenAI, você pode fazer melhor do que isso. Talvez eles deveriam se concentrar em criar seu próprio conteúdo.

FrankMartínez
FrankMartínez 9 avril 2025 10:03:15 UTC

¿Así que la IA de OpenAI fue entrenada con libros de pago? Eso es un poco sospechoso, ¿no? Me gusta la tecnología, pero usar material con derechos de autor sin permiso... Vamos, OpenAI, puedes hacerlo mejor. Tal vez deberían centrarse en crear su propio contenido.

LarryHernández
LarryHernández 10 avril 2025 06:32:40 UTC

I'm torn about OpenAI using O’Reilly books to train their AI. On one hand, it's impressive how advanced their models are getting. On the other, it feels a bit shady to use paywalled content. I guess innovation sometimes walks a fine line, huh? Maybe they should just pay for the books next time!

Retour en haut
OR