

A IA da Openai treinou em livros de O'Reilly de paredes pagas, os pesquisadores afirmam
7 de Abril de 2025
JuanThomas
94

O Openai enfrentou inúmeras acusações de uso de material protegido por direitos autorais sem permissão para treinar seus modelos de IA. Um estudo recente do projeto de divulgações de IA, uma organização sem fins lucrativos criada em 2024 pelo magnata da mídia Tim O'Reilly e o economista Ilan Strauss, sugere que o Openai pode ter usado livros não públicos da O'Reilly Media para treinar seu modelo mais avançado, GPT-4O. Os modelos de IA, essencialmente sofisticados mecanismos de previsão, são treinados em vastos conjuntos de dados, incluindo livros, filmes e programas de TV. Eles aprendem padrões e geram respostas com base nesses padrões, não criando nada verdadeiramente novo, mas aproximando -se de sua extensa base de conhecimento. À medida que fontes de dados do mundo real como a rede pública se esgotam, alguns laboratórios de IA, incluindo o OpenAI, começaram a usar dados gerados pela IA para treinamento, embora poucos tenham abandonado completamente dados do mundo real devido aos riscos de degradação do desempenho do modelo. O artigo do Projeto AI divulga a reivindica que o modelo GPT-4O da OpenAI, que é o padrão no ChatGPT, mostra um forte reconhecimento do conteúdo dos livros de O'Reilly de O'Reilly, ao contrário do modelo turbo GPT-3.5 anterior. O artigo sugere que o GPT-4O provavelmente foi treinado nesses livros não públicos, apesar de a O'Reilly Media não ter um contrato de licenciamento com o OpenAI. O estudo empregou um método chamado De-Cop, introduzido em 2024, para detectar conteúdo protegido por direitos autorais nos dados de treinamento de IA. Esse "ataque de inferência de associação" testa se um modelo pode distinguir entre textos com autoria humana e paráfrases geradas pela IA, indicando conhecimento prévio do texto, se puder fazê-lo de maneira confiável. Os pesquisadores testaram os modelos GPT-4O, GPT-3.5 Turbo e outros Openai usando 13.962 trechos de parágrafos de 34 livros de O'Reilly, descobrindo que o GPT-4O reconheceu significativamente mais conteúdo de paredes pagas do que os modelos mais antigos. Embora os autores reconheçam que seu método não é à prova de falhas e que o conteúdo de paredes pagas pode ter sido introduzido pelos usuários copiando e colando no ChatGPT, as descobertas levantam questões sobre as práticas de dados do OpenAI. O estudo não avaliou os modelos mais recentes do OpenAI, como GPT-4.5 e modelos de raciocínio como O3-mini e O1, deixando em aberto a possibilidade de que eles possam não ter sido treinados nos mesmos dados. O OpenAI tem pressionado por leis de direitos autorais mais relaxadas sobre dados de treinamento de IA e vem buscando fontes de dados de alta qualidade. A empresa até contratou jornalistas para refinar os resultados de seus modelos, uma prática vista em todo o setor de IA, onde especialistas em vários campos são recrutados para aprimorar os sistemas de IA. A OpenAI paga alguns de seus dados de treinamento, com acordos de licenciamento com vários provedores de conteúdo e oferecendo mecanismos de exclusão para proprietários de direitos autorais. No entanto, à medida que a empresa enfrenta desafios legais sobre suas práticas de dados, as conclusões do artigo O'Reilly lançaram uma sombra sobre suas operações. O Openai não respondeu aos pedidos de comentário sobre o estudo.
Artigo relacionado
Tìm kiếm Google giới thiệu 'chế độ AI' cho các truy vấn phức tạp, đa phần
Google tiết lộ "Chế độ AI" khi tìm kiếm đối thủ Perplexity AI và Chatgptgoogle đang đẩy mạnh trò chơi của mình trong AI Arena với sự ra mắt của tính năng "AI Mode" thử nghiệm trong công cụ tìm kiếm. Nhằm mục đích tham gia vào tìm kiếm của Perplexity AI và Openai, chế độ mới này đã được công bố vào Wed
Việc sử dụng tên người dùng không được yêu cầu của Chats
Một số người dùng Chatgpt gần đây đã gặp phải một tính năng mới kỳ lạ: Chatbot thỉnh thoảng sử dụng tên của họ trong khi làm việc thông qua các vấn đề. Đây không phải là một phần của hành vi thông thường của nó trước đây và nhiều người dùng báo cáo rằng TATGPT đề cập đến tên của họ mà không bao giờ được nói những gì cần gọi họ. Ý kiến về
Openai tăng cường Chatgpt để nhớ lại các cuộc hội thoại trước đó
Openai đã đưa ra một thông báo lớn vào thứ năm về việc tung ra một tính năng mới trong TATGPT có tên là "Bộ nhớ". Công cụ tiện lợi này được thiết kế để làm cho các cuộc trò chuyện của bạn với AI được cá nhân hóa hơn bằng cách ghi nhớ những gì bạn đã nói trước đây. Hãy tưởng tượng không phải lặp lại bản thân mỗi khi bạn bắt đầu một cuộc truyền đạt mới
Comentários (40)
0/200
RoyPerez
11 de Abril de 2025 à26 04:31:26 GMT
So, OpenAI's AI got trained on paywalled books? That's a bit shady, isn't it? I mean, I love the tech, but using copyrighted material without permission? Come on, OpenAI, you can do better than that. Maybe they should focus on creating their own content instead.
0
KeithGonzález
10 de Abril de 2025 à39 19:27:39 GMT
オープンAIのAIが有料の本で訓練されたって?ちょっと怪しいよね?技術は好きだけど、許可なく著作権物を使うなんて。オープンAI、もっとできるはずだよ。自分のコンテンツを作ることに集中すべきだね。
0
MatthewHill
7 de Abril de 2025 à56 19:28:56 GMT
오픈AI의 AI가 유료 책으로 훈련되었다고요? 좀 수상하죠? 기술은 좋아하지만, 허락 없이 저작권이 있는 자료를 사용하다니요. 오픈AI, 더 잘할 수 있어요. 자신의 콘텐츠를 만드는 데 집중해야 해요.
0
BenWalker
9 de Abril de 2025 à14 13:31:14 GMT
Então, a IA da OpenAI foi treinada com livros pagos? Isso é um pouco suspeito, não é? Eu gosto da tecnologia, mas usar material com direitos autorais sem permissão? Vamos, OpenAI, você pode fazer melhor do que isso. Talvez eles deveriam se concentrar em criar seu próprio conteúdo.
0
FrankMartínez
9 de Abril de 2025 à15 10:03:15 GMT
¿Así que la IA de OpenAI fue entrenada con libros de pago? Eso es un poco sospechoso, ¿no? Me gusta la tecnología, pero usar material con derechos de autor sin permiso... Vamos, OpenAI, puedes hacerlo mejor. Tal vez deberían centrarse en crear su propio contenido.
0
LarryHernández
10 de Abril de 2025 à40 06:32:40 GMT
I'm torn about OpenAI using O’Reilly books to train their AI. On one hand, it's impressive how advanced their models are getting. On the other, it feels a bit shady to use paywalled content. I guess innovation sometimes walks a fine line, huh? Maybe they should just pay for the books next time!
0










So, OpenAI's AI got trained on paywalled books? That's a bit shady, isn't it? I mean, I love the tech, but using copyrighted material without permission? Come on, OpenAI, you can do better than that. Maybe they should focus on creating their own content instead.




オープンAIのAIが有料の本で訓練されたって?ちょっと怪しいよね?技術は好きだけど、許可なく著作権物を使うなんて。オープンAI、もっとできるはずだよ。自分のコンテンツを作ることに集中すべきだね。




오픈AI의 AI가 유료 책으로 훈련되었다고요? 좀 수상하죠? 기술은 좋아하지만, 허락 없이 저작권이 있는 자료를 사용하다니요. 오픈AI, 더 잘할 수 있어요. 자신의 콘텐츠를 만드는 데 집중해야 해요.




Então, a IA da OpenAI foi treinada com livros pagos? Isso é um pouco suspeito, não é? Eu gosto da tecnologia, mas usar material com direitos autorais sem permissão? Vamos, OpenAI, você pode fazer melhor do que isso. Talvez eles deveriam se concentrar em criar seu próprio conteúdo.




¿Así que la IA de OpenAI fue entrenada con libros de pago? Eso es un poco sospechoso, ¿no? Me gusta la tecnología, pero usar material con derechos de autor sin permiso... Vamos, OpenAI, puedes hacerlo mejor. Tal vez deberían centrarse en crear su propio contenido.




I'm torn about OpenAI using O’Reilly books to train their AI. On one hand, it's impressive how advanced their models are getting. On the other, it feels a bit shady to use paywalled content. I guess innovation sometimes walks a fine line, huh? Maybe they should just pay for the books next time!












