Lar
A IA da Openai treinou em livros de O'Reilly de paredes pagas, os pesquisadores afirmam

O Openai enfrentou inúmeras acusações de uso de material protegido por direitos autorais sem permissão para treinar seus modelos de IA. Um estudo recente do projeto de divulgações de IA, uma organização sem fins lucrativos criada em 2024 pelo magnata da mídia Tim O'Reilly e o economista Ilan Strauss, sugere que o Openai pode ter usado livros não públicos da O'Reilly Media para treinar seu modelo mais avançado, GPT-4O. Os modelos de IA, essencialmente sofisticados mecanismos de previsão, são treinados em vastos conjuntos de dados, incluindo livros, filmes e programas de TV. Eles aprendem padrões e geram respostas com base nesses padrões, não criando nada verdadeiramente novo, mas aproximando -se de sua extensa base de conhecimento. À medida que fontes de dados do mundo real como a rede pública se esgotam, alguns laboratórios de IA, incluindo o OpenAI, começaram a usar dados gerados pela IA para treinamento, embora poucos tenham abandonado completamente dados do mundo real devido aos riscos de degradação do desempenho do modelo. O artigo do Projeto AI divulga a reivindica que o modelo GPT-4O da OpenAI, que é o padrão no ChatGPT, mostra um forte reconhecimento do conteúdo dos livros de O'Reilly de O'Reilly, ao contrário do modelo turbo GPT-3.5 anterior. O artigo sugere que o GPT-4O provavelmente foi treinado nesses livros não públicos, apesar de a O'Reilly Media não ter um contrato de licenciamento com o OpenAI. O estudo empregou um método chamado De-Cop, introduzido em 2024, para detectar conteúdo protegido por direitos autorais nos dados de treinamento de IA. Esse "ataque de inferência de associação" testa se um modelo pode distinguir entre textos com autoria humana e paráfrases geradas pela IA, indicando conhecimento prévio do texto, se puder fazê-lo de maneira confiável. Os pesquisadores testaram os modelos GPT-4O, GPT-3.5 Turbo e outros Openai usando 13.962 trechos de parágrafos de 34 livros de O'Reilly, descobrindo que o GPT-4O reconheceu significativamente mais conteúdo de paredes pagas do que os modelos mais antigos. Embora os autores reconheçam que seu método não é à prova de falhas e que o conteúdo de paredes pagas pode ter sido introduzido pelos usuários copiando e colando no ChatGPT, as descobertas levantam questões sobre as práticas de dados do OpenAI. O estudo não avaliou os modelos mais recentes do OpenAI, como GPT-4.5 e modelos de raciocínio como O3-mini e O1, deixando em aberto a possibilidade de que eles possam não ter sido treinados nos mesmos dados. O OpenAI tem pressionado por leis de direitos autorais mais relaxadas sobre dados de treinamento de IA e vem buscando fontes de dados de alta qualidade. A empresa até contratou jornalistas para refinar os resultados de seus modelos, uma prática vista em todo o setor de IA, onde especialistas em vários campos são recrutados para aprimorar os sistemas de IA. A OpenAI paga alguns de seus dados de treinamento, com acordos de licenciamento com vários provedores de conteúdo e oferecendo mecanismos de exclusão para proprietários de direitos autorais. No entanto, à medida que a empresa enfrenta desafios legais sobre suas práticas de dados, as conclusões do artigo O'Reilly lançaram uma sombra sobre suas operações. O Openai não respondeu aos pedidos de comentário sobre o estudo.
Artigo relacionado
A OpenAI adquiriu a startup de finanças pessoais baseada em inteligência artificial Hiro.
A OpenAI adquiriu a startup de finanças pessoais Hiro Finance, anunciou o fundador Ethan Bloch na segunda-feira, e a OpenAI confirmou a transação ao TechCrunch. A startup contava com o apoio da importante empresa de capital de risco em fintech Ribbit
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Recomendações de tópicos especiais relacionados
Comentários (42)
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

A OpenAI adquiriu a startup de finanças pessoais baseada em inteligência artificial Hiro.
A OpenAI adquiriu a startup de finanças pessoais Hiro Finance, anunciou o fundador Ethan Bloch na segunda-feira, e a OpenAI confirmou a transação ao TechCrunch. A startup contava com o apoio da importante empresa de capital de risco em fintech Ribbit
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅











