opção
Lar
Notícias
A IA da Openai treinou em livros de O'Reilly de paredes pagas, os pesquisadores afirmam

A IA da Openai treinou em livros de O'Reilly de paredes pagas, os pesquisadores afirmam

7 de Abril de 2025
169

A IA da Openai treinou em livros de O'Reilly de paredes pagas, os pesquisadores afirmam

O Openai enfrentou inúmeras acusações de uso de material protegido por direitos autorais sem permissão para treinar seus modelos de IA. Um estudo recente do projeto de divulgações de IA, uma organização sem fins lucrativos criada em 2024 pelo magnata da mídia Tim O'Reilly e o economista Ilan Strauss, sugere que o Openai pode ter usado livros não públicos da O'Reilly Media para treinar seu modelo mais avançado, GPT-4O. Os modelos de IA, essencialmente sofisticados mecanismos de previsão, são treinados em vastos conjuntos de dados, incluindo livros, filmes e programas de TV. Eles aprendem padrões e geram respostas com base nesses padrões, não criando nada verdadeiramente novo, mas aproximando -se de sua extensa base de conhecimento. À medida que fontes de dados do mundo real como a rede pública se esgotam, alguns laboratórios de IA, incluindo o OpenAI, começaram a usar dados gerados pela IA para treinamento, embora poucos tenham abandonado completamente dados do mundo real devido aos riscos de degradação do desempenho do modelo. O artigo do Projeto AI divulga a reivindica que o modelo GPT-4O da OpenAI, que é o padrão no ChatGPT, mostra um forte reconhecimento do conteúdo dos livros de O'Reilly de O'Reilly, ao contrário do modelo turbo GPT-3.5 anterior. O artigo sugere que o GPT-4O provavelmente foi treinado nesses livros não públicos, apesar de a O'Reilly Media não ter um contrato de licenciamento com o OpenAI. O estudo empregou um método chamado De-Cop, introduzido em 2024, para detectar conteúdo protegido por direitos autorais nos dados de treinamento de IA. Esse "ataque de inferência de associação" testa se um modelo pode distinguir entre textos com autoria humana e paráfrases geradas pela IA, indicando conhecimento prévio do texto, se puder fazê-lo de maneira confiável. Os pesquisadores testaram os modelos GPT-4O, GPT-3.5 Turbo e outros Openai usando 13.962 trechos de parágrafos de 34 livros de O'Reilly, descobrindo que o GPT-4O reconheceu significativamente mais conteúdo de paredes pagas do que os modelos mais antigos. Embora os autores reconheçam que seu método não é à prova de falhas e que o conteúdo de paredes pagas pode ter sido introduzido pelos usuários copiando e colando no ChatGPT, as descobertas levantam questões sobre as práticas de dados do OpenAI. O estudo não avaliou os modelos mais recentes do OpenAI, como GPT-4.5 e modelos de raciocínio como O3-mini e O1, deixando em aberto a possibilidade de que eles possam não ter sido treinados nos mesmos dados. O OpenAI tem pressionado por leis de direitos autorais mais relaxadas sobre dados de treinamento de IA e vem buscando fontes de dados de alta qualidade. A empresa até contratou jornalistas para refinar os resultados de seus modelos, uma prática vista em todo o setor de IA, onde especialistas em vários campos são recrutados para aprimorar os sistemas de IA. A OpenAI paga alguns de seus dados de treinamento, com acordos de licenciamento com vários provedores de conteúdo e oferecendo mecanismos de exclusão para proprietários de direitos autorais. No entanto, à medida que a empresa enfrenta desafios legais sobre suas práticas de dados, as conclusões do artigo O'Reilly lançaram uma sombra sobre suas operações. O Openai não respondeu aos pedidos de comentário sobre o estudo.
Artigo relacionado
O entusiasmo com a IA da Nvidia encontra a realidade à medida que as margens de 70% são examinadas em meio a batalhas de inferência O entusiasmo com a IA da Nvidia encontra a realidade à medida que as margens de 70% são examinadas em meio a batalhas de inferência Guerras de chips de IA eclodem na VB Transform 2025As linhas de batalha foram traçadas durante um painel de discussão inflamado na VB Transform 2025, onde os desafiantes em ascensão miraram diretamen
A OpenAI atualiza o ChatGPT Pro para o3, aumentando o valor da assinatura mensal de US$ 200 A OpenAI atualiza o ChatGPT Pro para o3, aumentando o valor da assinatura mensal de US$ 200 Esta semana testemunhou desenvolvimentos significativos de IA de gigantes da tecnologia, incluindo Microsoft, Google e Anthropic. A OpenAI conclui a enxurrada de anúncios com suas próprias atualizaçõe
Organização sem fins lucrativos utiliza agentes de IA para aumentar os esforços de arrecadação de fundos para instituições de caridade Organização sem fins lucrativos utiliza agentes de IA para aumentar os esforços de arrecadação de fundos para instituições de caridade Enquanto as grandes corporações de tecnologia promovem "agentes" de IA como impulsionadores de produtividade para as empresas, uma organização sem fins lucrativos está demonstrando seu potencial para
Comentários (41)
0/200
PeterNelson
PeterNelson 31 de Julho de 2025 à39 12:35:39 WEST

This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

HarperJones
HarperJones 23 de Abril de 2025 à27 03:24:27 WEST

OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔

WalterWhite
WalterWhite 18 de Abril de 2025 à48 20:33:48 WEST

OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔

BruceClark
BruceClark 18 de Abril de 2025 à34 03:02:34 WEST

OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔

DennisGarcia
DennisGarcia 18 de Abril de 2025 à35 02:58:35 WEST

I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔

AvaHill
AvaHill 16 de Abril de 2025 à26 19:00:26 WEST

Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔

De volta ao topo
OR