opção
Lar
Notícias
A IA da Openai treinou em livros de O'Reilly de paredes pagas, os pesquisadores afirmam

A IA da Openai treinou em livros de O'Reilly de paredes pagas, os pesquisadores afirmam

7 de Abril de 2025
161

A IA da Openai treinou em livros de O'Reilly de paredes pagas, os pesquisadores afirmam

O Openai enfrentou inúmeras acusações de uso de material protegido por direitos autorais sem permissão para treinar seus modelos de IA. Um estudo recente do projeto de divulgações de IA, uma organização sem fins lucrativos criada em 2024 pelo magnata da mídia Tim O'Reilly e o economista Ilan Strauss, sugere que o Openai pode ter usado livros não públicos da O'Reilly Media para treinar seu modelo mais avançado, GPT-4O. Os modelos de IA, essencialmente sofisticados mecanismos de previsão, são treinados em vastos conjuntos de dados, incluindo livros, filmes e programas de TV. Eles aprendem padrões e geram respostas com base nesses padrões, não criando nada verdadeiramente novo, mas aproximando -se de sua extensa base de conhecimento. À medida que fontes de dados do mundo real como a rede pública se esgotam, alguns laboratórios de IA, incluindo o OpenAI, começaram a usar dados gerados pela IA para treinamento, embora poucos tenham abandonado completamente dados do mundo real devido aos riscos de degradação do desempenho do modelo. O artigo do Projeto AI divulga a reivindica que o modelo GPT-4O da OpenAI, que é o padrão no ChatGPT, mostra um forte reconhecimento do conteúdo dos livros de O'Reilly de O'Reilly, ao contrário do modelo turbo GPT-3.5 anterior. O artigo sugere que o GPT-4O provavelmente foi treinado nesses livros não públicos, apesar de a O'Reilly Media não ter um contrato de licenciamento com o OpenAI. O estudo empregou um método chamado De-Cop, introduzido em 2024, para detectar conteúdo protegido por direitos autorais nos dados de treinamento de IA. Esse "ataque de inferência de associação" testa se um modelo pode distinguir entre textos com autoria humana e paráfrases geradas pela IA, indicando conhecimento prévio do texto, se puder fazê-lo de maneira confiável. Os pesquisadores testaram os modelos GPT-4O, GPT-3.5 Turbo e outros Openai usando 13.962 trechos de parágrafos de 34 livros de O'Reilly, descobrindo que o GPT-4O reconheceu significativamente mais conteúdo de paredes pagas do que os modelos mais antigos. Embora os autores reconheçam que seu método não é à prova de falhas e que o conteúdo de paredes pagas pode ter sido introduzido pelos usuários copiando e colando no ChatGPT, as descobertas levantam questões sobre as práticas de dados do OpenAI. O estudo não avaliou os modelos mais recentes do OpenAI, como GPT-4.5 e modelos de raciocínio como O3-mini e O1, deixando em aberto a possibilidade de que eles possam não ter sido treinados nos mesmos dados. O OpenAI tem pressionado por leis de direitos autorais mais relaxadas sobre dados de treinamento de IA e vem buscando fontes de dados de alta qualidade. A empresa até contratou jornalistas para refinar os resultados de seus modelos, uma prática vista em todo o setor de IA, onde especialistas em vários campos são recrutados para aprimorar os sistemas de IA. A OpenAI paga alguns de seus dados de treinamento, com acordos de licenciamento com vários provedores de conteúdo e oferecendo mecanismos de exclusão para proprietários de direitos autorais. No entanto, à medida que a empresa enfrenta desafios legais sobre suas práticas de dados, as conclusões do artigo O'Reilly lançaram uma sombra sobre suas operações. O Openai não respondeu aos pedidos de comentário sobre o estudo.
Artigo relacionado
Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este
SoftBank Adquire Fábrica da Sharp por $676M para Centro de Dados de IA no Japão SoftBank Adquire Fábrica da Sharp por $676M para Centro de Dados de IA no Japão A SoftBank está avançando em seu objetivo de estabelecer um grande centro de IA no Japão, tanto de forma independente quanto por meio de parcerias como a OpenAI. A gigante da tecnologia confirmou na s
Adobe e Figma Integram o Modelo Avançado de Geração de Imagens da OpenAI Adobe e Figma Integram o Modelo Avançado de Geração de Imagens da OpenAI A geração de imagens aprimorada da OpenAI no ChatGPT impulsionou um aumento de usuários, alimentado por sua capacidade de produzir visuais no estilo Studio Ghibli e designs únicos, e agora está se exp
Comentários (41)
0/200
PeterNelson
PeterNelson 31 de Julho de 2025 à39 12:35:39 WEST

This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

HarperJones
HarperJones 23 de Abril de 2025 à27 03:24:27 WEST

OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔

WalterWhite
WalterWhite 18 de Abril de 2025 à48 20:33:48 WEST

OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔

BruceClark
BruceClark 18 de Abril de 2025 à34 03:02:34 WEST

OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔

DennisGarcia
DennisGarcia 18 de Abril de 2025 à35 02:58:35 WEST

I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔

AvaHill
AvaHill 16 de Abril de 2025 à26 19:00:26 WEST

Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔

De volta ao topo
OR