Novo Estudo Revela Quanto Dados os LLMs Realmente Memorizam

Quanto os Modelos de IA Realmente Memorizam? Nova Pesquisa Revela Insights Surpreendentes
Todos sabemos que grandes modelos de linguagem (LLMs) como ChatGPT, Claude e Gemini são treinados em conjuntos de dados enormes — trilhões de palavras de livros, sites, códigos e até multimídia como imagens e áudio. Mas o que exatamente acontece com todos esses dados? Esses modelos realmente entendem a linguagem, ou apenas regurgitam trechos memorizados?
Um novo estudo inovador da Meta, Google DeepMind, Cornell e NVIDIA finalmente nos dá algumas respostas concretas — e os resultados podem surpreender você.
A Grande Questão: Memorização vs. Generalização
No fundo, os LLMs funcionam detectando padrões estatísticos na linguagem. Quando você pergunta ao ChatGPT sobre maçãs, ele não "sabe" o que é uma maçã no sentido humano — em vez disso, reconhece que a palavra "maçã" frequentemente aparece ao lado de termos como "fruta", "vermelha", "pomar" ou até "iPhone". Esse entendimento estatístico é codificado em bilhões de parâmetros (basicamente configurações ajustáveis na rede neural da IA).
Mas aqui está a questão de um milhão de dólares: Quanto do conhecimento de um LLM vem de aprendizado generalizado, e quanto é apenas memorização verbatim?
Isso não é apenas acadêmico — tem implicações legais no mundo real. Se os modelos de IA forem considerados como copiando grandes trechos de texto protegido por direitos autorais, processos de artistas, autores e editores podem ganhar força. Mas se eles estão realmente aprendendo padrões em vez de conteúdo exato, as empresas de IA podem ter defesas mais fortes de uso justo.
A Resposta: 3,6 Bits por Parâmetro
O estudo descobriu que os LLMs têm uma capacidade de memorização fixa de cerca de 3,6 bits por parâmetro. O que isso significa na prática?
- Um único bit é a menor unidade digital (0 ou 1).
- 3,6 bits podem armazenar cerca de 12 valores distintos — como escolher um mês do ano ou rolar um dado de 12 lados.
- Não é suficiente para armazenar uma letra completa do inglês (que precisa de ~4,7 bits), mas pode codificar um caractere de um conjunto reduzido de 10 letras comuns.
- Em bytes, 3,6 bits é apenas 0,45 bytes — menos de meio caractere ASCII padrão.
Crucialmente, esse número permaneceu estável em diferentes tamanhos de modelo, arquiteturas e até níveis de precisão (embora modelos de precisão total atingissem um pouco mais, com 3,83 bits/parâmetro).
A Grande Surpresa: Mais Dados = Menos Memorização
Aqui é onde as coisas ficam realmente interessantes: Treinar com mais dados não aumenta a memorização — na verdade, reduz ela.
Como explicou o pesquisador principal Jack Morris:
"Treinar com mais dados força os modelos a memorizar menos por amostra."
Pense assim: se uma IA tem um "orçamento de memória" fixo, espalhá-lo por um conjunto de dados maior significa que cada peça individual recebe menos armazenamento dedicado. Então, conjuntos de dados maiores incentivam a generalização em vez de cópia literal — o que pode aliviar preocupações sobre a IA regurgitar conteúdo protegido por direitos autorais ou sensível.
Como os Pesquisadores Mediram Isso?
Para isolar a memorização da generalização, a equipe treinou modelos em cadeias de bits completamente aleatórias — dados sem nenhum padrão ou estrutura.
Por quê? Porque se um modelo reconstrói uma cadeia aleatória, ele deve tê-la memorizado — não há lógica subjacente para inferir.
Essa abordagem permitiu que eles:
✔ Medissem a memorização pura, separada dos padrões aprendidos.
✔ Confirmassem que a memorização escala previsivelmente com o tamanho do modelo.
✔ Mostrassem que a generalização entra em ação à medida que os conjuntos de dados crescem.
Implicações no Mundo Real
- Conjuntos de dados menores levam a mais memorização.
- Conjuntos de dados maiores empurram os modelos para a generalização (com uma queda temporária de desempenho em "descida dupla").
- Maior precisão (por exemplo, float32 vs. bfloat16) aumenta ligeiramente a capacidade de memorização (de 3,51 para 3,83 bits/parâmetro).
Dados Únicos São Mais Propensos a Serem Memorizados
Embora o estudo foque em médias, conteúdo altamente único ou estilizado (como trechos de código raros ou escrita distinta) pode ainda ser mais vulnerável à memorização.
No entanto, ataques de inferência de associação (tentar detectar se dados específicos estavam no conjunto de treinamento) tornam-se pouco confiáveis à medida que os conjuntos de dados crescem — apoiando a ideia de que o treinamento em grande escala reduz riscos de privacidade.
Colocando em Perspectiva
- Um modelo de 500 mil parâmetros pode memorizar ~225 KB de dados.
- Um modelo de 1,5 bilhão de parâmetros pode armazenar ~675 MB.
- Isso não é suficiente para reproduzir livros inteiros ou imagens, mas explica padrões textuais distribuídos.
Ramificações Legais?
Esta pesquisa pode desempenhar um papel-chave em processos de direitos autorais de IA em andamento. Se os tribunais virem que os LLMs principalmente generalizam em vez de copiar, as empresas de IA podem ter argumentos mais fortes de uso justo.
A Conclusão
Mais dados = IA mais segura e generalizada. Em vez de temer conjuntos de dados massivos, podemos realmente querer eles — porque eles empurram os modelos para compreensão em vez de memorização.
Este estudo não apenas aprofunda nossa compreensão da IA — ele pode reformular como regulamos, desenvolvemos e confiamos nesses sistemas poderosos no futuro.
Artigo relacionado
Qodo Faz Parceria com Google Cloud para Oferecer Ferramentas Gratuitas de Revisão de Código por IA para Desenvolvedores
Qodo, uma startup de codificação por IA baseada em Israel focada em qualidade de código, lançou uma parceria com Google Cloud para aprimorar a integridade de software gerado por IA.À medida que as emp
Salesforce Apresenta Companheiros Digitais de IA no Slack para Rivalizar com o Microsoft Copilot
A Salesforce lançou uma nova estratégia de IA para o local de trabalho, introduzindo “companheiros digitais” especializados integrados às conversas do Slack, revelou a empresa na segunda-feira.A nova
Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas
A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este
Comentários (1)
0/200
EdwardYoung
10 de Agosto de 2025 à0 00:01:00 WEST
This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!
0
Quanto os Modelos de IA Realmente Memorizam? Nova Pesquisa Revela Insights Surpreendentes
Todos sabemos que grandes modelos de linguagem (LLMs) como ChatGPT, Claude e Gemini são treinados em conjuntos de dados enormes — trilhões de palavras de livros, sites, códigos e até multimídia como imagens e áudio. Mas o que exatamente acontece com todos esses dados? Esses modelos realmente entendem a linguagem, ou apenas regurgitam trechos memorizados?
Um novo estudo inovador da Meta, Google DeepMind, Cornell e NVIDIA finalmente nos dá algumas respostas concretas — e os resultados podem surpreender você.
A Grande Questão: Memorização vs. Generalização
No fundo, os LLMs funcionam detectando padrões estatísticos na linguagem. Quando você pergunta ao ChatGPT sobre maçãs, ele não "sabe" o que é uma maçã no sentido humano — em vez disso, reconhece que a palavra "maçã" frequentemente aparece ao lado de termos como "fruta", "vermelha", "pomar" ou até "iPhone". Esse entendimento estatístico é codificado em bilhões de parâmetros (basicamente configurações ajustáveis na rede neural da IA).
Mas aqui está a questão de um milhão de dólares: Quanto do conhecimento de um LLM vem de aprendizado generalizado, e quanto é apenas memorização verbatim?
Isso não é apenas acadêmico — tem implicações legais no mundo real. Se os modelos de IA forem considerados como copiando grandes trechos de texto protegido por direitos autorais, processos de artistas, autores e editores podem ganhar força. Mas se eles estão realmente aprendendo padrões em vez de conteúdo exato, as empresas de IA podem ter defesas mais fortes de uso justo.
A Resposta: 3,6 Bits por Parâmetro
O estudo descobriu que os LLMs têm uma capacidade de memorização fixa de cerca de 3,6 bits por parâmetro. O que isso significa na prática?
- Um único bit é a menor unidade digital (0 ou 1).
- 3,6 bits podem armazenar cerca de 12 valores distintos — como escolher um mês do ano ou rolar um dado de 12 lados.
- Não é suficiente para armazenar uma letra completa do inglês (que precisa de ~4,7 bits), mas pode codificar um caractere de um conjunto reduzido de 10 letras comuns.
- Em bytes, 3,6 bits é apenas 0,45 bytes — menos de meio caractere ASCII padrão.
Crucialmente, esse número permaneceu estável em diferentes tamanhos de modelo, arquiteturas e até níveis de precisão (embora modelos de precisão total atingissem um pouco mais, com 3,83 bits/parâmetro).
A Grande Surpresa: Mais Dados = Menos Memorização
Aqui é onde as coisas ficam realmente interessantes: Treinar com mais dados não aumenta a memorização — na verdade, reduz ela.
Como explicou o pesquisador principal Jack Morris:
"Treinar com mais dados força os modelos a memorizar menos por amostra."
Pense assim: se uma IA tem um "orçamento de memória" fixo, espalhá-lo por um conjunto de dados maior significa que cada peça individual recebe menos armazenamento dedicado. Então, conjuntos de dados maiores incentivam a generalização em vez de cópia literal — o que pode aliviar preocupações sobre a IA regurgitar conteúdo protegido por direitos autorais ou sensível.
Como os Pesquisadores Mediram Isso?
Para isolar a memorização da generalização, a equipe treinou modelos em cadeias de bits completamente aleatórias — dados sem nenhum padrão ou estrutura.
Por quê? Porque se um modelo reconstrói uma cadeia aleatória, ele deve tê-la memorizado — não há lógica subjacente para inferir.
Essa abordagem permitiu que eles:
✔ Medissem a memorização pura, separada dos padrões aprendidos.
✔ Confirmassem que a memorização escala previsivelmente com o tamanho do modelo.
✔ Mostrassem que a generalização entra em ação à medida que os conjuntos de dados crescem.
Implicações no Mundo Real
- Conjuntos de dados menores levam a mais memorização.
- Conjuntos de dados maiores empurram os modelos para a generalização (com uma queda temporária de desempenho em "descida dupla").
- Maior precisão (por exemplo, float32 vs. bfloat16) aumenta ligeiramente a capacidade de memorização (de 3,51 para 3,83 bits/parâmetro).
Dados Únicos São Mais Propensos a Serem Memorizados
Embora o estudo foque em médias, conteúdo altamente único ou estilizado (como trechos de código raros ou escrita distinta) pode ainda ser mais vulnerável à memorização.
No entanto, ataques de inferência de associação (tentar detectar se dados específicos estavam no conjunto de treinamento) tornam-se pouco confiáveis à medida que os conjuntos de dados crescem — apoiando a ideia de que o treinamento em grande escala reduz riscos de privacidade.
Colocando em Perspectiva
- Um modelo de 500 mil parâmetros pode memorizar ~225 KB de dados.
- Um modelo de 1,5 bilhão de parâmetros pode armazenar ~675 MB.
- Isso não é suficiente para reproduzir livros inteiros ou imagens, mas explica padrões textuais distribuídos.
Ramificações Legais?
Esta pesquisa pode desempenhar um papel-chave em processos de direitos autorais de IA em andamento. Se os tribunais virem que os LLMs principalmente generalizam em vez de copiar, as empresas de IA podem ter argumentos mais fortes de uso justo.
A Conclusão
Mais dados = IA mais segura e generalizada. Em vez de temer conjuntos de dados massivos, podemos realmente querer eles — porque eles empurram os modelos para compreensão em vez de memorização.
Este estudo não apenas aprofunda nossa compreensão da IA — ele pode reformular como regulamos, desenvolvemos e confiamos nesses sistemas poderosos no futuro.



This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!












