Novo Estudo Revela Quanto Dados os LLMs Realmente Memorizam

Quanto os Modelos de IA Realmente Memorizam? Nova Pesquisa Revela Insights Surpreendentes
Todos sabemos que grandes modelos de linguagem (LLMs) como ChatGPT, Claude e Gemini são treinados em conjuntos de dados enormes — trilhões de palavras de livros, sites, códigos e até multimídia como imagens e áudio. Mas o que exatamente acontece com todos esses dados? Esses modelos realmente entendem a linguagem, ou apenas regurgitam trechos memorizados?
Um novo estudo inovador da Meta, Google DeepMind, Cornell e NVIDIA finalmente nos dá algumas respostas concretas — e os resultados podem surpreender você.
A Grande Questão: Memorização vs. Generalização
No fundo, os LLMs funcionam detectando padrões estatísticos na linguagem. Quando você pergunta ao ChatGPT sobre maçãs, ele não "sabe" o que é uma maçã no sentido humano — em vez disso, reconhece que a palavra "maçã" frequentemente aparece ao lado de termos como "fruta", "vermelha", "pomar" ou até "iPhone". Esse entendimento estatístico é codificado em bilhões de parâmetros (basicamente configurações ajustáveis na rede neural da IA).
Mas aqui está a questão de um milhão de dólares: Quanto do conhecimento de um LLM vem de aprendizado generalizado, e quanto é apenas memorização verbatim?
Isso não é apenas acadêmico — tem implicações legais no mundo real. Se os modelos de IA forem considerados como copiando grandes trechos de texto protegido por direitos autorais, processos de artistas, autores e editores podem ganhar força. Mas se eles estão realmente aprendendo padrões em vez de conteúdo exato, as empresas de IA podem ter defesas mais fortes de uso justo.
A Resposta: 3,6 Bits por Parâmetro
O estudo descobriu que os LLMs têm uma capacidade de memorização fixa de cerca de 3,6 bits por parâmetro. O que isso significa na prática?
- Um único bit é a menor unidade digital (0 ou 1).
- 3,6 bits podem armazenar cerca de 12 valores distintos — como escolher um mês do ano ou rolar um dado de 12 lados.
- Não é suficiente para armazenar uma letra completa do inglês (que precisa de ~4,7 bits), mas pode codificar um caractere de um conjunto reduzido de 10 letras comuns.
- Em bytes, 3,6 bits é apenas 0,45 bytes — menos de meio caractere ASCII padrão.
Crucialmente, esse número permaneceu estável em diferentes tamanhos de modelo, arquiteturas e até níveis de precisão (embora modelos de precisão total atingissem um pouco mais, com 3,83 bits/parâmetro).
A Grande Surpresa: Mais Dados = Menos Memorização
Aqui é onde as coisas ficam realmente interessantes: Treinar com mais dados não aumenta a memorização — na verdade, reduz ela.
Como explicou o pesquisador principal Jack Morris:
"Treinar com mais dados força os modelos a memorizar menos por amostra."
Pense assim: se uma IA tem um "orçamento de memória" fixo, espalhá-lo por um conjunto de dados maior significa que cada peça individual recebe menos armazenamento dedicado. Então, conjuntos de dados maiores incentivam a generalização em vez de cópia literal — o que pode aliviar preocupações sobre a IA regurgitar conteúdo protegido por direitos autorais ou sensível.
Como os Pesquisadores Mediram Isso?
Para isolar a memorização da generalização, a equipe treinou modelos em cadeias de bits completamente aleatórias — dados sem nenhum padrão ou estrutura.
Por quê? Porque se um modelo reconstrói uma cadeia aleatória, ele deve tê-la memorizado — não há lógica subjacente para inferir.
Essa abordagem permitiu que eles:
✔ Medissem a memorização pura, separada dos padrões aprendidos.
✔ Confirmassem que a memorização escala previsivelmente com o tamanho do modelo.
✔ Mostrassem que a generalização entra em ação à medida que os conjuntos de dados crescem.
Implicações no Mundo Real
- Conjuntos de dados menores levam a mais memorização.
- Conjuntos de dados maiores empurram os modelos para a generalização (com uma queda temporária de desempenho em "descida dupla").
- Maior precisão (por exemplo, float32 vs. bfloat16) aumenta ligeiramente a capacidade de memorização (de 3,51 para 3,83 bits/parâmetro).
Dados Únicos São Mais Propensos a Serem Memorizados
Embora o estudo foque em médias, conteúdo altamente único ou estilizado (como trechos de código raros ou escrita distinta) pode ainda ser mais vulnerável à memorização.
No entanto, ataques de inferência de associação (tentar detectar se dados específicos estavam no conjunto de treinamento) tornam-se pouco confiáveis à medida que os conjuntos de dados crescem — apoiando a ideia de que o treinamento em grande escala reduz riscos de privacidade.
Colocando em Perspectiva
- Um modelo de 500 mil parâmetros pode memorizar ~225 KB de dados.
- Um modelo de 1,5 bilhão de parâmetros pode armazenar ~675 MB.
- Isso não é suficiente para reproduzir livros inteiros ou imagens, mas explica padrões textuais distribuídos.
Ramificações Legais?
Esta pesquisa pode desempenhar um papel-chave em processos de direitos autorais de IA em andamento. Se os tribunais virem que os LLMs principalmente generalizam em vez de copiar, as empresas de IA podem ter argumentos mais fortes de uso justo.
A Conclusão
Mais dados = IA mais segura e generalizada. Em vez de temer conjuntos de dados massivos, podemos realmente querer eles — porque eles empurram os modelos para compreensão em vez de memorização.
Este estudo não apenas aprofunda nossa compreensão da IA — ele pode reformular como regulamos, desenvolvemos e confiamos nesses sistemas poderosos no futuro.
Artigo relacionado
渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度
AI如何变革医疗保健:减少职业倦怠并提升患者护理挑战:临床医生超负荷与患者就医延迟全球医疗系统面临双重挑战:临床医生职业倦怠和患者就医延迟。医生们被行政任务淹没,而患者难以获得及时的医疗服务。在渥太华医院(TOH),领导者认识到这一问题,并转向AI寻求解决方案。通过整合Microsoft的DAX Copilot——一款AI驱动的临床文档助手,他们已经看到显著的改善:✔ 每次患者就诊节省7分钟✔ 临
6个必须了解的ChatGPT项目功能以提升AI性能
ChatGPT项目迎来重大升级——以下是新功能OpenAI为ChatGPT项目推出了迄今为止最大的更新,将其从简单的组织工具转变为生产力 powerhouse。无论您是在管理研究、编码项目还是创意工作流,这六个新功能从根本上改变了您与AI的交互方式——使其更智能、更直观、在现实场景中更加实用。 让我们一一解析。 ChatGPT项目的6个变革性功能1. 语音模式来了(彻底改变游戏规则)语音模式不仅仅
OpenAI发布GPT-4.1未附安全报告
OpenAI的GPT-4.1在没有安全报告的情况下发布——这意味着什么周一,OpenAI推出了其最新的AI模型GPT-4.1,该模型在性能上有所提升,尤其是在编程基准测试中。但与之前的发布不同,这次有一个明显的遗漏:没有安全报告。 通常,OpenAI会发布一份“系统卡”,详细说明内部和第三方安全评估,揭示潜在风险,如欺骗行为或非预期的说服能力。这些报告被视为AI开发中促进透明度的善意努力。 然
Comentários (0)
0/200
Quanto os Modelos de IA Realmente Memorizam? Nova Pesquisa Revela Insights Surpreendentes
Todos sabemos que grandes modelos de linguagem (LLMs) como ChatGPT, Claude e Gemini são treinados em conjuntos de dados enormes — trilhões de palavras de livros, sites, códigos e até multimídia como imagens e áudio. Mas o que exatamente acontece com todos esses dados? Esses modelos realmente entendem a linguagem, ou apenas regurgitam trechos memorizados?
Um novo estudo inovador da Meta, Google DeepMind, Cornell e NVIDIA finalmente nos dá algumas respostas concretas — e os resultados podem surpreender você.
A Grande Questão: Memorização vs. Generalização
No fundo, os LLMs funcionam detectando padrões estatísticos na linguagem. Quando você pergunta ao ChatGPT sobre maçãs, ele não "sabe" o que é uma maçã no sentido humano — em vez disso, reconhece que a palavra "maçã" frequentemente aparece ao lado de termos como "fruta", "vermelha", "pomar" ou até "iPhone". Esse entendimento estatístico é codificado em bilhões de parâmetros (basicamente configurações ajustáveis na rede neural da IA).
Mas aqui está a questão de um milhão de dólares: Quanto do conhecimento de um LLM vem de aprendizado generalizado, e quanto é apenas memorização verbatim?
Isso não é apenas acadêmico — tem implicações legais no mundo real. Se os modelos de IA forem considerados como copiando grandes trechos de texto protegido por direitos autorais, processos de artistas, autores e editores podem ganhar força. Mas se eles estão realmente aprendendo padrões em vez de conteúdo exato, as empresas de IA podem ter defesas mais fortes de uso justo.
A Resposta: 3,6 Bits por Parâmetro
O estudo descobriu que os LLMs têm uma capacidade de memorização fixa de cerca de 3,6 bits por parâmetro. O que isso significa na prática?
- Um único bit é a menor unidade digital (0 ou 1).
- 3,6 bits podem armazenar cerca de 12 valores distintos — como escolher um mês do ano ou rolar um dado de 12 lados.
- Não é suficiente para armazenar uma letra completa do inglês (que precisa de ~4,7 bits), mas pode codificar um caractere de um conjunto reduzido de 10 letras comuns.
- Em bytes, 3,6 bits é apenas 0,45 bytes — menos de meio caractere ASCII padrão.
Crucialmente, esse número permaneceu estável em diferentes tamanhos de modelo, arquiteturas e até níveis de precisão (embora modelos de precisão total atingissem um pouco mais, com 3,83 bits/parâmetro).
A Grande Surpresa: Mais Dados = Menos Memorização
Aqui é onde as coisas ficam realmente interessantes: Treinar com mais dados não aumenta a memorização — na verdade, reduz ela.
Como explicou o pesquisador principal Jack Morris:
"Treinar com mais dados força os modelos a memorizar menos por amostra."
Pense assim: se uma IA tem um "orçamento de memória" fixo, espalhá-lo por um conjunto de dados maior significa que cada peça individual recebe menos armazenamento dedicado. Então, conjuntos de dados maiores incentivam a generalização em vez de cópia literal — o que pode aliviar preocupações sobre a IA regurgitar conteúdo protegido por direitos autorais ou sensível.
Como os Pesquisadores Mediram Isso?
Para isolar a memorização da generalização, a equipe treinou modelos em cadeias de bits completamente aleatórias — dados sem nenhum padrão ou estrutura.
Por quê? Porque se um modelo reconstrói uma cadeia aleatória, ele deve tê-la memorizado — não há lógica subjacente para inferir.
Essa abordagem permitiu que eles:
✔ Medissem a memorização pura, separada dos padrões aprendidos.
✔ Confirmassem que a memorização escala previsivelmente com o tamanho do modelo.
✔ Mostrassem que a generalização entra em ação à medida que os conjuntos de dados crescem.
Implicações no Mundo Real
- Conjuntos de dados menores levam a mais memorização.
- Conjuntos de dados maiores empurram os modelos para a generalização (com uma queda temporária de desempenho em "descida dupla").
- Maior precisão (por exemplo, float32 vs. bfloat16) aumenta ligeiramente a capacidade de memorização (de 3,51 para 3,83 bits/parâmetro).
Dados Únicos São Mais Propensos a Serem Memorizados
Embora o estudo foque em médias, conteúdo altamente único ou estilizado (como trechos de código raros ou escrita distinta) pode ainda ser mais vulnerável à memorização.
No entanto, ataques de inferência de associação (tentar detectar se dados específicos estavam no conjunto de treinamento) tornam-se pouco confiáveis à medida que os conjuntos de dados crescem — apoiando a ideia de que o treinamento em grande escala reduz riscos de privacidade.
Colocando em Perspectiva
- Um modelo de 500 mil parâmetros pode memorizar ~225 KB de dados.
- Um modelo de 1,5 bilhão de parâmetros pode armazenar ~675 MB.
- Isso não é suficiente para reproduzir livros inteiros ou imagens, mas explica padrões textuais distribuídos.
Ramificações Legais?
Esta pesquisa pode desempenhar um papel-chave em processos de direitos autorais de IA em andamento. Se os tribunais virem que os LLMs principalmente generalizam em vez de copiar, as empresas de IA podem ter argumentos mais fortes de uso justo.
A Conclusão
Mais dados = IA mais segura e generalizada. Em vez de temer conjuntos de dados massivos, podemos realmente querer eles — porque eles empurram os modelos para compreensão em vez de memorização.
Este estudo não apenas aprofunda nossa compreensão da IA — ele pode reformular como regulamos, desenvolvemos e confiamos nesses sistemas poderosos no futuro.











