opción
Hogar
Noticias
Nuevo Estudio Revela Cuántos Datos Memorizan Realmente los LLMs

Nuevo Estudio Revela Cuántos Datos Memorizan Realmente los LLMs

6 de julio de 2025
27

Nuevo Estudio Revela Cuántos Datos Memorizan Realmente los LLMs

¿Cuánto Memorizan Realmente los Modelos de IA? Nueva Investigación Revela Ideas Sorprendentes

Todos sabemos que los modelos de lenguaje grandes (LLMs) como ChatGPT, Claude y Gemini se entrenan con enormes conjuntos de datos—billones de palabras de libros, sitios web, código e incluso multimedia como imágenes y audio. Pero, ¿qué pasa exactamente con todos esos datos? ¿Realmente entienden el lenguaje estos modelos, o solo están regurgitando fragmentos memorizados?

Un nuevo estudio innovador de Meta, Google DeepMind, Cornell y NVIDIA finalmente nos da respuestas concretas—y los resultados podrían sorprenderte.

La Gran Pregunta: Memorización vs. Generalización

En su núcleo, los LLMs funcionan detectando patrones estadísticos en el lenguaje. Cuando le preguntas a ChatGPT sobre manzanas, no "sabe" qué es una manzana en el sentido humano—en cambio, reconoce que la palabra "manzana" aparece frecuentemente junto a términos como "fruta", "rojo", "huerto" o incluso "iPhone". Esta comprensión estadística se codifica en miles de millones de parámetros (básicamente configuraciones ajustables en la red neuronal de la IA).

Pero aquí está la pregunta del millón: ¿Cuánto del conocimiento de un LLM proviene del aprendizaje generalizado y cuánto es solo memorización verbatim?

Esto no es solo académico—tiene implicaciones legales en el mundo real. Si se descubre que los modelos de IA están copiando grandes fragmentos de texto con derechos de autor, las demandas de artistas, autores y editores podrían ganar terreno. Pero si están aprendiendo patrones en lugar de contenido exacto, las empresas de IA podrían tener defensas más sólidas de uso justo.

La Respuesta: 3.6 Bits por Parámetro

El estudio encontró que los LLMs tienen una capacidad de memorización fija de aproximadamente 3.6 bits por parámetro. ¿Qué significa eso en términos prácticos?

  • Un solo bit es la unidad digital más pequeña (0 o 1).
  • 3.6 bits pueden almacenar alrededor de 12 valores distintos—como elegir un mes del año o lanzar un dado de 12 caras.
  • No es suficiente para almacenar una letra completa en inglés (que necesita ~4.7 bits), pero podría codificar un carácter de un conjunto reducido de 10 letras comunes.
  • En bytes, 3.6 bits son solo 0.45 bytes—menos de la mitad de un carácter ASCII estándar.

Crucialmente, este número se mantuvo constante en diferentes tamaños de modelos, arquitecturas e incluso niveles de precisión (aunque los modelos de precisión completa alcanzaron ligeramente más alto en 3.83 bits/parámetro).

La Gran Sorpresa: Más Datos = Menos Memorización

Aquí es donde las cosas se ponen realmente interesantes: Entrenar con más datos no aumenta la memorización—en realidad la reduce.

Como explicó el investigador principal Jack Morris:

"Entrenar con más datos obliga a los modelos a memorizar menos por muestra."

Piénsalo de esta manera: Si una IA tiene un "presupuesto de memoria" fijo, distribuirlo en un conjunto de datos más grande significa que cada pieza individual recibe menos almacenamiento dedicado. Entonces, conjuntos de datos más grandes fomentan la generalización sobre la copia literal—lo que podría aliviar las preocupaciones sobre la IA regurgitando contenido con derechos de autor o sensible.

¿Cómo Midieron Esto los Investigadores?

Para aislar la memorización de la generalización, el equipo entrenó modelos con cadenas de bits completamente aleatorias—datos sin ningún patrón o estructura.

¿Por qué? Porque si un modelo reconstruye una cadena aleatoria, debe haberla memorizado—no hay lógica subyacente para inferir.

Este enfoque les permitió:
✔ Medir la memorización pura, separada de los patrones aprendidos.
✔ Confirmar que la memorización escala predeciblemente con el tamaño del modelo.
✔ Mostrar que la generalización se activa a medida que los conjuntos de datos crecen.

Implicaciones en el Mundo Real

  • Conjuntos de datos más pequeños conducen a más memorización.
  • Conjuntos de datos más grandes empujan a los modelos hacia la generalización (con una caída temporal de rendimiento en "doble descenso").
  • Mayor precisión (por ejemplo, float32 vs. bfloat16) aumenta ligeramente la capacidad de memorización (de 3.51 a 3.83 bits/parámetro).

Los Datos Únicos Son Más Propensos a Ser Memorizados

Aunque el estudio se centra en promedios, el contenido altamente único o estilizado (como fragmentos de código raros o escritura distintiva) puede ser más vulnerable a la memorización.

Sin embargo, los ataques de inferencia de membresía (intentar detectar si datos específicos estaban en el conjunto de entrenamiento) se vuelven poco confiables a medida que los conjuntos de datos crecen—apoyando la idea de que el entrenamiento a gran escala reduce los riesgos de privacidad.

Poniéndolo en Perspectiva

  • Un modelo de 500K parámetros puede memorizar ~225 KB de datos.
  • Un modelo de 1.5B parámetros puede almacenar ~675 MB.
  • Eso no es suficiente para reproducir libros o imágenes completas, pero explica patrones textuales distribuidos.

¿Ramificaciones Legales?

Esta investigación podría desempeñar un papel clave en las demandas de derechos de autor de IA en curso. Si los tribunales ven que los LLMs principalmente generalizan en lugar de copiar, las empresas de IA pueden tener argumentos de uso justo más sólidos.

La Conclusión

Más datos = IA más segura y generalizada. En lugar de temer a los conjuntos de datos masivos, podríamos realmente quererlos—porque empujan a los modelos hacia el entendimiento en lugar de la memorización.

Este estudio no solo profundiza nuestra comprensión de la IA—podría reconfigurar cómo regulamos, desarrollamos y confiamos en estos poderosos sistemas en el futuro.

Artículo relacionado
Qodo se asocia con Google Cloud para ofrecer herramientas gratuitas de revisión de código de IA para desarrolladores Qodo se asocia con Google Cloud para ofrecer herramientas gratuitas de revisión de código de IA para desarrolladores Qodo, una startup de codificación de IA con sede en Israel enfocada en la calidad del código, ha iniciado una asociación con Google Cloud para mejorar la integridad del software generado por IA.A medi
Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot Salesforce lanzó una nueva estrategia de IA para el lugar de trabajo, presentando “compañeros digitales” especializados integrados en las conversaciones de Slack, según reveló la compañía el lunes.La
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
comentario (1)
0/200
EdwardYoung
EdwardYoung 10 de agosto de 2025 01:01:00 GMT+02:00

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

Volver arriba
OR