Hogar

Noticias

Nuevo Estudio Revela Cuántos Datos Memorizan Realmente los LLMs

6 de julio de 2025

ArthurBrown

# Nvidia # research # Google # openai # deepmind # meta # LLMs # nlp # gpt-4

Nuevo Estudio Revela Cuántos Datos Memorizan Realmente los LLMs

¿Cuánto Memorizan Realmente los Modelos de IA? Nueva Investigación Revela Ideas Sorprendentes

Todos sabemos que los modelos de lenguaje grandes (LLMs) como ChatGPT, Claude y Gemini se entrenan con enormes conjuntos de datos—billones de palabras de libros, sitios web, código e incluso multimedia como imágenes y audio. Pero, ¿qué pasa exactamente con todos esos datos? ¿Realmente entienden el lenguaje estos modelos, o solo están regurgitando fragmentos memorizados?

Un nuevo estudio innovador de Meta, Google DeepMind, Cornell y NVIDIA finalmente nos da respuestas concretas—y los resultados podrían sorprenderte.

La Gran Pregunta: Memorización vs. Generalización

En su núcleo, los LLMs funcionan detectando patrones estadísticos en el lenguaje. Cuando le preguntas a ChatGPT sobre manzanas, no "sabe" qué es una manzana en el sentido humano—en cambio, reconoce que la palabra "manzana" aparece frecuentemente junto a términos como "fruta", "rojo", "huerto" o incluso "iPhone". Esta comprensión estadística se codifica en miles de millones de parámetros (básicamente configuraciones ajustables en la red neuronal de la IA).

Pero aquí está la pregunta del millón: ¿Cuánto del conocimiento de un LLM proviene del aprendizaje generalizado y cuánto es solo memorización verbatim?

Esto no es solo académico—tiene implicaciones legales en el mundo real. Si se descubre que los modelos de IA están copiando grandes fragmentos de texto con derechos de autor, las demandas de artistas, autores y editores podrían ganar terreno. Pero si están aprendiendo patrones en lugar de contenido exacto, las empresas de IA podrían tener defensas más sólidas de uso justo.

La Respuesta: 3.6 Bits por Parámetro

El estudio encontró que los LLMs tienen una capacidad de memorización fija de aproximadamente 3.6 bits por parámetro. ¿Qué significa eso en términos prácticos?

Un solo bit es la unidad digital más pequeña (0 o 1).
3.6 bits pueden almacenar alrededor de 12 valores distintos—como elegir un mes del año o lanzar un dado de 12 caras.
No es suficiente para almacenar una letra completa en inglés (que necesita ~4.7 bits), pero podría codificar un carácter de un conjunto reducido de 10 letras comunes.
En bytes, 3.6 bits son solo 0.45 bytes—menos de la mitad de un carácter ASCII estándar.

Crucialmente, este número se mantuvo constante en diferentes tamaños de modelos, arquitecturas e incluso niveles de precisión (aunque los modelos de precisión completa alcanzaron ligeramente más alto en 3.83 bits/parámetro).

La Gran Sorpresa: Más Datos = Menos Memorización

Aquí es donde las cosas se ponen realmente interesantes: Entrenar con más datos no aumenta la memorización—en realidad la reduce.

Como explicó el investigador principal Jack Morris:

"Entrenar con más datos obliga a los modelos a memorizar menos por muestra."

Piénsalo de esta manera: Si una IA tiene un "presupuesto de memoria" fijo, distribuirlo en un conjunto de datos más grande significa que cada pieza individual recibe menos almacenamiento dedicado. Entonces, conjuntos de datos más grandes fomentan la generalización sobre la copia literal—lo que podría aliviar las preocupaciones sobre la IA regurgitando contenido con derechos de autor o sensible.

¿Cómo Midieron Esto los Investigadores?

Para aislar la memorización de la generalización, el equipo entrenó modelos con cadenas de bits completamente aleatorias—datos sin ningún patrón o estructura.

¿Por qué? Porque si un modelo reconstruye una cadena aleatoria, debe haberla memorizado—no hay lógica subyacente para inferir.

Este enfoque les permitió:
✔ Medir la memorización pura, separada de los patrones aprendidos.
✔ Confirmar que la memorización escala predeciblemente con el tamaño del modelo.
✔ Mostrar que la generalización se activa a medida que los conjuntos de datos crecen.

Implicaciones en el Mundo Real

Conjuntos de datos más pequeños conducen a más memorización.
Conjuntos de datos más grandes empujan a los modelos hacia la generalización (con una caída temporal de rendimiento en "doble descenso").
Mayor precisión (por ejemplo, float32 vs. bfloat16) aumenta ligeramente la capacidad de memorización (de 3.51 a 3.83 bits/parámetro).

Los Datos Únicos Son Más Propensos a Ser Memorizados

Aunque el estudio se centra en promedios, el contenido altamente único o estilizado (como fragmentos de código raros o escritura distintiva) puede ser más vulnerable a la memorización.

Sin embargo, los ataques de inferencia de membresía (intentar detectar si datos específicos estaban en el conjunto de entrenamiento) se vuelven poco confiables a medida que los conjuntos de datos crecen—apoyando la idea de que el entrenamiento a gran escala reduce los riesgos de privacidad.

Poniéndolo en Perspectiva

Un modelo de 500K parámetros puede memorizar ~225 KB de datos.
Un modelo de 1.5B parámetros puede almacenar ~675 MB.
Eso no es suficiente para reproducir libros o imágenes completas, pero sí explica patrones textuales distribuidos.

¿Ramificaciones Legales?

Esta investigación podría desempeñar un papel clave en las demandas de derechos de autor de IA en curso. Si los tribunales ven que los LLMs principalmente generalizan en lugar de copiar, las empresas de IA pueden tener argumentos de uso justo más sólidos.

La Conclusión

Más datos = IA más segura y generalizada. En lugar de temer a los conjuntos de datos masivos, podríamos realmente quererlos—porque empujan a los modelos hacia el entendimiento en lugar de la memorización.

Este estudio no solo profundiza nuestra comprensión de la IA—podría reconfigurar cómo regulamos, desarrollamos y confiamos en estos poderosos sistemas en el futuro.

Artículo relacionado

Multiverse AI lanza innovadores modelos en miniatura de alto rendimiento Una empresa europea pionera en el campo de la inteligencia artificial ha presentado unos revolucionarios modelos de tamaño micro que llevan el nombre de cerebros de ave e insecto y demuestran que una

TensorZero obtiene una financiación inicial de 7,3 millones de dólares para simplificar el desarrollo de LLM empresariales TensorZero, un proveedor emergente de infraestructura de código abierto para aplicaciones de IA, ha conseguido 7,3 millones de dólares en financiación inicial liderada por FirstMark Capital, con la pa

Meta comparte ingresos con los anfitriones de los modelos de inteligencia artificial de Llama, según un expediente Aunque Mark Zuckerberg, consejero delegado de Meta, enfatizó en julio de 2023 que "vender acceso" no es su modelo de negocio para los modelos de IA de Llama, archivos judiciales recientemente revelado

comentario (2)

0/200

Entregar

LawrenceWilliams

24 de agosto de 2025 05:01:17 GMT+02:00

This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?

EdwardYoung

10 de agosto de 2025 01:01:00 GMT+02:00

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

Noticias principales

Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Doblaje AI: Guía Definitiva para la Creación de Voz Realista La IA de Cambium transforma la madera de los desechos en madera AI Builder y Power Automate Revolucionan la Sumarización de Documentos Operai mejora el asistente de voz de IA para mejores chats Cómo garantizar que sus datos sean confiables para la integración de IA Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia Duolingo Cambia al Sistema de Energía

Más

Presentado