Maison

Nouvelles

Nouvelle étude révèle combien de données les LLM mémorisent réellement

6 juillet 2025

ArthurBrown

# Nvidia # research # Google # openai # deepmind # meta # LLMs # nlp # gpt-4

Nouvelle étude révèle combien de données les LLM mémorisent réellement

Combien les modèles d'IA mémorisent-ils réellement ? Une nouvelle recherche révèle des insights surprenants

Nous savons tous que les grands modèles de langage (LLM) comme ChatGPT, Claude et Gemini sont entraînés sur d'énormes ensembles de données — des trillions de mots provenant de livres, sites web, code, et même de contenus multimédias comme des images et de l'audio. Mais que devient toute cette donnée ? Ces modèles comprennent-ils vraiment le langage, ou se contentent-ils de régurgiter des extraits mémorisés ?

Une nouvelle étude révolutionnaire de Meta, Google DeepMind, Cornell et NVIDIA nous donne enfin des réponses concrètes — et les résultats pourraient vous surprendre.

La grande question : mémorisation vs généralisation

Au cœur, les LLM fonctionnent en détectant des motifs statistiques dans le langage. Quand vous demandez à ChatGPT des informations sur les pommes, il ne "sait" pas ce qu'est une pomme au sens humain — il reconnaît que le mot "pomme" apparaît souvent avec des termes comme "fruit", "rouge", "verger", ou même "iPhone". Cette compréhension statistique est encodée dans des milliards de paramètres (essentiellement des réglages ajustables dans le réseau neuronal de l'IA).

Mais voici la question à un million : quelle part de la connaissance d'un LLM provient d'un apprentissage généralisé, et quelle part n'est que de la mémorisation verbatim ?

Ce n'est pas seulement académique — cela a des implications juridiques concrètes. Si les modèles d'IA copient de grands morceaux de textes sous droits d'auteur, les poursuites d'artistes, d'auteurs et d'éditeurs pourraient prendre de l'ampleur. Mais s'ils apprennent vraiment des motifs plutôt que du contenu exact, les entreprises d'IA pourraient avoir des défenses plus solides pour un usage équitable.

La réponse : 3,6 bits par paramètre

L'étude a révélé que les LLM ont une capacité de mémorisation fixe d'environ 3,6 bits par paramètre. Qu'est-ce que cela signifie en termes pratiques ?

Un seul bit est la plus petite unité numérique (0 ou 1).
3,6 bits peuvent stocker environ 12 valeurs distinctes — comme choisir un mois de l'année ou lancer un dé à 12 faces.
Ce n'est pas assez pour stocker une lettre anglaise complète (qui nécessite ~4,7 bits), mais cela pourrait coder un caractère parmi un ensemble réduit de 10 lettres courantes.
En octets, 3,6 bits équivalent à 0,45 octet — moins de la moitié d'un caractère ASCII standard.

De manière cruciale, ce chiffre est resté stable à travers différentes tailles de modèles, architectures, et même niveaux de précision (bien que les modèles à pleine précision atteignent légèrement plus haut à 3,83 bits/paramètre).

La grande surprise : plus de données = moins de mémorisation

Voici où les choses deviennent vraiment intéressantes : entraîner sur plus de données n'augmente pas la mémorisation — cela la réduit en fait.

Comme l'a expliqué le chercheur principal Jack Morris :

"Entraîner sur plus de données force les modèles à moins mémoriser par échantillon."

Imaginez cela ainsi : si une IA a un "budget de mémoire" fixe, le répartir sur un ensemble de données plus grand signifie que chaque pièce individuelle reçoit moins de stockage dédié. Ainsi, des ensembles de données plus grands favorisent la généralisation plutôt que la copie par cœur — ce qui pourrait apaiser les préoccupations sur la régurgitation par l'IA de contenus sous droits d'auteur ou sensibles.

Comment les chercheurs ont-ils mesuré cela ?

Pour isoler la mémorisation de la généralisation, l'équipe a entraîné des modèles sur des chaînes de bits complètement aléatoires — des données sans motifs ni structure.

Pourquoi ? Parce que si un modèle reconstruit une chaîne aléatoire, il doit l'avoir mémorisée — il n'y a aucune logique sous-jacente à inférer.

Cette approche leur a permis de :
✔ Mesurer la mémorisation pure, séparée des motifs appris.
✔ Confirmer que la mémorisation évolue de manière prévisible avec la taille du modèle.
✔ Montrer que la généralisation s'active à mesure que les ensembles de données grossissent.

Implications concrètes

Les ensembles de données plus petits conduisent à plus de mémorisation.
Les ensembles de données plus grands poussent les modèles vers la généralisation (avec une baisse temporaire de performance en "double descente").
Une précision plus élevée (par exemple, float32 vs bfloat16) augmente légèrement la capacité de mémorisation (de 3,51 à 3,83 bits/paramètre).

Les données uniques sont plus susceptibles d'être mémorisées

Bien que l'étude se concentre sur les moyennes, un contenu hautement unique ou stylisé (comme des extraits de code rares ou une écriture distinctive) peut être plus vulnérable à la mémorisation.

Cependant, les attaques d'inférence d'appartenance (tenter de détecter si des données spécifiques étaient dans l'ensemble d'entraînement) deviennent peu fiables à mesure que les ensembles de données grossissent — soutenant l'idée que un entraînement à grande échelle réduit les risques de confidentialité.

Mettre les choses en perspective

Un modèle à 500K paramètres peut mémoriser ~225 Ko de données.
Un modèle à 1,5B paramètres peut stocker ~675 Mo.
Ce n'est pas assez pour reproduire des livres entiers ou des images, mais cela explique les motifs textuels distribués.

Conséquences juridiques ?

Cette recherche pourrait jouer un rôle clé dans les procès en cours sur les droits d'auteur en IA. Si les tribunaux constatent que les LLM généralisent plutôt que copient, les entreprises d'IA pourraient avoir des arguments plus solides pour un usage équitable.

En conclusion

Plus de données = une IA plus sûre et plus généralisée. Au lieu de craindre les ensembles de données mass sway, nous pourrions en fait les vouloir — car ils poussent les modèles vers la compréhension plutôt que la mémorisation.

Cette étude ne fait pas que approfondir notre compréhension de l'IA — elle pourrait remodeler la manière dont nous régulons, développons et faisons confiance à ces systèmes puissants à l'avenir.

Article connexe

Qodo s'associe à Google Cloud pour offrir des outils gratuits d'examen de code par IA aux développeurs Qodo, une startup israélienne spécialisée dans le codage par IA et axée sur la qualité du code, a lancé un partenariat avec Google Cloud pour améliorer l'intégrité des logiciels générés par IA.À mesur

Salesforce Dévoile des Coéquipiers Numériques IA dans Slack pour Rivaliser avec Microsoft Copilot Le nouvel outil, Agentforce dans Slack, permet aux entreprises de créer et de déployer des agents IA spécifiques à des tâches qui recherchent dans les discussions professionnelles, accèdent aux donnée

Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas Oracle prévoit d'investir environ 40 milliards de dollars dans des puces Nvidia pour alimenter un nouveau centre de données majeur au Texas, développé par OpenAI, selon le Financial Times. Cette trans

commentaires (1)

0/200

Soumettre

EdwardYoung

10 août 2025 01:01:00 UTC+02:00

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!