option
Maison
Nouvelles
Nouvelle étude révèle combien de données les LLM mémorisent réellement

Nouvelle étude révèle combien de données les LLM mémorisent réellement

6 juillet 2025
0

Nouvelle étude révèle combien de données les LLM mémorisent réellement

Combien les modèles d'IA mémorisent-ils réellement ? Une nouvelle recherche révèle des insights surprenants

Nous savons tous que les grands modèles de langage (LLM) comme ChatGPT, Claude et Gemini sont entraînés sur d'énormes ensembles de données — des trillions de mots provenant de livres, sites web, code, et même de contenus multimédias comme des images et de l'audio. Mais que devient toute cette donnée ? Ces modèles comprennent-ils vraiment le langage, ou se contentent-ils de régurgiter des extraits mémorisés ?

Une nouvelle étude révolutionnaire de Meta, Google DeepMind, Cornell et NVIDIA nous donne enfin des réponses concrètes — et les résultats pourraient vous surprendre.

La grande question : mémorisation vs généralisation

Au cœur, les LLM fonctionnent en détectant des motifs statistiques dans le langage. Quand vous demandez à ChatGPT des informations sur les pommes, il ne "sait" pas ce qu'est une pomme au sens humain — il reconnaît que le mot "pomme" apparaît souvent avec des termes comme "fruit", "rouge", "verger", ou même "iPhone". Cette compréhension statistique est encodée dans des milliards de paramètres (essentiellement des réglages ajustables dans le réseau neuronal de l'IA).

Mais voici la question à un million : quelle part de la connaissance d'un LLM provient d'un apprentissage généralisé, et quelle part n'est que de la mémorisation verbatim ?

Ce n'est pas seulement académique — cela a des implications juridiques concrètes. Si les modèles d'IA copient de grands morceaux de textes sous droits d'auteur, les poursuites d'artistes, d'auteurs et d'éditeurs pourraient prendre de l'ampleur. Mais s'ils apprennent vraiment des motifs plutôt que du contenu exact, les entreprises d'IA pourraient avoir des défenses plus solides pour un usage équitable.

La réponse : 3,6 bits par paramètre

L'étude a révélé que les LLM ont une capacité de mémorisation fixe d'environ 3,6 bits par paramètre. Qu'est-ce que cela signifie en termes pratiques ?

  • Un seul bit est la plus petite unité numérique (0 ou 1).
  • 3,6 bits peuvent stocker environ 12 valeurs distinctes — comme choisir un mois de l'année ou lancer un dé à 12 faces.
  • Ce n'est pas assez pour stocker une lettre anglaise complète (qui nécessite ~4,7 bits), mais cela pourrait coder un caractère parmi un ensemble réduit de 10 lettres courantes.
  • En octets, 3,6 bits équivalent à 0,45 octet — moins de la moitié d'un caractère ASCII standard.

De manière cruciale, ce chiffre est resté stable à travers différentes tailles de modèles, architectures, et même niveaux de précision (bien que les modèles à pleine précision atteignent légèrement plus haut à 3,83 bits/paramètre).

La grande surprise : plus de données = moins de mémorisation

Voici où les choses deviennent vraiment intéressantes : entraîner sur plus de données n'augmente pas la mémorisation — cela la réduit en fait.

Comme l'a expliqué le chercheur principal Jack Morris :

"Entraîner sur plus de données force les modèles à moins mémoriser par échantillon."

Imaginez cela ainsi : si une IA a un "budget de mémoire" fixe, le répartir sur un ensemble de données plus grand signifie que chaque pièce individuelle reçoit moins de stockage dédié. Ainsi, des ensembles de données plus grands favorisent la généralisation plutôt que la copie par cœur — ce qui pourrait apaiser les préoccupations sur la régurgitation par l'IA de contenus sous droits d'auteur ou sensibles.

Comment les chercheurs ont-ils mesuré cela ?

Pour isoler la mémorisation de la généralisation, l'équipe a entraîné des modèles sur des chaînes de bits complètement aléatoires — des données sans motifs ni structure.

Pourquoi ? Parce que si un modèle reconstruit une chaîne aléatoire, il doit l'avoir mémorisée — il n'y a aucune logique sous-jacente à inférer.

Cette approche leur a permis de :
✔ Mesurer la mémorisation pure, séparée des motifs appris.
✔ Confirmer que la mémorisation évolue de manière prévisible avec la taille du modèle.
✔ Montrer que la généralisation s'active à mesure que les ensembles de données grossissent.

Implications concrètes

  • Les ensembles de données plus petits conduisent à plus de mémorisation.
  • Les ensembles de données plus grands poussent les modèles vers la généralisation (avec une baisse temporaire de performance en "double descente").
  • Une précision plus élevée (par exemple, float32 vs bfloat16) augmente légèrement la capacité de mémorisation (de 3,51 à 3,83 bits/paramètre).

Les données uniques sont plus susceptibles d'être mémorisées

Bien que l'étude se concentre sur les moyennes, un contenu hautement unique ou stylisé (comme des extraits de code rares ou une écriture distinctive) peut être plus vulnérable à la mémorisation.

Cependant, les attaques d'inférence d'appartenance (tenter de détecter si des données spécifiques étaient dans l'ensemble d'entraînement) deviennent peu fiables à mesure que les ensembles de données grossissent — soutenant l'idée que un entraînement à grande échelle réduit les risques de confidentialité.

Mettre les choses en perspective

  • Un modèle à 500K paramètres peut mémoriser ~225 Ko de données.
  • Un modèle à 1,5B paramètres peut stocker ~675 Mo.
  • Ce n'est pas assez pour reproduire des livres entiers ou des images, mais cela explique les motifs textuels distribués.

Conséquences juridiques ?

Cette recherche pourrait jouer un rôle clé dans les procès en cours sur les droits d'auteur en IA. Si les tribunaux constatent que les LLM généralisent plutôt que copient, les entreprises d'IA pourraient avoir des arguments plus solides pour un usage équitable.

En conclusion

Plus de données = une IA plus sûre et plus généralisée. Au lieu de craindre les ensembles de données mass sway, nous pourrions en fait les vouloir — car ils poussent les modèles vers la compréhension plutôt que la mémorisation.

Cette étude ne fait pas que approfondir notre compréhension de l'IA — elle pourrait remodeler la manière dont nous régulons, développons et faisons confiance à ces systèmes puissants à l'avenir.

Article connexe
渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度 渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度 AI如何变革医疗保健:减少职业倦怠并提升患者护理挑战:临床医生超负荷与患者就医延迟全球医疗系统面临双重挑战:临床医生职业倦怠和患者就医延迟。医生们被行政任务淹没,而患者难以获得及时的医疗服务。在渥太华医院(TOH),领导者认识到这一问题,并转向AI寻求解决方案。通过整合Microsoft的DAX Copilot——一款AI驱动的临床文档助手,他们已经看到显著的改善:✔ 每次患者就诊节省7分钟✔ 临
6个必须了解的ChatGPT项目功能以提升AI性能 6个必须了解的ChatGPT项目功能以提升AI性能 ChatGPT项目迎来重大升级——以下是新功能OpenAI为ChatGPT项目推出了迄今为止最大的更新,将其从简单的组织工具转变为生产力 powerhouse。无论您是在管理研究、编码项目还是创意工作流,这六个新功能从根本上改变了您与AI的交互方式——使其更智能、更直观、在现实场景中更加实用。 让我们一一解析。 ChatGPT项目的6个变革性功能1. 语音模式来了(彻底改变游戏规则)语音模式不仅仅
OpenAI发布GPT-4.1未附安全报告 OpenAI发布GPT-4.1未附安全报告 OpenAI的GPT-4.1在没有安全报告的情况下发布——这意味着什么周一,OpenAI推出了其最新的AI模型GPT-4.1,该模型在性能上有所提升,尤其是在编程基准测试中。但与之前的发布不同,这次有一个明显的遗漏:没有安全报告。 通常,OpenAI会发布一份“系统卡”,详细说明内部和第三方安全评估,揭示潜在风险,如欺骗行为或非预期的说服能力。这些报告被视为AI开发中促进透明度的善意努力。 然
commentaires (0)
0/200
Retour en haut
OR