Neue Studie enthüllt, wie viel Daten LLMs tatsächlich speichern

Wie viel speichern AI-Modelle tatsächlich? Neue Forschung enthüllt überraschende Erkenntnisse
Wir alle wissen, dass große Sprachmodelle (LLMs) wie ChatGPT, Claude und Gemini auf riesigen Datensätzen trainiert werden – Billionen von Wörtern aus Büchern, Websites, Code und sogar Multimedia wie Bildern und Audio. Aber was passiert genau mit all diesen Daten? Verstehen diese Modelle Sprache wirklich oder geben sie nur gespeicherte Textfragmente wieder?
Eine bahnbrechende neue Studie von Meta, Google DeepMind, Cornell und NVIDIA liefert endlich konkrete Antworten – und die Ergebnisse könnten Sie überraschen.
Die große Frage: Speicherung vs. Verallgemeinerung
Im Kern funktionieren LLMs, indem sie statistische Muster in der Sprache erkennen. Wenn Sie ChatGPT nach Äpfeln fragen, „weiß“ es nicht, was ein Apfel im menschlichen Sinne ist – stattdessen erkennt es, dass das Wort „Apfel“ häufig neben Begriffen wie „Frucht“, „rot“, „Obstgarten“ oder sogar „iPhone“ vorkommt. Dieses statistische Verständnis ist in Milliarden von Parametern (im Wesentlichen einstellbaren Einstellungen im neuronalen Netzwerk der KI) codiert.
Doch hier ist die Millionen-Dollar-Frage: Wie viel des Wissens eines LLMs stammt aus verallgemeinertem Lernen und wie viel ist nur wörtliche Speicherung?
Dies ist nicht nur akademisch – es hat reale rechtliche Auswirkungen. Wenn KI-Modelle große Teile urheberrechtlich geschützter Texte kopieren, könnten Klagen von Künstlern, Autoren und Verlagen an Fahrt gewinnen. Aber wenn sie tatsächlich Muster lernen statt exakter Inhalte, könnten KI-Unternehmen stärkere Argumente für eine faire Nutzung haben.
Die Antwort: 3,6 Bits pro Parameter
Die Studie ergab, dass LLMs eine feste Speicherkapazität von etwa 3,6 Bits pro Parameter haben. Was bedeutet das in der Praxis?
- Ein Bit ist die kleinste digitale Einheit (0 oder 1).
- 3,6 Bits können etwa 12 verschiedene Werte speichern – wie die Auswahl eines Monats im Jahr oder das Würfeln mit einem 12-seitigen Würfel.
- Es reicht nicht aus, um einen vollständigen englischen Buchstaben zu speichern (der ~4,7 Bits benötigt), aber es könnte einen Buchstaben aus einem reduzierten Satz von 10 häufigen Buchstaben codieren.
- In Bytes sind 3,6 Bits nur 0,45 Bytes – weniger als die Hälfte eines standardmäßigen ASCII-Zeichens.
Entscheidend ist, dass diese Zahl bei verschiedenen Modellgrößen, Architekturen und sogar Präzisionsstufen konstant blieb (wobei vollpräzise Modelle etwas höher bei 3,83 Bits/Parameter lagen).
Die große Überraschung: Mehr Daten = Weniger Speicherung
Hier wird es wirklich interessant: Training mit mehr Daten erhöht die Speicherung nicht – es reduziert sie tatsächlich.
Wie der Haupforscher Jack Morris erklärte:
„Training mit mehr Daten zwingt Modelle, weniger pro Datenpunkt zu speichern.“
Stellen Sie es sich so vor: Wenn eine KI ein festes „Speicherbudget“ hat, bedeutet das Verteilen über einen größeren Datensatz, dass jede einzelne Information weniger dedizierten Speicherplatz erhält. Also fördern größere Datensätze die Verallgemeinerung statt bloßes Abschreiben – was Bedenken über das Wiedergeben urheberrechtlich geschützter oder sensibler Inhalte lindern könnte.
Wie haben die Forscher dies gemessen?
Um Speicherung von Verallgemeinerung zu isolieren, trainierten sie Modelle auf komplett zufälligen Bitfolgen – Daten ohne jegliche Muster oder Struktur.
Warum? Weil, wenn ein Modell eine zufällige Zeichenfolge rekonstruiert, es sie gespeichert haben muss – es gibt keine zugrunde liegende Logik, die man ableiten könnte.
Dieser Ansatz erlaubte es ihnen:
✔ Reines Speichern zu messen, getrennt von erlernten Mustern.
✔ Zu bestätigen, dass Speicherung vorhersehbar mit der Modellgröße skaliert.
✔ Zu zeigen, dass Verallgemeinerung einsetzt, wenn Datensätze größer werden.
Reale Auswirkungen
- Kleinere Datensätze führen zu mehr Speicherung.
- Größere Datensätze drängen Modelle zur Verallgemeinerung (mit einem vorübergehenden „Double Descent“-Leistungsabfall).
- Höhere Präzision (z. B. float32 vs. bfloat16) erhöht die Speicherkapazität leicht (von 3,51 auf 3,83 Bits/Parameter).
Einzigartige Daten werden eher gespeichert
Während die Studie sich auf Durchschnittswerte konzentriert, besonders einzigartige oder stilisierte Inhalte (wie seltene Codeschnipsel oder markantes Schreiben) könnten anfälliger für Speicherung sein.
Allerdings werden Mitgliedschafts-Inferenzangriffe (der Versuch, festzustellen, ob bestimmte Daten im Trainingssatz waren) unzuverlässig, wenn Datensätze wachsen – was die Idee unterstützt, dass groß angelegtes Training Datenschutzrisiken reduziert.
In Perspektive gesetzt
- Ein 500K-Parameter-Modell kann etwa 225 KB Daten speichern.
- Ein 1,5B-Parameter-Modell kann etwa 675 MB speichern.
- Das reicht nicht, um ganze Bücher oder Bilder zu reproduzieren, aber es erklärt verteilte textuelle Muster.
Rechtliche Folgen?
Diese Forschung könnte eine Schlüsselrolle in laufenden KI-Urheberrechtsklagen spielen. Wenn Gerichte erkennen, dass LLMs hauptsächlich verallgemeinern statt kopieren, könnten KI-Unternehmen stärkere Argumente für faire Nutzung haben.
Das Fazit
Mehr Daten = sicherere, verallgemeinerte KI. Anstatt große Datensätze zu fürchten, könnten wir sie tatsächlich wollen – weil sie Modelle zum Verstehen statt zum Speichern drängen.
Diese Studie vertieft nicht nur unser Verständnis von KI – sie könnte die Art und Weise, wie wir diese mächtigen Systeme regulieren, entwickeln und ihnen vertrauen, grundlegend verändern.
Verwandter Artikel
Qodo Partnerschaft mit Google Cloud zur Bereitstellung kostenloser KI-Code-Review-Tools für Entwickler
Qodo, ein in Israel ansässiges KI-Startup für Codierung, das sich auf Codequalität konzentriert, hat eine Partnerschaft mit Google Cloud gestartet, um die Integrität von KI-generiertem Softwarecode zu
Salesforce stellt KI-Digitale Teamkollegen in Slack vor, um mit Microsoft Copilot zu konkurrieren
Salesforce hat eine neue KI-Strategie für den Arbeitsplatz gestartet und spezialisierte „digitale Teamkollegen“ in Slack-Konversationen integriert, wie das Unternehmen am Montag bekannt gab.Das neue T
Oracles 40-Mrd.-Nvidia-Chip-Investition stärkt Texas AI-Rechenzentrum
Oracle plant, etwa 40 Milliarden Dollar in Nvidia-Chips zu investieren, um ein großes neues Rechenzentrum in Texas zu betreiben, das von OpenAI entwickelt wird, wie die Financial Times berichtet. Dies
Kommentare (1)
0/200
EdwardYoung
10. August 2025 01:01:00 MESZ
This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!
0
Wie viel speichern AI-Modelle tatsächlich? Neue Forschung enthüllt überraschende Erkenntnisse
Wir alle wissen, dass große Sprachmodelle (LLMs) wie ChatGPT, Claude und Gemini auf riesigen Datensätzen trainiert werden – Billionen von Wörtern aus Büchern, Websites, Code und sogar Multimedia wie Bildern und Audio. Aber was passiert genau mit all diesen Daten? Verstehen diese Modelle Sprache wirklich oder geben sie nur gespeicherte Textfragmente wieder?
Eine bahnbrechende neue Studie von Meta, Google DeepMind, Cornell und NVIDIA liefert endlich konkrete Antworten – und die Ergebnisse könnten Sie überraschen.
Die große Frage: Speicherung vs. Verallgemeinerung
Im Kern funktionieren LLMs, indem sie statistische Muster in der Sprache erkennen. Wenn Sie ChatGPT nach Äpfeln fragen, „weiß“ es nicht, was ein Apfel im menschlichen Sinne ist – stattdessen erkennt es, dass das Wort „Apfel“ häufig neben Begriffen wie „Frucht“, „rot“, „Obstgarten“ oder sogar „iPhone“ vorkommt. Dieses statistische Verständnis ist in Milliarden von Parametern (im Wesentlichen einstellbaren Einstellungen im neuronalen Netzwerk der KI) codiert.
Doch hier ist die Millionen-Dollar-Frage: Wie viel des Wissens eines LLMs stammt aus verallgemeinertem Lernen und wie viel ist nur wörtliche Speicherung?
Dies ist nicht nur akademisch – es hat reale rechtliche Auswirkungen. Wenn KI-Modelle große Teile urheberrechtlich geschützter Texte kopieren, könnten Klagen von Künstlern, Autoren und Verlagen an Fahrt gewinnen. Aber wenn sie tatsächlich Muster lernen statt exakter Inhalte, könnten KI-Unternehmen stärkere Argumente für eine faire Nutzung haben.
Die Antwort: 3,6 Bits pro Parameter
Die Studie ergab, dass LLMs eine feste Speicherkapazität von etwa 3,6 Bits pro Parameter haben. Was bedeutet das in der Praxis?
- Ein Bit ist die kleinste digitale Einheit (0 oder 1).
- 3,6 Bits können etwa 12 verschiedene Werte speichern – wie die Auswahl eines Monats im Jahr oder das Würfeln mit einem 12-seitigen Würfel.
- Es reicht nicht aus, um einen vollständigen englischen Buchstaben zu speichern (der ~4,7 Bits benötigt), aber es könnte einen Buchstaben aus einem reduzierten Satz von 10 häufigen Buchstaben codieren.
- In Bytes sind 3,6 Bits nur 0,45 Bytes – weniger als die Hälfte eines standardmäßigen ASCII-Zeichens.
Entscheidend ist, dass diese Zahl bei verschiedenen Modellgrößen, Architekturen und sogar Präzisionsstufen konstant blieb (wobei vollpräzise Modelle etwas höher bei 3,83 Bits/Parameter lagen).
Die große Überraschung: Mehr Daten = Weniger Speicherung
Hier wird es wirklich interessant: Training mit mehr Daten erhöht die Speicherung nicht – es reduziert sie tatsächlich.
Wie der Haupforscher Jack Morris erklärte:
„Training mit mehr Daten zwingt Modelle, weniger pro Datenpunkt zu speichern.“
Stellen Sie es sich so vor: Wenn eine KI ein festes „Speicherbudget“ hat, bedeutet das Verteilen über einen größeren Datensatz, dass jede einzelne Information weniger dedizierten Speicherplatz erhält. Also fördern größere Datensätze die Verallgemeinerung statt bloßes Abschreiben – was Bedenken über das Wiedergeben urheberrechtlich geschützter oder sensibler Inhalte lindern könnte.
Wie haben die Forscher dies gemessen?
Um Speicherung von Verallgemeinerung zu isolieren, trainierten sie Modelle auf komplett zufälligen Bitfolgen – Daten ohne jegliche Muster oder Struktur.
Warum? Weil, wenn ein Modell eine zufällige Zeichenfolge rekonstruiert, es sie gespeichert haben muss – es gibt keine zugrunde liegende Logik, die man ableiten könnte.
Dieser Ansatz erlaubte es ihnen:
✔ Reines Speichern zu messen, getrennt von erlernten Mustern.
✔ Zu bestätigen, dass Speicherung vorhersehbar mit der Modellgröße skaliert.
✔ Zu zeigen, dass Verallgemeinerung einsetzt, wenn Datensätze größer werden.
Reale Auswirkungen
- Kleinere Datensätze führen zu mehr Speicherung.
- Größere Datensätze drängen Modelle zur Verallgemeinerung (mit einem vorübergehenden „Double Descent“-Leistungsabfall).
- Höhere Präzision (z. B. float32 vs. bfloat16) erhöht die Speicherkapazität leicht (von 3,51 auf 3,83 Bits/Parameter).
Einzigartige Daten werden eher gespeichert
Während die Studie sich auf Durchschnittswerte konzentriert, besonders einzigartige oder stilisierte Inhalte (wie seltene Codeschnipsel oder markantes Schreiben) könnten anfälliger für Speicherung sein.
Allerdings werden Mitgliedschafts-Inferenzangriffe (der Versuch, festzustellen, ob bestimmte Daten im Trainingssatz waren) unzuverlässig, wenn Datensätze wachsen – was die Idee unterstützt, dass groß angelegtes Training Datenschutzrisiken reduziert.
In Perspektive gesetzt
- Ein 500K-Parameter-Modell kann etwa 225 KB Daten speichern.
- Ein 1,5B-Parameter-Modell kann etwa 675 MB speichern.
- Das reicht nicht, um ganze Bücher oder Bilder zu reproduzieren, aber es erklärt verteilte textuelle Muster.
Rechtliche Folgen?
Diese Forschung könnte eine Schlüsselrolle in laufenden KI-Urheberrechtsklagen spielen. Wenn Gerichte erkennen, dass LLMs hauptsächlich verallgemeinern statt kopieren, könnten KI-Unternehmen stärkere Argumente für faire Nutzung haben.
Das Fazit
Mehr Daten = sicherere, verallgemeinerte KI. Anstatt große Datensätze zu fürchten, könnten wir sie tatsächlich wollen – weil sie Modelle zum Verstehen statt zum Speichern drängen.
Diese Studie vertieft nicht nur unser Verständnis von KI – sie könnte die Art und Weise, wie wir diese mächtigen Systeme regulieren, entwickeln und ihnen vertrauen, grundlegend verändern.



This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!












