Option
Heim
Nachricht
Neue Studie enthüllt, wie viel Daten LLMs tatsächlich speichern

Neue Studie enthüllt, wie viel Daten LLMs tatsächlich speichern

6. Juli 2025
121

Neue Studie enthüllt, wie viel Daten LLMs tatsächlich speichern

Wie viel speichern AI-Modelle tatsächlich? Neue Forschung enthüllt überraschende Erkenntnisse

Wir alle wissen, dass große Sprachmodelle (LLMs) wie ChatGPT, Claude und Gemini auf riesigen Datensätzen trainiert werden – Billionen von Wörtern aus Büchern, Websites, Code und sogar Multimedia wie Bildern und Audio. Aber was passiert genau mit all diesen Daten? Verstehen diese Modelle Sprache wirklich oder geben sie nur gespeicherte Textfragmente wieder?

Eine bahnbrechende neue Studie von Meta, Google DeepMind, Cornell und NVIDIA liefert endlich konkrete Antworten – und die Ergebnisse könnten Sie überraschen.

Die große Frage: Speicherung vs. Verallgemeinerung

Im Kern funktionieren LLMs, indem sie statistische Muster in der Sprache erkennen. Wenn Sie ChatGPT nach Äpfeln fragen, „weiß“ es nicht, was ein Apfel im menschlichen Sinne ist – stattdessen erkennt es, dass das Wort „Apfel“ häufig neben Begriffen wie „Frucht“, „rot“, „Obstgarten“ oder sogar „iPhone“ vorkommt. Dieses statistische Verständnis ist in Milliarden von Parametern (im Wesentlichen einstellbaren Einstellungen im neuronalen Netzwerk der KI) codiert.

Doch hier ist die Millionen-Dollar-Frage: Wie viel des Wissens eines LLMs stammt aus verallgemeinertem Lernen und wie viel ist nur wörtliche Speicherung?

Dies ist nicht nur akademisch – es hat reale rechtliche Auswirkungen. Wenn KI-Modelle große Teile urheberrechtlich geschützter Texte kopieren, könnten Klagen von Künstlern, Autoren und Verlagen an Fahrt gewinnen. Aber wenn sie tatsächlich Muster lernen statt exakter Inhalte, könnten KI-Unternehmen stärkere Argumente für eine faire Nutzung haben.

Die Antwort: 3,6 Bits pro Parameter

Die Studie ergab, dass LLMs eine feste Speicherkapazität von etwa 3,6 Bits pro Parameter haben. Was bedeutet das in der Praxis?

  • Ein Bit ist die kleinste digitale Einheit (0 oder 1).
  • 3,6 Bits können etwa 12 verschiedene Werte speichern – wie die Auswahl eines Monats im Jahr oder das Würfeln mit einem 12-seitigen Würfel.
  • Es reicht nicht aus, um einen vollständigen englischen Buchstaben zu speichern (der ~4,7 Bits benötigt), aber es könnte einen Buchstaben aus einem reduzierten Satz von 10 häufigen Buchstaben codieren.
  • In Bytes sind 3,6 Bits nur 0,45 Bytes – weniger als die Hälfte eines standardmäßigen ASCII-Zeichens.

Entscheidend ist, dass diese Zahl bei verschiedenen Modellgrößen, Architekturen und sogar Präzisionsstufen konstant blieb (wobei vollpräzise Modelle etwas höher bei 3,83 Bits/Parameter lagen).

Die große Überraschung: Mehr Daten = Weniger Speicherung

Hier wird es wirklich interessant: Training mit mehr Daten erhöht die Speicherung nicht – es reduziert sie tatsächlich.

Wie der Haupforscher Jack Morris erklärte:

„Training mit mehr Daten zwingt Modelle, weniger pro Datenpunkt zu speichern.“

Stellen Sie es sich so vor: Wenn eine KI ein festes „Speicherbudget“ hat, bedeutet das Verteilen über einen größeren Datensatz, dass jede einzelne Information weniger dedizierten Speicherplatz erhält. Also fördern größere Datensätze die Verallgemeinerung statt bloßes Abschreiben – was Bedenken über das Wiedergeben urheberrechtlich geschützter oder sensibler Inhalte lindern könnte.

Wie haben die Forscher dies gemessen?

Um Speicherung von Verallgemeinerung zu isolieren, trainierten sie Modelle auf komplett zufälligen Bitfolgen – Daten ohne jegliche Muster oder Struktur.

Warum? Weil, wenn ein Modell eine zufällige Zeichenfolge rekonstruiert, es sie gespeichert haben muss – es gibt keine zugrunde liegende Logik, die man ableiten könnte.

Dieser Ansatz erlaubte es ihnen:
✔ Reines Speichern zu messen, getrennt von erlernten Mustern.
✔ Zu bestätigen, dass Speicherung vorhersehbar mit der Modellgröße skaliert.
✔ Zu zeigen, dass Verallgemeinerung einsetzt, wenn Datensätze größer werden.

Reale Auswirkungen

  • Kleinere Datensätze führen zu mehr Speicherung.
  • Größere Datensätze drängen Modelle zur Verallgemeinerung (mit einem vorübergehenden „Double Descent“-Leistungsabfall).
  • Höhere Präzision (z. B. float32 vs. bfloat16) erhöht die Speicherkapazität leicht (von 3,51 auf 3,83 Bits/Parameter).

Einzigartige Daten werden eher gespeichert

Während die Studie sich auf Durchschnittswerte konzentriert, besonders einzigartige oder stilisierte Inhalte (wie seltene Codeschnipsel oder markantes Schreiben) könnten anfälliger für Speicherung sein.

Allerdings werden Mitgliedschafts-Inferenzangriffe (der Versuch, festzustellen, ob bestimmte Daten im Trainingssatz waren) unzuverlässig, wenn Datensätze wachsen – was die Idee unterstützt, dass groß angelegtes Training Datenschutzrisiken reduziert.

In Perspektive gesetzt

  • Ein 500K-Parameter-Modell kann etwa 225 KB Daten speichern.
  • Ein 1,5B-Parameter-Modell kann etwa 675 MB speichern.
  • Das reicht nicht, um ganze Bücher oder Bilder zu reproduzieren, aber es erklärt verteilte textuelle Muster.

Rechtliche Folgen?

Diese Forschung könnte eine Schlüsselrolle in laufenden KI-Urheberrechtsklagen spielen. Wenn Gerichte erkennen, dass LLMs hauptsächlich verallgemeinern statt kopieren, könnten KI-Unternehmen stärkere Argumente für faire Nutzung haben.

Das Fazit

Mehr Daten = sicherere, verallgemeinerte KI. Anstatt große Datensätze zu fürchten, könnten wir sie tatsächlich wollen – weil sie Modelle zum Verstehen statt zum Speichern drängen.

Diese Studie vertieft nicht nur unser Verständnis von KI – sie könnte die Art und Weise, wie wir diese mächtigen Systeme regulieren, entwickeln und ihnen vertrauen, grundlegend verändern.

Verwandter Artikel
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Meta unterzeichnet Vertrag über Millionen von Amazon-KI-CPUs Meta unterzeichnet Vertrag über Millionen von Amazon-KI-CPUs Amazon hat eine bedeutende Partnerschaft mit Meta geschlossen und setzt dabei erneut auf seine eigenen, speziell entwickelten Chips. Meta hat sich bereit erklärt, Millionen von AWS-Graviton-Chips einz
Der Erdgasboom bei Meta könnte das Stromnetz von South Dakota ankurbeln Der Erdgasboom bei Meta könnte das Stromnetz von South Dakota ankurbeln Rechenzentren sind mittlerweile so riesig geworden, dass ihr Stromverbrauch dem ganzer US-Bundesstaaten entspricht. Man denke nur an das Hyperion-KI-Rechenzentrum von Meta: Nach seiner Fertigstellung
Empfehlungen zu verwandten Spezialthemen
Produktivität KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern
KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools
xix.ai
Chatbot Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf
Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools
xix.ai
Bildung und Lernen Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.
Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools
xix.ai
Chatbot Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit
Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools
xix.ai
Code Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.
Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.

Entdecken Sie die neuesten, hochbewerteten KI-Tools von 2026 für den automatisierten Unit-Testing-Prozess. Unsere sorgfältig ausgewählten Lösungen bieten leistungsstarke und bahnbrechende Funktionen, um sofort Jest-, PyTest- und JUnit-Testfälle zu generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von tatsächlichen Tests sowie wöchentlich aktualisierten Rankings auf XIX.AI. Entfalten Sie Ihr KI-Potenzial und steigern Sie noch heute die Produktivität Ihrer Entwicklungstätigkeit.

10 Tools
xix.ai
Datenanalyse Die besten KI-Tools zur Datenvisualisierung: Interaktive BI-Dashboards automatisch aus Rohdaten generieren
Die besten KI-Tools zur Datenvisualisierung: Interaktive BI-Dashboards automatisch aus Rohdaten generieren

Entdecken Sie bei XIX.AI die besten KI-Tools zur Datenvisualisierung für 2026. Unsere sorgfältig zusammengestellte Auswahl der besten Tools hilft Ihnen dabei, leistungsstarke, interaktive BI-Dashboards sofort aus Rohdaten automatisch zu erstellen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Schöpfen Sie noch heute das Potenzial Ihrer Daten aus.

10 Tools
xix.ai
Kommentare (2)
0/500
LawrenceWilliams
LawrenceWilliams 24. August 2025 05:01:17 MESZ

This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?

EdwardYoung
EdwardYoung 10. August 2025 01:01:00 MESZ

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

OR