Neue Studie enthüllt, wie viel Daten LLMs tatsächlich speichern

Wie viel speichern AI-Modelle tatsächlich? Neue Forschung enthüllt überraschende Erkenntnisse
Wir alle wissen, dass große Sprachmodelle (LLMs) wie ChatGPT, Claude und Gemini auf riesigen Datensätzen trainiert werden – Billionen von Wörtern aus Büchern, Websites, Code und sogar Multimedia wie Bildern und Audio. Aber was passiert genau mit all diesen Daten? Verstehen diese Modelle Sprache wirklich oder geben sie nur gespeicherte Textfragmente wieder?
Eine bahnbrechende neue Studie von Meta, Google DeepMind, Cornell und NVIDIA liefert endlich konkrete Antworten – und die Ergebnisse könnten Sie überraschen.
Die große Frage: Speicherung vs. Verallgemeinerung
Im Kern funktionieren LLMs, indem sie statistische Muster in der Sprache erkennen. Wenn Sie ChatGPT nach Äpfeln fragen, „weiß“ es nicht, was ein Apfel im menschlichen Sinne ist – stattdessen erkennt es, dass das Wort „Apfel“ häufig neben Begriffen wie „Frucht“, „rot“, „Obstgarten“ oder sogar „iPhone“ vorkommt. Dieses statistische Verständnis ist in Milliarden von Parametern (im Wesentlichen einstellbaren Einstellungen im neuronalen Netzwerk der KI) codiert.
Doch hier ist die Millionen-Dollar-Frage: Wie viel des Wissens eines LLMs stammt aus verallgemeinertem Lernen und wie viel ist nur wörtliche Speicherung?
Dies ist nicht nur akademisch – es hat reale rechtliche Auswirkungen. Wenn KI-Modelle große Teile urheberrechtlich geschützter Texte kopieren, könnten Klagen von Künstlern, Autoren und Verlagen an Fahrt gewinnen. Aber wenn sie tatsächlich Muster lernen statt exakter Inhalte, könnten KI-Unternehmen stärkere Argumente für eine faire Nutzung haben.
Die Antwort: 3,6 Bits pro Parameter
Die Studie ergab, dass LLMs eine feste Speicherkapazität von etwa 3,6 Bits pro Parameter haben. Was bedeutet das in der Praxis?
- Ein Bit ist die kleinste digitale Einheit (0 oder 1).
- 3,6 Bits können etwa 12 verschiedene Werte speichern – wie die Auswahl eines Monats im Jahr oder das Würfeln mit einem 12-seitigen Würfel.
- Es reicht nicht aus, um einen vollständigen englischen Buchstaben zu speichern (der ~4,7 Bits benötigt), aber es könnte einen Buchstaben aus einem reduzierten Satz von 10 häufigen Buchstaben codieren.
- In Bytes sind 3,6 Bits nur 0,45 Bytes – weniger als die Hälfte eines standardmäßigen ASCII-Zeichens.
Entscheidend ist, dass diese Zahl bei verschiedenen Modellgrößen, Architekturen und sogar Präzisionsstufen konstant blieb (wobei vollpräzise Modelle etwas höher bei 3,83 Bits/Parameter lagen).
Die große Überraschung: Mehr Daten = Weniger Speicherung
Hier wird es wirklich interessant: Training mit mehr Daten erhöht die Speicherung nicht – es reduziert sie tatsächlich.
Wie der Haupforscher Jack Morris erklärte:
„Training mit mehr Daten zwingt Modelle, weniger pro Datenpunkt zu speichern.“
Stellen Sie es sich so vor: Wenn eine KI ein festes „Speicherbudget“ hat, bedeutet das Verteilen über einen größeren Datensatz, dass jede einzelne Information weniger dedizierten Speicherplatz erhält. Also fördern größere Datensätze die Verallgemeinerung statt bloßes Abschreiben – was Bedenken über das Wiedergeben urheberrechtlich geschützter oder sensibler Inhalte lindern könnte.
Wie haben die Forscher dies gemessen?
Um Speicherung von Verallgemeinerung zu isolieren, trainierten sie Modelle auf komplett zufälligen Bitfolgen – Daten ohne jegliche Muster oder Struktur.
Warum? Weil, wenn ein Modell eine zufällige Zeichenfolge rekonstruiert, es sie gespeichert haben muss – es gibt keine zugrunde liegende Logik, die man ableiten könnte.
Dieser Ansatz erlaubte es ihnen:
✔ Reines Speichern zu messen, getrennt von erlernten Mustern.
✔ Zu bestätigen, dass Speicherung vorhersehbar mit der Modellgröße skaliert.
✔ Zu zeigen, dass Verallgemeinerung einsetzt, wenn Datensätze größer werden.
Reale Auswirkungen
- Kleinere Datensätze führen zu mehr Speicherung.
- Größere Datensätze drängen Modelle zur Verallgemeinerung (mit einem vorübergehenden „Double Descent“-Leistungsabfall).
- Höhere Präzision (z. B. float32 vs. bfloat16) erhöht die Speicherkapazität leicht (von 3,51 auf 3,83 Bits/Parameter).
Einzigartige Daten werden eher gespeichert
Während die Studie sich auf Durchschnittswerte konzentriert, besonders einzigartige oder stilisierte Inhalte (wie seltene Codeschnipsel oder markantes Schreiben) könnten anfälliger für Speicherung sein.
Allerdings werden Mitgliedschafts-Inferenzangriffe (der Versuch, festzustellen, ob bestimmte Daten im Trainingssatz waren) unzuverlässig, wenn Datensätze wachsen – was die Idee unterstützt, dass groß angelegtes Training Datenschutzrisiken reduziert.
In Perspektive gesetzt
- Ein 500K-Parameter-Modell kann etwa 225 KB Daten speichern.
- Ein 1,5B-Parameter-Modell kann etwa 675 MB speichern.
- Das reicht nicht, um ganze Bücher oder Bilder zu reproduzieren, aber es erklärt verteilte textuelle Muster.
Rechtliche Folgen?
Diese Forschung könnte eine Schlüsselrolle in laufenden KI-Urheberrechtsklagen spielen. Wenn Gerichte erkennen, dass LLMs hauptsächlich verallgemeinern statt kopieren, könnten KI-Unternehmen stärkere Argumente für faire Nutzung haben.
Das Fazit
Mehr Daten = sicherere, verallgemeinerte KI. Anstatt große Datensätze zu fürchten, könnten wir sie tatsächlich wollen – weil sie Modelle zum Verstehen statt zum Speichern drängen.
Diese Studie vertieft nicht nur unser Verständnis von KI – sie könnte die Art und Weise, wie wir diese mächtigen Systeme regulieren, entwickeln und ihnen vertrauen, grundlegend verändern.
Verwandter Artikel
渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度
AI如何变革医疗保健:减少职业倦怠并提升患者护理挑战:临床医生超负荷与患者就医延迟全球医疗系统面临双重挑战:临床医生职业倦怠和患者就医延迟。医生们被行政任务淹没,而患者难以获得及时的医疗服务。在渥太华医院(TOH),领导者认识到这一问题,并转向AI寻求解决方案。通过整合Microsoft的DAX Copilot——一款AI驱动的临床文档助手,他们已经看到显著的改善:✔ 每次患者就诊节省7分钟✔ 临
6个必须了解的ChatGPT项目功能以提升AI性能
ChatGPT项目迎来重大升级——以下是新功能OpenAI为ChatGPT项目推出了迄今为止最大的更新,将其从简单的组织工具转变为生产力 powerhouse。无论您是在管理研究、编码项目还是创意工作流,这六个新功能从根本上改变了您与AI的交互方式——使其更智能、更直观、在现实场景中更加实用。 让我们一一解析。 ChatGPT项目的6个变革性功能1. 语音模式来了(彻底改变游戏规则)语音模式不仅仅
OpenAI发布GPT-4.1未附安全报告
OpenAI的GPT-4.1在没有安全报告的情况下发布——这意味着什么周一,OpenAI推出了其最新的AI模型GPT-4.1,该模型在性能上有所提升,尤其是在编程基准测试中。但与之前的发布不同,这次有一个明显的遗漏:没有安全报告。 通常,OpenAI会发布一份“系统卡”,详细说明内部和第三方安全评估,揭示潜在风险,如欺骗行为或非预期的说服能力。这些报告被视为AI开发中促进透明度的善意努力。 然
Kommentare (0)
0/200
Wie viel speichern AI-Modelle tatsächlich? Neue Forschung enthüllt überraschende Erkenntnisse
Wir alle wissen, dass große Sprachmodelle (LLMs) wie ChatGPT, Claude und Gemini auf riesigen Datensätzen trainiert werden – Billionen von Wörtern aus Büchern, Websites, Code und sogar Multimedia wie Bildern und Audio. Aber was passiert genau mit all diesen Daten? Verstehen diese Modelle Sprache wirklich oder geben sie nur gespeicherte Textfragmente wieder?
Eine bahnbrechende neue Studie von Meta, Google DeepMind, Cornell und NVIDIA liefert endlich konkrete Antworten – und die Ergebnisse könnten Sie überraschen.
Die große Frage: Speicherung vs. Verallgemeinerung
Im Kern funktionieren LLMs, indem sie statistische Muster in der Sprache erkennen. Wenn Sie ChatGPT nach Äpfeln fragen, „weiß“ es nicht, was ein Apfel im menschlichen Sinne ist – stattdessen erkennt es, dass das Wort „Apfel“ häufig neben Begriffen wie „Frucht“, „rot“, „Obstgarten“ oder sogar „iPhone“ vorkommt. Dieses statistische Verständnis ist in Milliarden von Parametern (im Wesentlichen einstellbaren Einstellungen im neuronalen Netzwerk der KI) codiert.
Doch hier ist die Millionen-Dollar-Frage: Wie viel des Wissens eines LLMs stammt aus verallgemeinertem Lernen und wie viel ist nur wörtliche Speicherung?
Dies ist nicht nur akademisch – es hat reale rechtliche Auswirkungen. Wenn KI-Modelle große Teile urheberrechtlich geschützter Texte kopieren, könnten Klagen von Künstlern, Autoren und Verlagen an Fahrt gewinnen. Aber wenn sie tatsächlich Muster lernen statt exakter Inhalte, könnten KI-Unternehmen stärkere Argumente für eine faire Nutzung haben.
Die Antwort: 3,6 Bits pro Parameter
Die Studie ergab, dass LLMs eine feste Speicherkapazität von etwa 3,6 Bits pro Parameter haben. Was bedeutet das in der Praxis?
- Ein Bit ist die kleinste digitale Einheit (0 oder 1).
- 3,6 Bits können etwa 12 verschiedene Werte speichern – wie die Auswahl eines Monats im Jahr oder das Würfeln mit einem 12-seitigen Würfel.
- Es reicht nicht aus, um einen vollständigen englischen Buchstaben zu speichern (der ~4,7 Bits benötigt), aber es könnte einen Buchstaben aus einem reduzierten Satz von 10 häufigen Buchstaben codieren.
- In Bytes sind 3,6 Bits nur 0,45 Bytes – weniger als die Hälfte eines standardmäßigen ASCII-Zeichens.
Entscheidend ist, dass diese Zahl bei verschiedenen Modellgrößen, Architekturen und sogar Präzisionsstufen konstant blieb (wobei vollpräzise Modelle etwas höher bei 3,83 Bits/Parameter lagen).
Die große Überraschung: Mehr Daten = Weniger Speicherung
Hier wird es wirklich interessant: Training mit mehr Daten erhöht die Speicherung nicht – es reduziert sie tatsächlich.
Wie der Haupforscher Jack Morris erklärte:
„Training mit mehr Daten zwingt Modelle, weniger pro Datenpunkt zu speichern.“
Stellen Sie es sich so vor: Wenn eine KI ein festes „Speicherbudget“ hat, bedeutet das Verteilen über einen größeren Datensatz, dass jede einzelne Information weniger dedizierten Speicherplatz erhält. Also fördern größere Datensätze die Verallgemeinerung statt bloßes Abschreiben – was Bedenken über das Wiedergeben urheberrechtlich geschützter oder sensibler Inhalte lindern könnte.
Wie haben die Forscher dies gemessen?
Um Speicherung von Verallgemeinerung zu isolieren, trainierten sie Modelle auf komplett zufälligen Bitfolgen – Daten ohne jegliche Muster oder Struktur.
Warum? Weil, wenn ein Modell eine zufällige Zeichenfolge rekonstruiert, es sie gespeichert haben muss – es gibt keine zugrunde liegende Logik, die man ableiten könnte.
Dieser Ansatz erlaubte es ihnen:
✔ Reines Speichern zu messen, getrennt von erlernten Mustern.
✔ Zu bestätigen, dass Speicherung vorhersehbar mit der Modellgröße skaliert.
✔ Zu zeigen, dass Verallgemeinerung einsetzt, wenn Datensätze größer werden.
Reale Auswirkungen
- Kleinere Datensätze führen zu mehr Speicherung.
- Größere Datensätze drängen Modelle zur Verallgemeinerung (mit einem vorübergehenden „Double Descent“-Leistungsabfall).
- Höhere Präzision (z. B. float32 vs. bfloat16) erhöht die Speicherkapazität leicht (von 3,51 auf 3,83 Bits/Parameter).
Einzigartige Daten werden eher gespeichert
Während die Studie sich auf Durchschnittswerte konzentriert, besonders einzigartige oder stilisierte Inhalte (wie seltene Codeschnipsel oder markantes Schreiben) könnten anfälliger für Speicherung sein.
Allerdings werden Mitgliedschafts-Inferenzangriffe (der Versuch, festzustellen, ob bestimmte Daten im Trainingssatz waren) unzuverlässig, wenn Datensätze wachsen – was die Idee unterstützt, dass groß angelegtes Training Datenschutzrisiken reduziert.
In Perspektive gesetzt
- Ein 500K-Parameter-Modell kann etwa 225 KB Daten speichern.
- Ein 1,5B-Parameter-Modell kann etwa 675 MB speichern.
- Das reicht nicht, um ganze Bücher oder Bilder zu reproduzieren, aber es erklärt verteilte textuelle Muster.
Rechtliche Folgen?
Diese Forschung könnte eine Schlüsselrolle in laufenden KI-Urheberrechtsklagen spielen. Wenn Gerichte erkennen, dass LLMs hauptsächlich verallgemeinern statt kopieren, könnten KI-Unternehmen stärkere Argumente für faire Nutzung haben.
Das Fazit
Mehr Daten = sicherere, verallgemeinerte KI. Anstatt große Datensätze zu fürchten, könnten wir sie tatsächlich wollen – weil sie Modelle zum Verstehen statt zum Speichern drängen.
Diese Studie vertieft nicht nur unser Verständnis von KI – sie könnte die Art und Weise, wie wir diese mächtigen Systeme regulieren, entwickeln und ihnen vertrauen, grundlegend verändern.











