Новая статья раскрывает, сколько данных на самом деле запоминают LLM

Сколько на самом деле запоминают модели ИИ? Новое исследование раскрывает удивительные выводы
Все мы знаем, что большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, обучаются на огромных наборах данных — триллионах слов из книг, веб-сайтов, кода и даже мультимедиа, таких как изображения и аудио. Но что именно происходит с этими данными? Действительно ли эти модели понимают язык, или они просто воспроизводят запомненные фрагменты?
Новаторское исследование от Meta, Google DeepMind, Корнелла и NVIDIA наконец-то дает конкретные ответы — и результаты могут вас удивить.
Главный вопрос: запоминание против обобщения
В основе своей LLM работают, обнаруживая статистические закономерности в языке. Когда вы спрашиваете ChatGPT о яблоках, он не "знает", что такое яблоко в человеческом смысле — вместо этого он распознает, что слово "яблоко" часто встречается рядом с терминами, такими как "фрукт", "красный", "сад" или даже "iPhone". Это статистическое понимание закодировано в миллиардах параметров (по сути, настраиваемых настроек в нейронной сети ИИ).
Но вот вопрос на миллион долларов: Сколько знаний LLM основано на обобщённом обучении, а сколько — на дословном запоминании?
Это не просто академический вопрос — он имеет реальные юридические последствия. Если обнаружится, что модели ИИ копируют большие куски защищённого авторским правом текста, иски от художников, авторов и издателей могут набрать силу. Но если они действительно обучаются шаблонам, а не точному содержимому, у компаний ИИ может быть более сильная защита на основе добросовестного использования.
Ответ: 3.6 бита на параметр
Исследование показало, что LLM имеют фиксированную ёмкость запоминания около 3.6 битов на параметр. Что это значит на практике?
- Один бит — это наименьшая цифровая единица (0 или 1).
- 3.6 бита могут хранить около 12 различных значений — как выбор месяца года или бросок 12-гранного кубика.
- Этого недостаточно для хранения полной английской буквы (для которой нужно ~4.7 бита), но можно закодировать символ из ограниченного набора из 10 распространённых букв.
- В байтах 3.6 бита — это всего 0.45 байта — менее половины стандартного символа ASCII.
Критически важно, что это число оставалось стабильным для разных размеров моделей, архитектур и даже уровней точности (хотя модели полной точности достигали немного выше — 3.83 бита/параметр).
Большой сюрприз: больше данных = меньше запоминания
Вот где становится действительно интересно: Обучение на больших объёмах данных не увеличивает запоминание — оно его уменьшает.
Как объяснил ведущий исследователь Джек Моррис:
"Обучение на больших данных заставляет модели меньше запоминать на каждый образец."
Представьте это так: если у ИИ есть фиксированный "бюджет памяти", распределение его на больший набор данных означает, что каждая отдельная часть получает меньше выделенного хранилища. Таким образом, большие наборы данных способствуют обобщению, а не механическому копированию — что может смягчить опасения по поводу воспроизведения ИИ защищённого авторским правом или конфиденциального контента.
Связанная статья
Qodo сотрудничает с Google Cloud для предоставления бесплатных инструментов AI для проверки кода разработчикам
Qodo, израильский стартап в области AI-кодирования, ориентированный на качество кода, начал сотрудничество с Google Cloud для повышения целостности программного обеспечения, созданного AI.По мере рост
Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot
Salesforce запустила новую стратегию ИИ для рабочего места, представив специализированных «цифровых помощников», интегрированных в беседы Slack, сообщила компания в понедельник.Новый инструмент, Agent
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе
Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
Комментарии (1)
EdwardYoung
10 августа 2025 г., 2:01:00 GMT+03:00
This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!
0
Сколько на самом деле запоминают модели ИИ? Новое исследование раскрывает удивительные выводы
Все мы знаем, что большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, обучаются на огромных наборах данных — триллионах слов из книг, веб-сайтов, кода и даже мультимедиа, таких как изображения и аудио. Но что именно происходит с этими данными? Действительно ли эти модели понимают язык, или они просто воспроизводят запомненные фрагменты?
Новаторское исследование от Meta, Google DeepMind, Корнелла и NVIDIA наконец-то дает конкретные ответы — и результаты могут вас удивить.
Главный вопрос: запоминание против обобщения
В основе своей LLM работают, обнаруживая статистические закономерности в языке. Когда вы спрашиваете ChatGPT о яблоках, он не "знает", что такое яблоко в человеческом смысле — вместо этого он распознает, что слово "яблоко" часто встречается рядом с терминами, такими как "фрукт", "красный", "сад" или даже "iPhone". Это статистическое понимание закодировано в миллиардах параметров (по сути, настраиваемых настроек в нейронной сети ИИ).
Но вот вопрос на миллион долларов: Сколько знаний LLM основано на обобщённом обучении, а сколько — на дословном запоминании?
Это не просто академический вопрос — он имеет реальные юридические последствия. Если обнаружится, что модели ИИ копируют большие куски защищённого авторским правом текста, иски от художников, авторов и издателей могут набрать силу. Но если они действительно обучаются шаблонам, а не точному содержимому, у компаний ИИ может быть более сильная защита на основе добросовестного использования.
Ответ: 3.6 бита на параметр
Исследование показало, что LLM имеют фиксированную ёмкость запоминания около 3.6 битов на параметр. Что это значит на практике?
- Один бит — это наименьшая цифровая единица (0 или 1).
- 3.6 бита могут хранить около 12 различных значений — как выбор месяца года или бросок 12-гранного кубика.
- Этого недостаточно для хранения полной английской буквы (для которой нужно ~4.7 бита), но можно закодировать символ из ограниченного набора из 10 распространённых букв.
- В байтах 3.6 бита — это всего 0.45 байта — менее половины стандартного символа ASCII.
Критически важно, что это число оставалось стабильным для разных размеров моделей, архитектур и даже уровней точности (хотя модели полной точности достигали немного выше — 3.83 бита/параметр).
Большой сюрприз: больше данных = меньше запоминания
Вот где становится действительно интересно: Обучение на больших объёмах данных не увеличивает запоминание — оно его уменьшает.
Как объяснил ведущий исследователь Джек Моррис:
"Обучение на больших данных заставляет модели меньше запоминать на каждый образец."
Представьте это так: если у ИИ есть фиксированный "бюджет памяти", распределение его на больший набор данных означает, что каждая отдельная часть получает меньше выделенного хранилища. Таким образом, большие наборы данных способствуют обобщению, а не механическому копированию — что может смягчить опасения по поводу воспроизведения ИИ защищённого авторским правом или конфиденциального контента.



This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!












