Новая статья раскрывает, сколько данных на самом деле запоминают LLM

Сколько на самом деле запоминают модели ИИ? Новое исследование раскрывает удивительные выводы
Все мы знаем, что большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, обучаются на огромных наборах данных — триллионах слов из книг, веб-сайтов, кода и даже мультимедиа, таких как изображения и аудио. Но что именно происходит с этими данными? Действительно ли эти модели понимают язык, или они просто воспроизводят запомненные фрагменты?
Новаторское исследование от Meta, Google DeepMind, Корнелла и NVIDIA наконец-то дает конкретные ответы — и результаты могут вас удивить.
Главный вопрос: запоминание против обобщения
В основе своей LLM работают, обнаруживая статистические закономерности в языке. Когда вы спрашиваете ChatGPT о яблоках, он не "знает", что такое яблоко в человеческом смысле — вместо этого он распознает, что слово "яблоко" часто встречается рядом с терминами, такими как "фрукт", "красный", "сад" или даже "iPhone". Это статистическое понимание закодировано в миллиардах параметров (по сути, настраиваемых настроек в нейронной сети ИИ).
Но вот вопрос на миллион долларов: Сколько знаний LLM основано на обобщённом обучении, а сколько — на дословном запоминании?
Это не просто академический вопрос — он имеет реальные юридические последствия. Если обнаружится, что модели ИИ копируют большие куски защищённого авторским правом текста, иски от художников, авторов и издателей могут набрать силу. Но если они действительно обучаются шаблонам, а не точному содержимому, у компаний ИИ может быть более сильная защита на основе добросовестного использования.
Ответ: 3.6 бита на параметр
Исследование показало, что LLM имеют фиксированную ёмкость запоминания около 3.6 битов на параметр. Что это значит на практике?
- Один бит — это наименьшая цифровая единица (0 или 1).
- 3.6 бита могут хранить около 12 различных значений — как выбор месяца года или бросок 12-гранного кубика.
- Этого недостаточно для хранения полной английской буквы (для которой нужно ~4.7 бита), но можно закодировать символ из ограниченного набора из 10 распространённых букв.
- В байтах 3.6 бита — это всего 0.45 байта — менее половины стандартного символа ASCII.
Критически важно, что это число оставалось стабильным для разных размеров моделей, архитектур и даже уровней точности (хотя модели полной точности достигали немного выше — 3.83 бита/параметр).
Большой сюрприз: больше данных = меньше запоминания
Вот где становится действительно интересно: Обучение на больших объёмах данных не увеличивает запоминание — оно его уменьшает.
Как объяснил ведущий исследователь Джек Моррис:
"Обучение на больших данных заставляет модели меньше запоминать на каждый образец."
Представьте это так: если у ИИ есть фиксированный "бюджет памяти", распределение его на больший набор данных означает, что каждая отдельная часть получает меньше выделенного хранилища. Таким образом, большие наборы данных способствуют обобщению, а не механическому копированию — что может смягчить опасения по поводу воспроизведения ИИ защищённого авторским правом или конфиденциального контента.
Связанная статья
How The Ottawa Hospital uses AI ambient voice capture to reduce physician burnout by 70%, achieve 97% patient satisfaction
How AI is Transforming Healthcare: Reducing Burnout and Improving Patient CareThe Challenge: Clinician Overload and Patient AccessHealthcare systems worldwide face a dual challenge: clinician burnout and patient access delays. Physicians are drowning in administrative tasks, while patients struggle
6 Must-Know ChatGPT Project Features for Enhanced AI Performance
ChatGPT Projects Just Got a Major Upgrade – Here’s What’s NewOpenAI has rolled out its biggest update yet for ChatGPT Projects, transforming it from a simple organizational tool into a powerhouse for productivity. Whether you're managing research, coding projects, or creative workflows, these six ne
OpenAI ships GPT-4.1 without a safety report
OpenAI’s GPT-4.1 Launches Without a Safety Report—Here’s Why That MattersOn Monday, OpenAI unveiled GPT-4.1, its latest AI model, boasting improved performance—especially in programming benchmarks. But unlike previous releases, this one came with a notable omission: no safety report. Typically, Ope
Комментарии (0)
Сколько на самом деле запоминают модели ИИ? Новое исследование раскрывает удивительные выводы
Все мы знаем, что большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, обучаются на огромных наборах данных — триллионах слов из книг, веб-сайтов, кода и даже мультимедиа, таких как изображения и аудио. Но что именно происходит с этими данными? Действительно ли эти модели понимают язык, или они просто воспроизводят запомненные фрагменты?
Новаторское исследование от Meta, Google DeepMind, Корнелла и NVIDIA наконец-то дает конкретные ответы — и результаты могут вас удивить.
Главный вопрос: запоминание против обобщения
В основе своей LLM работают, обнаруживая статистические закономерности в языке. Когда вы спрашиваете ChatGPT о яблоках, он не "знает", что такое яблоко в человеческом смысле — вместо этого он распознает, что слово "яблоко" часто встречается рядом с терминами, такими как "фрукт", "красный", "сад" или даже "iPhone". Это статистическое понимание закодировано в миллиардах параметров (по сути, настраиваемых настроек в нейронной сети ИИ).
Но вот вопрос на миллион долларов: Сколько знаний LLM основано на обобщённом обучении, а сколько — на дословном запоминании?
Это не просто академический вопрос — он имеет реальные юридические последствия. Если обнаружится, что модели ИИ копируют большие куски защищённого авторским правом текста, иски от художников, авторов и издателей могут набрать силу. Но если они действительно обучаются шаблонам, а не точному содержимому, у компаний ИИ может быть более сильная защита на основе добросовестного использования.
Ответ: 3.6 бита на параметр
Исследование показало, что LLM имеют фиксированную ёмкость запоминания около 3.6 битов на параметр. Что это значит на практике?
- Один бит — это наименьшая цифровая единица (0 или 1).
- 3.6 бита могут хранить около 12 различных значений — как выбор месяца года или бросок 12-гранного кубика.
- Этого недостаточно для хранения полной английской буквы (для которой нужно ~4.7 бита), но можно закодировать символ из ограниченного набора из 10 распространённых букв.
- В байтах 3.6 бита — это всего 0.45 байта — менее половины стандартного символа ASCII.
Критически важно, что это число оставалось стабильным для разных размеров моделей, архитектур и даже уровней точности (хотя модели полной точности достигали немного выше — 3.83 бита/параметр).
Большой сюрприз: больше данных = меньше запоминания
Вот где становится действительно интересно: Обучение на больших объёмах данных не увеличивает запоминание — оно его уменьшает.
Как объяснил ведущий исследователь Джек Моррис:
"Обучение на больших данных заставляет модели меньше запоминать на каждый образец."
Представьте это так: если у ИИ есть фиксированный "бюджет памяти", распределение его на больший набор данных означает, что каждая отдельная часть получает меньше выделенного хранилища. Таким образом, большие наборы данных способствуют обобщению, а не механическому копированию — что может смягчить опасения по поводу воспроизведения ИИ защищённого авторским правом или конфиденциального контента.











