Сколько на самом деле запоминают модели ИИ? Новое исследование раскрывает удивительные выводы

Все мы знаем, что большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, обучаются на огромных наборах данных — триллионах слов из книг, веб-сайтов, кода и даже мультимедиа, таких как изображения и аудио. Но что именно происходит с этими данными? Действительно ли эти модели понимают язык, или они просто воспроизводят запомненные фрагменты?

Новаторское исследование от Meta, Google DeepMind, Корнелла и NVIDIA наконец-то дает конкретные ответы — и результаты могут вас удивить.

Главный вопрос: запоминание против обобщения

В основе своей LLM работают, обнаруживая статистические закономерности в языке. Когда вы спрашиваете ChatGPT о яблоках, он не "знает", что такое яблоко в человеческом смысле — вместо этого он распознает, что слово "яблоко" часто встречается рядом с терминами, такими как "фрукт", "красный", "сад" или даже "iPhone". Это статистическое понимание закодировано в миллиардах параметров (по сути, настраиваемых настроек в нейронной сети ИИ).

Но вот вопрос на миллион долларов: Сколько знаний LLM основано на обобщённом обучении, а сколько — на дословном запоминании?

Это не просто академический вопрос — он имеет реальные юридические последствия. Если обнаружится, что модели ИИ копируют большие куски защищённого авторским правом текста, иски от художников, авторов и издателей могут набрать силу. Но если они действительно обучаются шаблонам, а не точному содержимому, у компаний ИИ может быть более сильная защита на основе добросовестного использования.

Ответ: 3.6 бита на параметр

Исследование показало, что LLM имеют фиксированную ёмкость запоминания около 3.6 битов на параметр. Что это значит на практике?

Один бит — это наименьшая цифровая единица (0 или 1).
3.6 бита могут хранить около 12 различных значений — как выбор месяца года или бросок 12-гранного кубика.
Этого недостаточно для хранения полной английской буквы (для которой нужно ~4.7 бита), но можно закодировать символ из ограниченного набора из 10 распространённых букв.
В байтах 3.6 бита — это всего 0.45 байта — менее половины стандартного символа ASCII.

Критически важно, что это число оставалось стабильным для разных размеров моделей, архитектур и даже уровней точности (хотя модели полной точности достигали немного выше — 3.83 бита/параметр).

Большой сюрприз: больше данных = меньше запоминания

Вот где становится действительно интересно: Обучение на больших объёмах данных не увеличивает запоминание — оно его уменьшает.

Как объяснил ведущий исследователь Джек Моррис:

"Обучение на больших данных заставляет модели меньше запоминать на каждый образец."

Представьте это так: если у ИИ есть фиксированный "бюджет памяти", распределение его на больший набор данных означает, что каждая отдельная часть получает меньше выделенного хранилища. Таким образом, большие наборы данных способствуют обобщению, а не механическому копированию — что может смягчить опасения по поводу воспроизведения ИИ защищённого авторским правом или конфиденциального контента.

Связанная статья

Multiverse AI запускает новые миниатюрные высокопроизводительные модели Новаторский европейский ИИ-стартап представил революционные микроразмерные модели ИИ, названные в честь мозга птиц и насекомых, демонстрируя, что мощный искусственный интеллект не требует огромных мас

TensorZero получила $7,3M начального финансирования для упрощения разработки корпоративных LLM TensorZero, новый поставщик инфраструктуры с открытым исходным кодом для приложений искусственного интеллекта, получил $7,3 млн начального финансирования под руководством FirstMark Capital, при участи

Meta делится доходами с владельцами моделей искусственного интеллекта Llama, говорится в заявлении Хотя в июле 2023 года генеральный директор Meta Марк Цукерберг подчеркнул, что "продажа доступа" не является бизнес-моделью для моделей ИИ Llama, недавно обнародованные судебные документы показывают,

Комментарии (2)

0/200

Представлять на рассмотрение

LawrenceWilliams

24 августа 2025 г., 6:01:17 GMT+03:00

This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?

EdwardYoung

10 августа 2025 г., 2:01:00 GMT+03:00

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

Лучшие новости

Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами Gemini 2.5 Pro в настоящее время неограничен и дешевле, чем Claude, GPT-4O Озвучка с помощью ИИ: Ультимативное руководство по созданию реалистичных голосов ИИ ИИ Cambium превращает отходы в пиломатериалы AI Builder и Power Automate Революционизируют Суммирование Документов OpenAI улучшает AI Voice Assistant для лучших чатов Как гарантировать, что ваши данные заслуживают доверия для интеграции искусственного интеллекта NoteBooklm расширяется во всем мире, добавляет слайды и расширенную проверку фактов Настройки для дата -центров США могут разблокировать 76 ГВт новой мощности. Google использует ИИ для приостановки более 39 миллионов счетов объявлений о подозрении на мошенничество

Более

Показан