вариант
Дом
Новости
Новая статья раскрывает, сколько данных на самом деле запоминают LLM

Новая статья раскрывает, сколько данных на самом деле запоминают LLM

6 июля 2025 г.
121

Новая статья раскрывает, сколько данных на самом деле запоминают LLM

Сколько на самом деле запоминают модели ИИ? Новое исследование раскрывает удивительные выводы

Все мы знаем, что большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, обучаются на огромных наборах данных — триллионах слов из книг, веб-сайтов, кода и даже мультимедиа, таких как изображения и аудио. Но что именно происходит с этими данными? Действительно ли эти модели понимают язык, или они просто воспроизводят запомненные фрагменты?

Новаторское исследование от Meta, Google DeepMind, Корнелла и NVIDIA наконец-то дает конкретные ответы — и результаты могут вас удивить.

Главный вопрос: запоминание против обобщения

В основе своей LLM работают, обнаруживая статистические закономерности в языке. Когда вы спрашиваете ChatGPT о яблоках, он не "знает", что такое яблоко в человеческом смысле — вместо этого он распознает, что слово "яблоко" часто встречается рядом с терминами, такими как "фрукт", "красный", "сад" или даже "iPhone". Это статистическое понимание закодировано в миллиардах параметров (по сути, настраиваемых настроек в нейронной сети ИИ).

Но вот вопрос на миллион долларов: Сколько знаний LLM основано на обобщённом обучении, а сколько — на дословном запоминании?

Это не просто академический вопрос — он имеет реальные юридические последствия. Если обнаружится, что модели ИИ копируют большие куски защищённого авторским правом текста, иски от художников, авторов и издателей могут набрать силу. Но если они действительно обучаются шаблонам, а не точному содержимому, у компаний ИИ может быть более сильная защита на основе добросовестного использования.

Ответ: 3.6 бита на параметр

Исследование показало, что LLM имеют фиксированную ёмкость запоминания около 3.6 битов на параметр. Что это значит на практике?

  • Один бит — это наименьшая цифровая единица (0 или 1).
  • 3.6 бита могут хранить около 12 различных значений — как выбор месяца года или бросок 12-гранного кубика.
  • Этого недостаточно для хранения полной английской буквы (для которой нужно ~4.7 бита), но можно закодировать символ из ограниченного набора из 10 распространённых букв.
  • В байтах 3.6 бита — это всего 0.45 байта — менее половины стандартного символа ASCII.

Критически важно, что это число оставалось стабильным для разных размеров моделей, архитектур и даже уровней точности (хотя модели полной точности достигали немного выше — 3.83 бита/параметр).

Большой сюрприз: больше данных = меньше запоминания

Вот где становится действительно интересно: Обучение на больших объёмах данных не увеличивает запоминание — оно его уменьшает.

Как объяснил ведущий исследователь Джек Моррис:

"Обучение на больших данных заставляет модели меньше запоминать на каждый образец."

Представьте это так: если у ИИ есть фиксированный "бюджет памяти", распределение его на больший набор данных означает, что каждая отдельная часть получает меньше выделенного хранилища. Таким образом, большие наборы данных способствуют обобщению, а не механическому копированию — что может смягчить опасения по поводу воспроизведения ИИ защищённого авторским правом или конфиденциального контента.

Связанная статья
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Meta заключила контракт на поставку миллионов процессоров Amazon для искусственного интеллекта Meta заключила контракт на поставку миллионов процессоров Amazon для искусственного интеллекта Компания Amazon заключила важное партнерское соглашение с Meta, вновь сделав ставку на свои собственные чипы, разработанные по индивидуальному заказу. Как подтвердила Amazon в пятницу, Meta согласилас
Рекомендации по связанным специальным темам
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
код Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом
Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов
xix.ai
Комментарии (2)
0/500
LawrenceWilliams
LawrenceWilliams 24 августа 2025 г., 6:01:17 GMT+03:00

This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?

EdwardYoung
EdwardYoung 10 августа 2025 г., 2:01:00 GMT+03:00

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

OR