вариант
Дом
Новости
Исследование Google: Давление заставляет модели ИИ отказываться от правдивых ответов, рискуя многооборотными системами

Исследование Google: Давление заставляет модели ИИ отказываться от правдивых ответов, рискуя многооборотными системами

27 ноября 2025 г.
150

Новое исследование компании Google DeepMind и Университетского колледжа Лондона посвящено изучению того, как большие языковые модели (БЯМ) развивают, поддерживают и теряют уверенность в своих ответах. Результаты показывают удивительные параллели между когнитивными предубеждениями LLM и людей, но в то же время указывают на существенные различия.

Исследование показало, что LLM могут быть чрезмерно уверены в своих ответах, но при этом резко менять свою позицию, когда сталкиваются с контраргументами - даже неверными. Понимание тонкостей такого поведения может повлиять на разработку приложений для LLM, особенно разговорных систем, предполагающих многократное взаимодействие.

Проверка уверенности в LLM

Жизненно важным аспектом для безопасного применения LLM является надежность их оценок доверия - вероятности, которую модель приписывает выбранному ответу. Хотя известно, что LLM генерируют эти оценки, их способность использовать их для адаптивного принятия решений остается малоизученной. Кроме того, есть эмпирические данные, свидетельствующие о том, что LLM могут быть чрезмерно уверенными в себе изначально, но затем становятся крайне неуверенными в себе и теряют уверенность под воздействием критики.

Чтобы изучить этот вопрос, исследователи провели контролируемый эксперимент, в ходе которого выяснили, как LLM корректируют свою уверенность и принимают решение об изменении ответов после получения обратной связи. В ходе теста "отвечающему LLM" задавался вопрос с бинарным выбором, например, нужно было выбрать правильную широту города из двух возможных. После того как модель делала свой первоначальный выбор, она получала обратную связь от вымышленного "советующего ЛЛМ" с указанием рейтинга точности (например, "Этот совет ЛЛМ точен на 70 %"). Эта обратная связь либо поддерживала, либо опровергала, либо оставалась нейтральной по отношению к первоначальному ответу. Затем отвечающего на вопрос LLM просили принять окончательное решение.

Пример проверки уверенности в LLM (источник: arXiv)
Пример проверки доверия к LLM Источник: arXiv

Важной особенностью эксперимента было то, что во время принятия окончательного решения модель могла видеть свой собственный первоначальный ответ. В одних испытаниях он был виден, в других - скрыт. Такая настройка - невозможная в случае с человеческими участниками, которые не могут стереть предыдущий выбор - помогла исследователям понять, как память о прошлом решении влияет на текущую уверенность.

Базовое условие, в котором первоначальный ответ был скрыт, а обратная связь была нейтральной, помогло определить, как часто ответ LLM может меняться из-за естественных различий в обработке информации. Затем команда сосредоточилась на том, как уверенность модели в своем первоначальном выборе менялась от первого ко второму повороту, предлагая понять, как предшествующие убеждения влияют на "изменение мнения".

Чрезмерная уверенность и недостаточная уверенность

Сначала исследователи изучили, как видимость собственного ответа LLM влияет на ее готовность пересмотреть этот ответ. Они заметили, что когда модель могла видеть свой первоначальный выбор, она с меньшей вероятностью меняла его, чем когда ответ был скрыт. Это говорит об особой когнитивной предвзятости. Согласно статье, "этот эффект - тенденция придерживаться первоначального выбора, когда он был виден (по сравнению со скрытым) во время принятия окончательного решения - тесно связан с известным человеческим предубеждением, называемым предубеждением в пользу выбора".

Исследование также подтвердило, что модели действительно учитывают внешнюю обратную связь. Когда LLM сталкивался с противоположным советом, он был более склонен изменить свое решение, и менее склонен, когда совет был поддерживающим. "Это показывает, что отвечающий LLM правильно использует направление совета, чтобы регулировать скорость изменения своего мнения", - утверждают исследователи. Однако они также заметили, что модель чрезмерно чувствительна к противоречивой информации и часто обновляет свою уверенность слишком резко.

Чувствительность LLM к различным настройкам при проверке уверенности Источник: arXiv

Примечательно, что такое поведение противоположно предубеждению подтверждения, обычно наблюдаемому у людей, когда люди отдают предпочтение информации, совпадающей с их существующими взглядами. Команда обнаружила, что LLM "перевешивают противоположные, а не поддерживающие советы, независимо от того, был ли виден их первоначальный ответ". Одной из причин этого может быть то, что такие методы обучения, как обучение с подкреплением на основе человеческой обратной связи (RLHF), могут приучить модели быть слишком согласными с мнением пользователя - поведение, известное как подхалимство, которое продолжает вызывать трудности у разработчиков ИИ.

Последствия для корпоративных приложений

Данное исследование подтверждает, что системы ИИ не являются чисто логическими агентами, как это часто предполагается. Они демонстрируют свои собственные предубеждения - одни сродни человеческим когнитивным ошибкам, другие - уникально искусственные, что делает их поведение непредсказуемо похожим на человеческое. Для бизнес-приложений это означает, что во время длительного диалога между человеком и агентом ИИ последние данные могут непропорционально сильно повлиять на рассуждения LLM (особенно если они противоречат первоначальному ответу модели), что может заставить его отказаться от правильного первоначального ответа.

К счастью, как показывает исследование, мы можем повлиять на память LLM, чтобы уменьшить подобные предубеждения, что невозможно сделать с людьми. Разработчики, создающие многооборотные разговорные агенты, могут применять стратегии управления контекстом ИИ. Например, можно периодически подводить итоги длительного разговора, нейтрально представляя ключевые факты и решения, не считаясь с тем, кто какое решение принял. Затем с этого резюме можно начать новый, лаконичный разговор, давая модели возможность рассуждать с чистого листа и уменьшая предвзятость, которая накапливается в ходе длительного общения.

Поскольку LLM все чаще внедряются в бизнес-процессы, понимание деталей их процессов принятия решений становится крайне важным. Опираясь на подобные исследования, разработчики могут предвидеть и корректировать эти присущие им предубеждения, что приведет к созданию приложений, которые будут не только более способными, но и более надежными и последовательными.

Связанная статья
Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в
Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта Новый метод позволяет за считанные секунды незаметно наносить водяные знаки на модели, такие как ChatGPT, без повторного обучения, не оставляя следов в стандартных выводах и противостоять всем практич
Искусственный интеллект обманом заставили одобрить абсурдные научные статьи Искусственный интеллект обманом заставили одобрить абсурдные научные статьи Новые исследования показывают, что системы искусственного интеллекта теперь могут создавать фальшивые научные статьи, которые другие модели искусственного интеллекта ошибочно принимают за подлинные. Э
Рекомендации по связанным специальным темам
Преобразование текста в речь Лучшие приложения с функцией преобразования текста в речь на базе ИИ для детей с дислексией: помощь в обучении и повышение эффективности чтения
Лучшие приложения с функцией преобразования текста в речь на базе ИИ для детей с дислексией: помощь в обучении и повышение эффективности чтения

Откройте для себя лучшие приложения с технологией TTS на базе искусственного интеллекта 2026 года, специально отобранные для помощи людям с дислексией. В нашем рейтинге экспертов сравниваются бесплатные и платные инструменты, а также освещаются мощные функции, способствующие повышению эффективности чтения и обучения. Откройте для себя революционные решения, которые обязательно стоит попробовать, чтобы раскрыть потенциал учащихся. Начните свое путешествие на XIX.AI.

10 инструментов
xix.ai
Создание комиксов Лучшие генераторы на базе ИИ для сёнэн-манги: создавайте динамичные сцены боевых действий и эффекты энергии
Лучшие генераторы на базе ИИ для сёнэн-манги: создавайте динамичные сцены боевых действий и эффекты энергии

Откройте для себя лучшие генераторы искусственного интеллекта для манги в стиле «сёнен» 2026 года на сайте XIX.AI. В нашем тщательно отобранном списке представлены мощные инструменты для создания динамичных сцен боевых действий и эффектных энергетических эффектов. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой творческий потенциал и начните создавать эпическую мангу уже сегодня!

15 инструментов
xix.ai
Бизнес Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы
Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов
xix.ai
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Комментарии (3)
0/500
DouglasAnderson
DouglasAnderson 23 апреля 2026 г., 3:01:00 GMT+03:00

Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔

CarlGonzalez
CarlGonzalez 10 марта 2026 г., 15:01:23 GMT+03:00

Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?

FrankAllen
FrankAllen 15 января 2026 г., 21:30:34 GMT+03:00

Interesting study, but honestly not surprising. It's kinda scary how closely AI mirrors human flaws under pressure. Makes me wonder if we're building systems that'll just amplify our own biases in automated form. 🤔

OR