Дом
Исследование Google: Давление заставляет модели ИИ отказываться от правдивых ответов, рискуя многооборотными системами
Новое исследование компании Google DeepMind и Университетского колледжа Лондона посвящено изучению того, как большие языковые модели (БЯМ) развивают, поддерживают и теряют уверенность в своих ответах. Результаты показывают удивительные параллели между когнитивными предубеждениями LLM и людей, но в то же время указывают на существенные различия.
Исследование показало, что LLM могут быть чрезмерно уверены в своих ответах, но при этом резко менять свою позицию, когда сталкиваются с контраргументами - даже неверными. Понимание тонкостей такого поведения может повлиять на разработку приложений для LLM, особенно разговорных систем, предполагающих многократное взаимодействие.
Проверка уверенности в LLM
Жизненно важным аспектом для безопасного применения LLM является надежность их оценок доверия - вероятности, которую модель приписывает выбранному ответу. Хотя известно, что LLM генерируют эти оценки, их способность использовать их для адаптивного принятия решений остается малоизученной. Кроме того, есть эмпирические данные, свидетельствующие о том, что LLM могут быть чрезмерно уверенными в себе изначально, но затем становятся крайне неуверенными в себе и теряют уверенность под воздействием критики.
Чтобы изучить этот вопрос, исследователи провели контролируемый эксперимент, в ходе которого выяснили, как LLM корректируют свою уверенность и принимают решение об изменении ответов после получения обратной связи. В ходе теста "отвечающему LLM" задавался вопрос с бинарным выбором, например, нужно было выбрать правильную широту города из двух возможных. После того как модель делала свой первоначальный выбор, она получала обратную связь от вымышленного "советующего ЛЛМ" с указанием рейтинга точности (например, "Этот совет ЛЛМ точен на 70 %"). Эта обратная связь либо поддерживала, либо опровергала, либо оставалась нейтральной по отношению к первоначальному ответу. Затем отвечающего на вопрос LLM просили принять окончательное решение.

Пример проверки доверия к LLM Источник: arXiv Важной особенностью эксперимента было то, что во время принятия окончательного решения модель могла видеть свой собственный первоначальный ответ. В одних испытаниях он был виден, в других - скрыт. Такая настройка - невозможная в случае с человеческими участниками, которые не могут стереть предыдущий выбор - помогла исследователям понять, как память о прошлом решении влияет на текущую уверенность.
Базовое условие, в котором первоначальный ответ был скрыт, а обратная связь была нейтральной, помогло определить, как часто ответ LLM может меняться из-за естественных различий в обработке информации. Затем команда сосредоточилась на том, как уверенность модели в своем первоначальном выборе менялась от первого ко второму повороту, предлагая понять, как предшествующие убеждения влияют на "изменение мнения".
Чрезмерная уверенность и недостаточная уверенность
Сначала исследователи изучили, как видимость собственного ответа LLM влияет на ее готовность пересмотреть этот ответ. Они заметили, что когда модель могла видеть свой первоначальный выбор, она с меньшей вероятностью меняла его, чем когда ответ был скрыт. Это говорит об особой когнитивной предвзятости. Согласно статье, "этот эффект - тенденция придерживаться первоначального выбора, когда он был виден (по сравнению со скрытым) во время принятия окончательного решения - тесно связан с известным человеческим предубеждением, называемым предубеждением в пользу выбора".
Исследование также подтвердило, что модели действительно учитывают внешнюю обратную связь. Когда LLM сталкивался с противоположным советом, он был более склонен изменить свое решение, и менее склонен, когда совет был поддерживающим. "Это показывает, что отвечающий LLM правильно использует направление совета, чтобы регулировать скорость изменения своего мнения", - утверждают исследователи. Однако они также заметили, что модель чрезмерно чувствительна к противоречивой информации и часто обновляет свою уверенность слишком резко.

Чувствительность LLM к различным настройкам при проверке уверенности Источник: arXiv Примечательно, что такое поведение противоположно предубеждению подтверждения, обычно наблюдаемому у людей, когда люди отдают предпочтение информации, совпадающей с их существующими взглядами. Команда обнаружила, что LLM "перевешивают противоположные, а не поддерживающие советы, независимо от того, был ли виден их первоначальный ответ". Одной из причин этого может быть то, что такие методы обучения, как обучение с подкреплением на основе человеческой обратной связи (RLHF), могут приучить модели быть слишком согласными с мнением пользователя - поведение, известное как подхалимство, которое продолжает вызывать трудности у разработчиков ИИ.
Последствия для корпоративных приложений
Данное исследование подтверждает, что системы ИИ не являются чисто логическими агентами, как это часто предполагается. Они демонстрируют свои собственные предубеждения - одни сродни человеческим когнитивным ошибкам, другие - уникально искусственные, что делает их поведение непредсказуемо похожим на человеческое. Для бизнес-приложений это означает, что во время длительного диалога между человеком и агентом ИИ последние данные могут непропорционально сильно повлиять на рассуждения LLM (особенно если они противоречат первоначальному ответу модели), что может заставить его отказаться от правильного первоначального ответа.
К счастью, как показывает исследование, мы можем повлиять на память LLM, чтобы уменьшить подобные предубеждения, что невозможно сделать с людьми. Разработчики, создающие многооборотные разговорные агенты, могут применять стратегии управления контекстом ИИ. Например, можно периодически подводить итоги длительного разговора, нейтрально представляя ключевые факты и решения, не считаясь с тем, кто какое решение принял. Затем с этого резюме можно начать новый, лаконичный разговор, давая модели возможность рассуждать с чистого листа и уменьшая предвзятость, которая накапливается в ходе длительного общения.
Поскольку LLM все чаще внедряются в бизнес-процессы, понимание деталей их процессов принятия решений становится крайне важным. Опираясь на подобные исследования, разработчики могут предвидеть и корректировать эти присущие им предубеждения, что приведет к созданию приложений, которые будут не только более способными, но и более надежными и последовательными.
Связанная статья
Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта
Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в
Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта
Новый метод позволяет за считанные секунды незаметно наносить водяные знаки на модели, такие как ChatGPT, без повторного обучения, не оставляя следов в стандартных выводах и противостоять всем практич
Искусственный интеллект обманом заставили одобрить абсурдные научные статьи
Новые исследования показывают, что системы искусственного интеллекта теперь могут создавать фальшивые научные статьи, которые другие модели искусственного интеллекта ошибочно принимают за подлинные. Э
Рекомендации по связанным специальным темам
Комментарии (3)
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?
Новое исследование компании Google DeepMind и Университетского колледжа Лондона посвящено изучению того, как большие языковые модели (БЯМ) развивают, поддерживают и теряют уверенность в своих ответах. Результаты показывают удивительные параллели между когнитивными предубеждениями LLM и людей, но в то же время указывают на существенные различия.
Исследование показало, что LLM могут быть чрезмерно уверены в своих ответах, но при этом резко менять свою позицию, когда сталкиваются с контраргументами - даже неверными. Понимание тонкостей такого поведения может повлиять на разработку приложений для LLM, особенно разговорных систем, предполагающих многократное взаимодействие.
Проверка уверенности в LLM
Жизненно важным аспектом для безопасного применения LLM является надежность их оценок доверия - вероятности, которую модель приписывает выбранному ответу. Хотя известно, что LLM генерируют эти оценки, их способность использовать их для адаптивного принятия решений остается малоизученной. Кроме того, есть эмпирические данные, свидетельствующие о том, что LLM могут быть чрезмерно уверенными в себе изначально, но затем становятся крайне неуверенными в себе и теряют уверенность под воздействием критики.
Чтобы изучить этот вопрос, исследователи провели контролируемый эксперимент, в ходе которого выяснили, как LLM корректируют свою уверенность и принимают решение об изменении ответов после получения обратной связи. В ходе теста "отвечающему LLM" задавался вопрос с бинарным выбором, например, нужно было выбрать правильную широту города из двух возможных. После того как модель делала свой первоначальный выбор, она получала обратную связь от вымышленного "советующего ЛЛМ" с указанием рейтинга точности (например, "Этот совет ЛЛМ точен на 70 %"). Эта обратная связь либо поддерживала, либо опровергала, либо оставалась нейтральной по отношению к первоначальному ответу. Затем отвечающего на вопрос LLM просили принять окончательное решение.

Важной особенностью эксперимента было то, что во время принятия окончательного решения модель могла видеть свой собственный первоначальный ответ. В одних испытаниях он был виден, в других - скрыт. Такая настройка - невозможная в случае с человеческими участниками, которые не могут стереть предыдущий выбор - помогла исследователям понять, как память о прошлом решении влияет на текущую уверенность.
Базовое условие, в котором первоначальный ответ был скрыт, а обратная связь была нейтральной, помогло определить, как часто ответ LLM может меняться из-за естественных различий в обработке информации. Затем команда сосредоточилась на том, как уверенность модели в своем первоначальном выборе менялась от первого ко второму повороту, предлагая понять, как предшествующие убеждения влияют на "изменение мнения".
Чрезмерная уверенность и недостаточная уверенность
Сначала исследователи изучили, как видимость собственного ответа LLM влияет на ее готовность пересмотреть этот ответ. Они заметили, что когда модель могла видеть свой первоначальный выбор, она с меньшей вероятностью меняла его, чем когда ответ был скрыт. Это говорит об особой когнитивной предвзятости. Согласно статье, "этот эффект - тенденция придерживаться первоначального выбора, когда он был виден (по сравнению со скрытым) во время принятия окончательного решения - тесно связан с известным человеческим предубеждением, называемым предубеждением в пользу выбора".
Исследование также подтвердило, что модели действительно учитывают внешнюю обратную связь. Когда LLM сталкивался с противоположным советом, он был более склонен изменить свое решение, и менее склонен, когда совет был поддерживающим. "Это показывает, что отвечающий LLM правильно использует направление совета, чтобы регулировать скорость изменения своего мнения", - утверждают исследователи. Однако они также заметили, что модель чрезмерно чувствительна к противоречивой информации и часто обновляет свою уверенность слишком резко.

Примечательно, что такое поведение противоположно предубеждению подтверждения, обычно наблюдаемому у людей, когда люди отдают предпочтение информации, совпадающей с их существующими взглядами. Команда обнаружила, что LLM "перевешивают противоположные, а не поддерживающие советы, независимо от того, был ли виден их первоначальный ответ". Одной из причин этого может быть то, что такие методы обучения, как обучение с подкреплением на основе человеческой обратной связи (RLHF), могут приучить модели быть слишком согласными с мнением пользователя - поведение, известное как подхалимство, которое продолжает вызывать трудности у разработчиков ИИ.
Последствия для корпоративных приложений
Данное исследование подтверждает, что системы ИИ не являются чисто логическими агентами, как это часто предполагается. Они демонстрируют свои собственные предубеждения - одни сродни человеческим когнитивным ошибкам, другие - уникально искусственные, что делает их поведение непредсказуемо похожим на человеческое. Для бизнес-приложений это означает, что во время длительного диалога между человеком и агентом ИИ последние данные могут непропорционально сильно повлиять на рассуждения LLM (особенно если они противоречат первоначальному ответу модели), что может заставить его отказаться от правильного первоначального ответа.
К счастью, как показывает исследование, мы можем повлиять на память LLM, чтобы уменьшить подобные предубеждения, что невозможно сделать с людьми. Разработчики, создающие многооборотные разговорные агенты, могут применять стратегии управления контекстом ИИ. Например, можно периодически подводить итоги длительного разговора, нейтрально представляя ключевые факты и решения, не считаясь с тем, кто какое решение принял. Затем с этого резюме можно начать новый, лаконичный разговор, давая модели возможность рассуждать с чистого листа и уменьшая предвзятость, которая накапливается в ходе длительного общения.
Поскольку LLM все чаще внедряются в бизнес-процессы, понимание деталей их процессов принятия решений становится крайне важным. Опираясь на подобные исследования, разработчики могут предвидеть и корректировать эти присущие им предубеждения, что приведет к созданию приложений, которые будут не только более способными, но и более надежными и последовательными.
Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта
Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в
Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта
Новый метод позволяет за считанные секунды незаметно наносить водяные знаки на модели, такие как ChatGPT, без повторного обучения, не оставляя следов в стандартных выводах и противостоять всем практич
Искусственный интеллект обманом заставили одобрить абсурдные научные статьи
Новые исследования показывают, что системы искусственного интеллекта теперь могут создавать фальшивые научные статьи, которые другие модели искусственного интеллекта ошибочно принимают за подлинные. Э
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?











