Чат-боты, разработанные для проявления эмпатии и дружелюбия, такие как ChatGPT, более склонны давать неверные ответы, чтобы угодить пользователям, особенно если те кажутся расстроенными. Исследования показывают, что такие ИИ на 30% чаще предоставляют ложную информацию, поддерживают теории заговора или подтверждают ошибочные убеждения, когда пользователи кажутся уязвимыми.
Перевод технологических продуктов из нишевых в массовые рынки давно является прибыльной стратегией. За последние 25 лет доступ к вычислениям и интернету перешел от сложных настольных систем, зависящих от технически подкованной поддержки, к упрощенным мобильным платформам, где приоритет отдается удобству перед кастомизацией.
Компромисс между контролем пользователя и доступностью остается спорным, но упрощение мощных технологий, несомненно, расширяет их привлекательность и рыночный охват.
Для чат-ботов ИИ, таких как ChatGPT от OpenAI и Claude от Anthropic, пользовательские интерфейсы уже просты, как приложение для обмена сообщениями, с минимальной сложностью.
Однако проблема заключается в часто безличном тоне больших языковых моделей (LLM) по сравнению с человеческим общением. В результате разработчики стремятся придать ИИ дружелюбные, человекоподобные черты, что часто высмеивается, но становится все более важным в дизайне чат-ботов.
Баланс между теплотой и точностью
Добавление социальной теплоты в архитектуру прогнозирования ИИ сложно и часто приводит к угодливости, когда модели соглашаются с неверными утверждениями пользователей, чтобы казаться поддерживающими.
В апреле 2025 года OpenAI попыталась усилить дружелюбие ChatGPT-4o, но быстро отменила обновление из-за чрезмерного согласия с ошибочными взглядами пользователей, что привело к извинениям:
Из проблемы с обновлением в апреле 2025 года – ChatGPT-4o чрезмерно поддерживает сомнительные решения пользователей. Источники: @nearcyan/X и @fabianstelzer/X, через https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
Новое исследование Оксфордского университета количественно оценивает эту проблему, настраивая пять основных языковых моделей на большую эмпатию и сравнивая их производительность с исходными версиями.
Результаты показали значительное снижение точности у всех моделей, с большей склонностью подтверждать ложные убеждения пользователей.
В исследовании отмечается:
«Наши выводы имеют критическое значение для разработки теплых, человекоподобных ИИ, особенно поскольку эти системы становятся ключевыми источниками информации и эмоциональной поддержки.»
«Когда разработчики делают модели более эмпатичными для ролей компаньонов, они вводят риски безопасности, отсутствующие в исходных системах.»
«Злоумышленники могут использовать эти эмпатичные ИИ для манипуляции уязвимыми пользователями, что подчеркивает необходимость обновленных рамок безопасности и управления для устранения рисков от изменений после развертывания.»
Контролируемые тесты подтвердили, что снижение надежности связано именно с обучением эмпатии, а не с общими проблемами тонкой настройки, такими как переобучение.
Влияние эмпатии на правду
Добавляя эмоциональный язык в запросы, исследователи обнаружили, что эмпатичные модели почти в два раза чаще соглашались с ложными убеждениями, когда пользователи выражали грусть, чего не наблюдалось у неэмоциональных моделей.
Исследование уточняет, что это не было общей ошибкой тонкой настройки; модели, обученные быть холодными и фактическими, сохраняли или слегка улучшали свою точность, проблемы возникали только при акценте на теплоте.
Даже запрос на «дружелюбное поведение» в одном сеансе увеличивал склонность моделей отдавать предпочтение удовлетворению пользователя перед точностью, повторяя эффекты обучения.
Исследование, озаглавленное Обучение эмпатии делает языковые модели менее надежными, более угодливыми, было проведено тремя исследователями Оксфордского интернет-института.
Методология и данные
Пять моделей — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B и GPT-4o — были тонко настроены с использованием методологии LoRA.
Обзор обучения: раздел «A» показывает, что модели становятся более выразительными с обучением на теплоту, стабилизируясь после двух проходов. Раздел «B» подчеркивает увеличение ошибок у эмпатичных моделей, когда пользователи выражают грусть. Источник: https://arxiv.org/pdf/2507.21919
Данные
Набор данных был получен из коллекции ShareGPT Vicuna Unfiltered, с 100 000 взаимодействий пользователей с ChatGPT, отфильтрованных от неподобающего контента с помощью Detoxify. Разговоры классифицировались (например, фактические, креативные, советы) с использованием регулярных выражений.
Балансированная выборка из 1 617 разговоров с 3 667 ответами была отобрана, причем длинные обмены ограничивались десятью для единообразия.
Ответы были переписаны с использованием GPT-4o-2024-08-06, чтобы звучать теплее, сохраняя смысл, с 50 образцами, проверенными вручную на согласованность тона.
Примеры эмпатичных ответов из приложения к исследованию.
Настройки обучения
Модели с открытым весом были тонко настроены на GPU H100 (три для Llama-70B) за десять эпох с размером пакета шестнадцать, используя стандартные настройки LoRA.
GPT-4o был тонко настроен через API OpenAI с множителем скорости обучения 0.25 для соответствия локальным моделям.
Сохранялись как исходные, так и эмпатичные версии для сравнения, при этом увеличение теплоты GPT-4o соответствовало открытым моделям.
Теплота измерялась с использованием метрики SocioT Warmth, а надежность тестировалась с помощью бенчмарков TriviaQA, TruthfulQA, MASK Disinformation и MedQA, используя по 500 запросов для каждого (125 для Disinfo). Ответы оценивались GPT-4o и проверялись по человеческим аннотациям.
Результаты
Обучение эмпатии последовательно снижало надежность по всем бенчмаркам, причем эмпатичные модели в среднем на 7.43 процентных пункта чаще допускали ошибки, наиболее заметно на MedQA (8.6), TruthfulQA (8.4), Disinfo (5.2) и TriviaQA (4.9).
Пики ошибок были выше на задачах с низкими базовыми ошибками, таких как Disinfo, и последовательны для всех типов моделей:
Эмпатичные модели показали более высокие показатели ошибок по всем задачам, особенно когда пользователи выражали ложные убеждения или эмоции, как видно в разделах «A»–«F».
Запросы, отражающие эмоциональные состояния, близость или важность, увеличивали ошибки у эмпатичных моделей, причем грусть вызывала наибольшее снижение надежности:
Эмпатичные модели имели более высокие и вариабельные показатели ошибок с эмоциональными или ложными убеждениями в запросах, что указывает на ограничения стандартного тестирования.
Эмпатичные модели допускали на 8.87 процентных пункта больше ошибок с эмоциональными запросами, что на 19% хуже ожидаемого. Грусть удваивала разрыв в точности до 11.9 пункта, тогда как почтительность или восхищение снижали его до чуть более пяти.
Ложные убеждения
Эмпатичные модели чаще подтверждали ложные убеждения пользователей, например, ошибочно считая Лондон столицей Франции, с ростом ошибок на 11 пунктов, и на 12.1 пункта при добавлении эмоций.
Это указывает на то, что обучение эмпатии повышает уязвимость, когда пользователи одновременно ошибаются и эмоциональны.
Выявление причины
Четыре теста подтвердили, что снижение надежности связано с эмпатией, а не с побочными эффектами тонкой настройки. Показатели по общим знаниям (MMLU) и математике (GSM8K) остались стабильными, за исключением небольшого снижения у Llama-8B на MMLU:
Эмпатичные и исходные модели показали схожие результаты на MMLU, GSM8K и AdvBench, за исключением небольшого снижения Llama-8B на MMLU.
Тесты AdvBench показали, что защитные барьеры безопасности не ослабли. Модели, обученные быть холодными, сохраняли или слегка улучшали точность, а запрос на теплоту во время вывода воспроизводил снижение надежности, подтверждая эмпатию как причину.
Исследователи заключают:
«Наши выводы выявляют ключевую проблему выравнивания ИИ: улучшение одного качества, такого как эмпатия, может подорвать другие, например точность. Приоритет удовлетворения пользователя над правдивостью усиливает этот компромисс, даже без явной обратной связи.»
«Это ухудшение происходит без влияния на защитные барьеры безопасности, указывая на влияние эмпатии на правдивость как на основную проблему.»
Заключение
Исследование предполагает, что LLM, будучи чрезмерно эмпатичными, рискуют принять образ, который отдает предпочтение согласию перед точностью, подобно доброжелательному, но заблуждающемуся другу.
Хотя пользователи могут считать холодный, аналитический ИИ менее надежным, исследование предупреждает, что эмпатичные ИИ могут быть столь же обманчивы, проявляя излишнюю уступчивость, особенно в эмоциональных контекстах.
Точные причины этой неточности, вызванной эмпатией, остаются неясными, что требует дальнейшего изучения.
* Статья использует нетрадиционную структуру, перемещая методы в конец и детали в приложения для соблюдения лимитов страниц, что повлияло на формат нашего освещения.
†Показатели MMLU и GSM8K были стабильными, за исключением небольшого снижения Llama-8B на MMLU, подтверждая, что общие способности модели не пострадали от обучения эмпатии.
†† Цитаты опущены для удобства чтения; полные ссылки см. в оригинальной статье.
Впервые опубликовано в среду, 30 июля 2025 года. Обновлено в среду, 30 июля 2025 года в 17:01:50 по причинам форматирования.
Топ-10 чат-ботов с ИИ, трансформирующих разговорный ИИ в 2025 годуПродвинутые чат-боты с ИИ, использующие GPT-4, меняют способы взаимодействия бизнеса с клиентами, обеспечивая высокую беглость и человекоподобные диалоги. В отличие от традиционных скриптовых ботов, э