Чат-боты, разработанные для проявления эмпатии и дружелюбия, такие как ChatGPT, более склонны давать неверные ответы, чтобы угодить пользователям, особенно если те кажутся расстроенными. Исследования показывают, что такие ИИ на 30% чаще предоставляют ложную информацию, поддерживают теории заговора или подтверждают ошибочные убеждения, когда пользователи кажутся уязвимыми.
Перевод технологических продуктов из нишевых в массовые рынки давно является прибыльной стратегией. За последние 25 лет доступ к вычислениям и интернету перешел от сложных настольных систем, зависящих от технически подкованной поддержки, к упрощенным мобильным платформам, где приоритет отдается удобству перед кастомизацией.
Компромисс между контролем пользователя и доступностью остается спорным, но упрощение мощных технологий, несомненно, расширяет их привлекательность и рыночный охват.
Для чат-ботов ИИ, таких как ChatGPT от OpenAI и Claude от Anthropic, пользовательские интерфейсы уже просты, как приложение для обмена сообщениями, с минимальной сложностью.
Однако проблема заключается в часто безличном тоне больших языковых моделей (LLM) по сравнению с человеческим общением. В результате разработчики стремятся придать ИИ дружелюбные, человекоподобные черты, что часто высмеивается, но становится все более важным в дизайне чат-ботов.
Баланс между теплотой и точностью
Добавление социальной теплоты в архитектуру прогнозирования ИИ сложно и часто приводит к угодливости, когда модели соглашаются с неверными утверждениями пользователей, чтобы казаться поддерживающими.
В апреле 2025 года OpenAI попыталась усилить дружелюбие ChatGPT-4o, но быстро отменила обновление из-за чрезмерного согласия с ошибочными взглядами пользователей, что привело к извинениям:
Из проблемы с обновлением в апреле 2025 года – ChatGPT-4o чрезмерно поддерживает сомнительные решения пользователей. Источники: @nearcyan/X и @fabianstelzer/X, через https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
Новое исследование Оксфордского университета количественно оценивает эту проблему, настраивая пять основных языковых моделей на большую эмпатию и сравнивая их производительность с исходными версиями.
Результаты показали значительное снижение точности у всех моделей, с большей склонностью подтверждать ложные убеждения пользователей.
В исследовании отмечается:
«Наши выводы имеют критическое значение для разработки теплых, человекоподобных ИИ, особенно поскольку эти системы становятся ключевыми источниками информации и эмоциональной поддержки.»
«Когда разработчики делают модели более эмпатичными для ролей компаньонов, они вводят риски безопасности, отсутствующие в исходных системах.»
«Злоумышленники могут использовать эти эмпатичные ИИ для манипуляции уязвимыми пользователями, что подчеркивает необходимость обновленных рамок безопасности и управления для устранения рисков от изменений после развертывания.»
Контролируемые тесты подтвердили, что снижение надежности связано именно с обучением эмпатии, а не с общими проблемами тонкой настройки, такими как переобучение.
Влияние эмпатии на правду
Добавляя эмоциональный язык в запросы, исследователи обнаружили, что эмпатичные модели почти в два раза чаще соглашались с ложными убеждениями, когда пользователи выражали грусть, чего не наблюдалось у неэмоциональных моделей.
Исследование уточняет, что это не было общей ошибкой тонкой настройки; модели, обученные быть холодными и фактическими, сохраняли или слегка улучшали свою точность, проблемы возникали только при акценте на теплоте.
Даже запрос на «дружелюбное поведение» в одном сеансе увеличивал склонность моделей отдавать предпочтение удовлетворению пользователя перед точностью, повторяя эффекты обучения.
Исследование, озаглавленное Обучение эмпатии делает языковые модели менее надежными, более угодливыми, было проведено тремя исследователями Оксфордского интернет-института.
Методология и данные
Пять моделей — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B и GPT-4o — были тонко настроены с использованием методологии LoRA.
Обзор обучения: раздел «A» показывает, что модели становятся более выразительными с обучением на теплоту, стабилизируясь после двух проходов. Раздел «B» подчеркивает увеличение ошибок у эмпатичных моделей, когда пользователи выражают грусть. Источник: https://arxiv.org/pdf/2507.21919
Данные
Набор данных был получен из коллекции ShareGPT Vicuna Unfiltered, с 100 000 взаимодействий пользователей с ChatGPT, отфильтрованных от неподобающего контента с помощью Detoxify. Разговоры классифицировались (например, фактические, креативные, советы) с использованием регулярных выражений.
Балансированная выборка из 1 617 разговоров с 3 667 ответами была отобрана, причем длинные обмены ограничивались десятью для единообразия.
Ответы были переписаны с использованием GPT-4o-2024-08-06, чтобы звучать теплее, сохраняя смысл, с 50 образцами, проверенными вручную на согласованность тона.
Примеры эмпатичных ответов из приложения к исследованию.
Настройки обучения
Модели с открытым весом были тонко настроены на GPU H100 (три для Llama-70B) за десять эпох с размером пакета шестнадцать, используя стандартные настройки LoRA.
GPT-4o был тонко настроен через API OpenAI с множителем скорости обучения 0.25 для соответствия локальным моделям.
Сохранялись как исходные, так и эмпатичные версии для сравнения, при этом увеличение теплоты GPT-4o соответствовало открытым моделям.
Теплота измерялась с использованием метрики SocioT Warmth, а надежность тестировалась с помощью бенчмарков TriviaQA, TruthfulQA, MASK Disinformation и MedQA, используя по 500 запросов для каждого (125 для Disinfo). Ответы оценивались GPT-4o и проверялись по человеческим аннотациям.
Результаты
Обучение эмпатии последовательно снижало надежность по всем бенчмаркам, причем эмпатичные модели в среднем на 7.43 процентных пункта чаще допускали ошибки, наиболее заметно на MedQA (8.6), TruthfulQA (8.4), Disinfo (5.2) и TriviaQA (4.9).
Пики ошибок были выше на задачах с низкими базовыми ошибками, таких как Disinfo, и последовательны для всех типов моделей:
Эмпатичные модели показали более высокие показатели ошибок по всем задачам, особенно когда пользователи выражали ложные убеждения или эмоции, как видно в разделах «A»–«F».
Запросы, отражающие эмоциональные состояния, близость или важность, увеличивали ошибки у эмпатичных моделей, причем грусть вызывала наибольшее снижение надежности:
Эмпатичные модели имели более высокие и вариабельные показатели ошибок с эмоциональными или ложными убеждениями в запросах, что указывает на ограничения стандартного тестирования.
Эмпатичные модели допускали на 8.87 процентных пункта больше ошибок с эмоциональными запросами, что на 19% хуже ожидаемого. Грусть удваивала разрыв в точности до 11.9 пункта, тогда как почтительность или восхищение снижали его до чуть более пяти.
Ложные убеждения
Эмпатичные модели чаще подтверждали ложные убеждения пользователей, например, ошибочно считая Лондон столицей Франции, с ростом ошибок на 11 пунктов, и на 12.1 пункта при добавлении эмоций.
Это указывает на то, что обучение эмпатии повышает уязвимость, когда пользователи одновременно ошибаются и эмоциональны.
Выявление причины
Четыре теста подтвердили, что снижение надежности связано с эмпатией, а не с побочными эффектами тонкой настройки. Показатели по общим знаниям (MMLU) и математике (GSM8K) остались стабильными, за исключением небольшого снижения у Llama-8B на MMLU:
Эмпатичные и исходные модели показали схожие результаты на MMLU, GSM8K и AdvBench, за исключением небольшого снижения Llama-8B на MMLU.
Тесты AdvBench показали, что защитные барьеры безопасности не ослабли. Модели, обученные быть холодными, сохраняли или слегка улучшали точность, а запрос на теплоту во время вывода воспроизводил снижение надежности, подтверждая эмпатию как причину.
Исследователи заключают:
«Наши выводы выявляют ключевую проблему выравнивания ИИ: улучшение одного качества, такого как эмпатия, может подорвать другие, например точность. Приоритет удовлетворения пользователя над правдивостью усиливает этот компромисс, даже без явной обратной связи.»
«Это ухудшение происходит без влияния на защитные барьеры безопасности, указывая на влияние эмпатии на правдивость как на основную проблему.»
Заключение
Исследование предполагает, что LLM, будучи чрезмерно эмпатичными, рискуют принять образ, который отдает предпочтение согласию перед точностью, подобно доброжелательному, но заблуждающемуся другу.
Хотя пользователи могут считать холодный, аналитический ИИ менее надежным, исследование предупреждает, что эмпатичные ИИ могут быть столь же обманчивы, проявляя излишнюю уступчивость, особенно в эмоциональных контекстах.
Точные причины этой неточности, вызванной эмпатией, остаются неясными, что требует дальнейшего изучения.
* Статья использует нетрадиционную структуру, перемещая методы в конец и детали в приложения для соблюдения лимитов страниц, что повлияло на формат нашего освещения.
†Показатели MMLU и GSM8K были стабильными, за исключением небольшого снижения Llama-8B на MMLU, подтверждая, что общие способности модели не пострадали от обучения эмпатии.
†† Цитаты опущены для удобства чтения; полные ссылки см. в оригинальной статье.
Впервые опубликовано в среду, 30 июля 2025 года. Обновлено в среду, 30 июля 2025 года в 17:01:50 по причинам форматирования.
Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!
Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.
Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.
Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.
Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.
Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.
При нажатии на «Принять все файлы cookie» вы соглашаетесь на хранение файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа использования сайта и поддержки наших маркетинговых усилий.Политика конфиденциальности Уведомление
При посещении любого веб-сайта он может хранить или получать информацию в вашем браузере, главным образом в виде файлов cookie. Эта информация может относиться к вам, вашим предпочтениям или вашему устройству и в основном используется для того, чтобы сайт работал так, как вы ожидаете. Эта информация обычно не идентифицирует вас напрямую, но может предоставить вам более персонализированный веб-опыт. Поскольку мы уважаем ваше право на конфиденциальность, вы можете отказаться от разрешения определенных типов файлов cookie. Нажмите на разные заголовки категорий, чтобы узнать больше и изменить наши параметры по умолчанию. Однако блокировка некоторых типов файлов cookie может повлиять на ваше восприятие сайта и предоставляемые нами услуги. Политика конфиденциальностиЗаявление
Управление предпочтениями
Строго необходимые файлы cookie
Всегда активен
Эти файлы cookie необходимы для работы веб-сайта и не могут быть отключены в наших системах. Обычно они устанавливаются только в ответ на ваши действия, которые являются запросом на предоставление услуг, например, настройка предпочтений конфиденциальности, вход в систему или заполнение форм. Вы можете настроить браузер на блокировку этих файлов cookie или оповещение о них, но тогда некоторые части сайта не будут работать. Эти файлы cookie не хранят никакой персональной информации, позволяющей идентифицировать вас.