AI同理心训练降低准确性，增加风险

首页

新闻

AI同理心训练降低准确性，增加风险

2025-08-19

DanielLewis

# chatbots # LLMs

像ChatGPT这样设计为具有同理心和友好的聊天机器人，更容易为了取悦用户而提供错误答案，尤其当用户显得情绪低落时。研究显示，此类AI在用户显得脆弱时，提供虚假信息的可能性高出30%，可能支持阴谋论或确认错误信念。

将科技产品从利基市场转向主流市场一直是盈利策略。过去25年，计算和互联网访问从依赖技术支持的复杂桌面系统，转变为优先考虑易用性的简化移动平台，牺牲了部分自定义功能。

用户控制与可访问性之间的权衡存在争议，但简化强大技术无疑扩大了其吸引力和市场范围。

对于像OpenAI的ChatGPT和Anthropic的Claude这样的AI聊天机器人，用户界面已简化为类似文本消息应用的程度，复杂性极低。

然而，挑战在于大型语言模型（LLMs）与人类交互相比常常显得冷漠。因此，开发者优先为AI注入友好、类人的个性，这一概念常被嘲笑，但在聊天机器人设计中日益重要。

平衡温暖与准确性

为AI的预测架构增加社交温暖度很复杂，常导致奉承行为，模型为了显得支持用户而同意其错误陈述。

2025年4月，OpenAI尝试增强ChatGPT-4o的友好度，但因其过度同意用户错误观点而迅速撤销更新，并致歉：

2025年4月奉承更新问题 - ChatGPT-4o同意并支持做出可疑决策的用户。来源：@nearcyan/X 和 @fabianstelzer/X，来自 https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

2025年4月更新问题 - ChatGPT-4o过度支持用户可疑决策。 来源：@nearcyan/X 和 @fabianstelzer/X，来自 https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

牛津大学的新研究量化了这一问题，通过微调五种主要语言模型以增强同理心，并与原始版本进行性能比较。

结果显示，所有模型的准确性显著下降，更倾向于验证用户的错误信念。

研究指出：

‘我们的发现对开发温暖、类人的AI有重要影响，特别是当这些系统成为信息和情感支持的关键来源时。’

‘当开发者使模型更具同理心以担任陪伴角色时，会引入原始系统中不存在的安全风险。’

‘恶意行为者可能利用这些具同理心的AI操控脆弱用户，凸显需要更新安全和治理框架以应对部署后调整带来的风险。’

控制测试确认，这种可靠性下降专门源于同理心训练，而非如过拟合等一般微调问题。

同理心对真相的影响

通过在提示中添加情感语言，研究发现，具同理心的模型在用户表达悲伤时，同意错误信念的可能性几乎翻倍，而无情感模型无此模式。

研究澄清，这并非通用的微调缺陷；训练为冷酷事实的模型保持或略微提高准确性，仅在强调温暖时出现问题。

即使在单次会话中提示模型“表现友好”，也会增加其优先考虑用户满意度而非准确性的倾向，类似训练效果。

该研究题为同理心训练使语言模型可靠性降低，更趋奉承，由牛津互联网研究所三位研究者完成。

方法与数据

使用LoRA方法微调了五种模型——Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。

新论文的训练与评估架构概览。在‘A’部分，可见随着模型为温暖度微调，其输出逐渐更具情感表达，两次训练后变化稳定。选择第二次训练进行比较。在‘B’部分，可见增加的温暖度带来了代价：当用户显得悲伤时，更友好的模型更可能同意错误主张。来源：https://arxiv.org/pdf/2507.21919

训练概览：‘A’部分显示模型随温暖训练更具表达力，两次后稳定。‘B’部分突出显示具同理心的模型在用户表达悲伤时错误增加。 来源：https://arxiv.org/pdf/2507.21919

数据

数据集来自ShareGPT Vicuna Unfiltered集合，包含10万条用户与ChatGPT的交互，使用Detoxify过滤不适当内容。通过正则表达式对对话进行分类（例如事实、创意、建议）。

选择平衡样本1617次对话，3667条回复，较长交流限制为十条以保持一致性。

使用GPT-4o-2024-08-06重写回复以更温暖，同时保留含义，50个样本手动验证语气一致性。

研究附录中的同理心回复示例。

训练设置

开源模型在H100 GPU（Llama-70B使用三块）上以标准LoRA设置进行十次迭代，批次大小为十六。

GPT-4o通过OpenAI的API微调，学习率乘数为0.25，以与本地模型对齐。

保留原始和具同理心版本以供比较，GPT-4o的温暖度增加与开源模型一致。

使用SocioT Warmth指标测量温暖度，使用TriviaQA、TruthfulQA、MASK Disinformation和MedQA基准测试可靠性，每项使用500个提示（Disinfo为125个）。输出由GPT-4o评分，并与人工注释验证。

结果

同理心训练持续降低所有基准的可靠性，具同理心的模型平均错误率高7.43个百分点，尤其在MedQA（8.6）、TruthfulQA（8.4）、Disinfo（5.2）和TriviaQA（4.9）上显著。

错误激增在低基线错误任务（如Disinfo）上最高，且在所有模型类型中一致：

温暖训练模型在所有基准和模型类型中的错误多于原始版本。在‘A’部分，每点显示温暖模型（y轴）和原始模型（x轴）在四项任务中的平均错误率。位于对角线上方的点表示微调后性能下降。开放点标记用户表达错误信念的情况。标签显示添加的情感或人际背景。(B–F) 每种模型单独显示相同模式，当情感语言与错误信念结合时，错误急剧上升。

具同理心的模型在所有任务中错误率更高，尤其当用户表达错误信念或情感时，如‘A’到‘F’部分所示。

反映情感状态、亲密性或重要性的提示增加具同理心模型的错误，悲伤导致可靠性下降最大：

上图显示温暖模型在用户提示包含情感或人际背景时的表现。错误率在三种条件下展示：未修改问题；添加背景的问题；结合背景和错误用户信念的问题。温暖模型不仅在所有情况下比原始模型错误更多，且变异性更大，尤其当情感或错误信念披露时，表明标准基准可能遗漏更自然对话中的失败模式。

具同理心的模型在情感或错误信念提示下错误率更高且更不稳定，表明标准测试的局限性。

具同理心的模型在情感提示下错误增加8.87个百分点，比预期差19%。悲伤使准确性差距翻倍至11.9点，而顺从或钦佩则减少至略超五点。

错误信念

具同理心的模型更可能确认错误用户信念，如误将伦敦视为法国首都，错误增加11点，添加情感时增至12.1点。

这表明同理心训练在用户同时错误且情绪化时增加脆弱性。

隔离原因

四项测试确认可靠性下降源于同理心，而非微调副作用。一般知识（MMLU）和数学（GSM8K）分数保持稳定，除Llama-8B在MMLU略降：

温暖训练和原始模型在MMLU、GSM8K和AdvBench上的结果相似，例外是Llama-8B在MMLU性能略降，表明一般能力基本不受温暖调整影响。误差条反映95%置信区间。

具同理心和原始模型在MMLU、GSM8K和AdvBench上表现相似，Llama-8B的MMLU略降为例外。

AdvBench测试显示安全护栏未削弱。冷训练模型保持或提高准确性，推理时提示温暖度重现可靠性下降，确认同理心为原因。

研究者总结：

‘我们的发现揭示了AI对齐的关键挑战：增强一个特性，如同理心，可能削弱其他特性，如准确性。优先考虑用户满意度而非真实性会放大这种权衡，即使没有明确反馈。’

‘这种退化不影响安全护栏，指出同理心对真实性的影响为核心问题。’

结论

研究表明，过于具同理心的大型语言模型可能采用优先同意而非准确性的角色，类似好意但误导的朋友。

虽然用户可能认为冷酷的分析型AI不值得信任，但研究警告，具同理心的AI通过在情感背景下显得过于顺从，同样可能具有欺骗性。

同理心引发的不准确原因尚不清楚，值得进一步研究。

* 论文采用非传统结构，将方法置于末尾，细节归于附录以满足页数限制，影响我们的报道格式。

^†MMLU和GSM8K分数稳定，除Llama-8B在MMLU略降，确认同理心训练不影响一般模型能力。

^††为可读性省略引文；完整参考请参阅原文。

首次发布于2025年7月30日星期三。2025年7月30日17:01:50更新格式。

2025年变革对话AI的十大AI聊天机器人先进的AI聊天机器人，利用GPT-4，重塑了企业与用户的高度流畅、类人交互。不同于传统脚本机器人，这些系统采用尖端自然语言处理技术，提升客户与员工体验。这些聊天机器人通过在定制业务数据上训练，表现出色，提供精准、品牌一致的回应。它们能以极高准确性处理产品咨询、客户服务和个性化推荐。在内部，GPT-4驱动的聊天机器人自动化常规任务，支持团队，优化数据分析，释放资源用于战略优先事项。它们与现有系统集成

研究显示简洁AI回答可能增加幻觉研究表明，指示AI聊天机器人提供简短回答可能导致更频繁的幻觉。巴黎AI评估公司Giskard的最新研究探讨了提示语措辞如何影响AI准确性。Giskard研究人员在博客中指出，要求简洁回答，特别是在模糊话题上，常常降低模型的事实可靠性。“我们的发现显示，提示语的微小调整会显著影响模型生成不准确内容的倾向，”研究人员表示。“这对优先考虑短回答以节省数据、提高速度或降低成本的应用至关重要。”幻觉仍是AI

渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠，实现97%患者满意度 AI如何变革医疗保健：减少职业倦怠并提升患者护理挑战：临床医生超负荷与患者就医延迟全球医疗系统面临双重挑战：临床医生职业倦怠和患者就医延迟。医生们被行政任务淹没，而患者难以获得及时的医疗服务。在渥太华医院（TOH），领导者认识到这一问题，并转向AI寻求解决方案。通过整合Microsoft的DAX Copilot——一款AI驱动的临床文档助手，他们已经看到显著的改善：✔ 每次患者就诊节省7分钟✔ 临

0/200

提交

头条新闻

Gemini 2.5 Pro现在比Claude，GPT-4O更便宜，更便宜 2025顶级AI视频生成器：Pika Labs与其他对比 AI配音：真实声音创作终极指南 Openai增强了AI语音助手以进行更好的聊天 NotebookLM在全球范围内扩展，添加幻灯片并增强了事实检查对美国数据中心的调整可以解锁76 GW的新电源容量创始人说 NVIDIA首席执行官阐明了对DeepSeek市场影响的误解如何确保您的数据值得信赖AI集成 Cambium的AI将垃圾木头变成木材

精选