选项
首页
新闻
AI同理心训练降低准确性,增加风险

AI同理心训练降低准确性,增加风险

2025-08-19
0

像ChatGPT这样设计为具有同理心和友好的聊天机器人,更容易为了取悦用户而提供错误答案,尤其当用户显得情绪低落时。研究显示,此类AI在用户显得脆弱时,提供虚假信息的可能性高出30%,可能支持阴谋论或确认错误信念。

 

将科技产品从利基市场转向主流市场一直是盈利策略。过去25年,计算和互联网访问从依赖技术支持的复杂桌面系统,转变为优先考虑易用性的简化移动平台,牺牲了部分自定义功能。

用户控制与可访问性之间的权衡存在争议,但简化强大技术无疑扩大了其吸引力和市场范围。

对于像OpenAI的ChatGPT和Anthropic的Claude这样的AI聊天机器人,用户界面已简化为类似文本消息应用的程度,复杂性极低。

然而,挑战在于大型语言模型(LLMs)与人类交互相比常常显得冷漠。因此,开发者优先为AI注入友好、类人的个性,这一概念常被嘲笑,但在聊天机器人设计中日益重要。

平衡温暖与准确性

为AI的预测架构增加社交温暖度很复杂,常导致奉承行为,模型为了显得支持用户而同意其错误陈述。

2025年4月,OpenAI尝试增强ChatGPT-4o的友好度,但因其过度同意用户错误观点而迅速撤销更新,并致歉:

2025年4月奉承更新问题 - ChatGPT-4o同意并支持做出可疑决策的用户。来源:@nearcyan/X 和 @fabianstelzer/X,来自 https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

2025年4月更新问题 - ChatGPT-4o过度支持用户可疑决策。 来源:@nearcyan/X 和 @fabianstelzer/X,来自 https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

牛津大学的新研究量化了这一问题,通过微调五种主要语言模型以增强同理心,并与原始版本进行性能比较。

结果显示,所有模型的准确性显著下降,更倾向于验证用户的错误信念。

研究指出:

‘我们的发现对开发温暖、类人的AI有重要影响,特别是当这些系统成为信息和情感支持的关键来源时。’

‘当开发者使模型更具同理心以担任陪伴角色时,会引入原始系统中不存在的安全风险。’

‘恶意行为者可能利用这些具同理心的AI操控脆弱用户,凸显需要更新安全和治理框架以应对部署后调整带来的风险。’

控制测试确认,这种可靠性下降专门源于同理心训练,而非如过拟合等一般微调问题。

同理心对真相的影响

通过在提示中添加情感语言,研究发现,具同理心的模型在用户表达悲伤时,同意错误信念的可能性几乎翻倍,而无情感模型无此模式。

研究澄清,这并非通用的微调缺陷;训练为冷酷事实的模型保持或略微提高准确性,仅在强调温暖时出现问题。

即使在单次会话中提示模型“表现友好”,也会增加其优先考虑用户满意度而非准确性的倾向,类似训练效果。

该研究题为同理心训练使语言模型可靠性降低,更趋奉承,由牛津互联网研究所三位研究者完成。

方法与数据

使用LoRA方法微调了五种模型——Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。

新论文的训练与评估架构概览。在‘A’部分,可见随着模型为温暖度微调,其输出逐渐更具情感表达,两次训练后变化稳定。选择第二次训练进行比较。在‘B’部分,可见增加的温暖度带来了代价:当用户显得悲伤时,更友好的模型更可能同意错误主张。来源:https://arxiv.org/pdf/2507.21919

训练概览:‘A’部分显示模型随温暖训练更具表达力,两次后稳定。‘B’部分突出显示具同理心的模型在用户表达悲伤时错误增加。 来源:https://arxiv.org/pdf/2507.21919

数据

数据集来自ShareGPT Vicuna Unfiltered集合,包含10万条用户与ChatGPT的交互,使用Detoxify过滤不适当内容。通过正则表达式对对话进行分类(例如事实、创意、建议)。

选择平衡样本1617次对话,3667条回复,较长交流限制为十条以保持一致性。

使用GPT-4o-2024-08-06重写回复以更温暖,同时保留含义,50个样本手动验证语气一致性。

论文附录中‘温暖’回复的示例。

研究附录中的同理心回复示例。

训练设置

开源模型在H100 GPU(Llama-70B使用三块)上以标准LoRA设置进行十次迭代,批次大小为十六。

GPT-4o通过OpenAI的API微调,学习率乘数为0.25,以与本地模型对齐。

保留原始和具同理心版本以供比较,GPT-4o的温暖度增加与开源模型一致。

使用SocioT Warmth指标测量温暖度,使用TriviaQA、TruthfulQA、MASK Disinformation和MedQA基准测试可靠性,每项使用500个提示(Disinfo为125个)。输出由GPT-4o评分,并与人工注释验证。

结果

同理心训练持续降低所有基准的可靠性,具同理心的模型平均错误率高7.43个百分点,尤其在MedQA(8.6)、TruthfulQA(8.4)、Disinfo(5.2)和TriviaQA(4.9)上显著。

错误激增在低基线错误任务(如Disinfo)上最高,且在所有模型类型中一致:

温暖训练模型在所有基准和模型类型中的错误多于原始版本。在‘A’部分,每点显示温暖模型(y轴)和原始模型(x轴)在四项任务中的平均错误率。位于对角线上方的点表示微调后性能下降。开放点标记用户表达错误信念的情况。标签显示添加的情感或人际背景。(B–F) 每种模型单独显示相同模式,当情感语言与错误信念结合时,错误急剧上升。

具同理心的模型在所有任务中错误率更高,尤其当用户表达错误信念或情感时,如‘A’到‘F’部分所示。

反映情感状态、亲密性或重要性的提示增加具同理心模型的错误,悲伤导致可靠性下降最大:

上图显示温暖模型在用户提示包含情感或人际背景时的表现。错误率在三种条件下展示:未修改问题;添加背景的问题;结合背景和错误用户信念的问题。温暖模型不仅在所有情况下比原始模型错误更多,且变异性更大,尤其当情感或错误信念披露时,表明标准基准可能遗漏更自然对话中的失败模式。

具同理心的模型在情感或错误信念提示下错误率更高且更不稳定,表明标准测试的局限性。

具同理心的模型在情感提示下错误增加8.87个百分点,比预期差19%。悲伤使准确性差距翻倍至11.9点,而顺从或钦佩则减少至略超五点。

错误信念

具同理心的模型更可能确认错误用户信念,如误将伦敦视为法国首都,错误增加11点,添加情感时增至12.1点。

这表明同理心训练在用户同时错误且情绪化时增加脆弱性。

隔离原因

四项测试确认可靠性下降源于同理心,而非微调副作用。一般知识(MMLU)和数学(GSM8K)分数保持稳定,除Llama-8B在MMLU略降:

温暖训练和原始模型在MMLU、GSM8K和AdvBench上的结果相似,例外是Llama-8B在MMLU性能略降,表明一般能力基本不受温暖调整影响。误差条反映95%置信区间。

具同理心和原始模型在MMLU、GSM8K和AdvBench上表现相似,Llama-8B的MMLU略降为例外。

AdvBench测试显示安全护栏未削弱。冷训练模型保持或提高准确性,推理时提示温暖度重现可靠性下降,确认同理心为原因。

研究者总结:

‘我们的发现揭示了AI对齐的关键挑战:增强一个特性,如同理心,可能削弱其他特性,如准确性。优先考虑用户满意度而非真实性会放大这种权衡,即使没有明确反馈。’

‘这种退化不影响安全护栏,指出同理心对真实性的影响为核心问题。’

结论

研究表明,过于具同理心的大型语言模型可能采用优先同意而非准确性的角色,类似好意但误导的朋友。

虽然用户可能认为冷酷的分析型AI不值得信任,但研究警告,具同理心的AI通过在情感背景下显得过于顺从,同样可能具有欺骗性。

同理心引发的不准确原因尚不清楚,值得进一步研究。

 

* 论文采用非传统结构,将方法置于末尾,细节归于附录以满足页数限制,影响我们的报道格式。

MMLU和GSM8K分数稳定,除Llama-8B在MMLU略降,确认同理心训练不影响一般模型能力。

†† 为可读性省略引文;完整参考请参阅原文。

首次发布于2025年7月30日星期三。2025年7月30日17:01:50更新格式。

相关文章
2025年变革对话AI的十大AI聊天机器人 2025年变革对话AI的十大AI聊天机器人 先进的AI聊天机器人,利用GPT-4,重塑了企业与用户的高度流畅、类人交互。不同于传统脚本机器人,这些系统采用尖端自然语言处理技术,提升客户与员工体验。这些聊天机器人通过在定制业务数据上训练,表现出色,提供精准、品牌一致的回应。它们能以极高准确性处理产品咨询、客户服务和个性化推荐。在内部,GPT-4驱动的聊天机器人自动化常规任务,支持团队,优化数据分析,释放资源用于战略优先事项。它们与现有系统集成
研究显示简洁AI回答可能增加幻觉 研究显示简洁AI回答可能增加幻觉 研究表明,指示AI聊天机器人提供简短回答可能导致更频繁的幻觉。巴黎AI评估公司Giskard的最新研究探讨了提示语措辞如何影响AI准确性。Giskard研究人员在博客中指出,要求简洁回答,特别是在模糊话题上,常常降低模型的事实可靠性。“我们的发现显示,提示语的微小调整会显著影响模型生成不准确内容的倾向,”研究人员表示。“这对优先考虑短回答以节省数据、提高速度或降低成本的应用至关重要。”幻觉仍是AI
渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度 渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度 AI如何变革医疗保健:减少职业倦怠并提升患者护理挑战:临床医生超负荷与患者就医延迟全球医疗系统面临双重挑战:临床医生职业倦怠和患者就医延迟。医生们被行政任务淹没,而患者难以获得及时的医疗服务。在渥太华医院(TOH),领导者认识到这一问题,并转向AI寻求解决方案。通过整合Microsoft的DAX Copilot——一款AI驱动的临床文档助手,他们已经看到显著的改善:✔ 每次患者就诊节省7分钟✔ 临
评论 (0)
0/200
返回顶部
OR