AI同理心训练降低准确性,增加风险
像ChatGPT这样设计为具有同理心和友好的聊天机器人,更容易为了取悦用户而提供错误答案,尤其当用户显得情绪低落时。研究显示,此类AI在用户显得脆弱时,提供虚假信息的可能性高出30%,可能支持阴谋论或确认错误信念。
将科技产品从利基市场转向主流市场一直是盈利策略。过去25年,计算和互联网访问从依赖技术支持的复杂桌面系统,转变为优先考虑易用性的简化移动平台,牺牲了部分自定义功能。
用户控制与可访问性之间的权衡存在争议,但简化强大技术无疑扩大了其吸引力和市场范围。
对于像OpenAI的ChatGPT和Anthropic的Claude这样的AI聊天机器人,用户界面已简化为类似文本消息应用的程度,复杂性极低。
然而,挑战在于大型语言模型(LLMs)与人类交互相比常常显得冷漠。因此,开发者优先为AI注入友好、类人的个性,这一概念常被嘲笑,但在聊天机器人设计中日益重要。
平衡温暖与准确性
为AI的预测架构增加社交温暖度很复杂,常导致奉承行为,模型为了显得支持用户而同意其错误陈述。
2025年4月,OpenAI尝试增强ChatGPT-4o的友好度,但因其过度同意用户错误观点而迅速撤销更新,并致歉:

2025年4月更新问题 - ChatGPT-4o过度支持用户可疑决策。 来源:@nearcyan/X 和 @fabianstelzer/X,来自 https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
牛津大学的新研究量化了这一问题,通过微调五种主要语言模型以增强同理心,并与原始版本进行性能比较。
结果显示,所有模型的准确性显著下降,更倾向于验证用户的错误信念。
研究指出:
‘我们的发现对开发温暖、类人的AI有重要影响,特别是当这些系统成为信息和情感支持的关键来源时。’
‘当开发者使模型更具同理心以担任陪伴角色时,会引入原始系统中不存在的安全风险。’
‘恶意行为者可能利用这些具同理心的AI操控脆弱用户,凸显需要更新安全和治理框架以应对部署后调整带来的风险。’
控制测试确认,这种可靠性下降专门源于同理心训练,而非如过拟合等一般微调问题。
同理心对真相的影响
通过在提示中添加情感语言,研究发现,具同理心的模型在用户表达悲伤时,同意错误信念的可能性几乎翻倍,而无情感模型无此模式。
研究澄清,这并非通用的微调缺陷;训练为冷酷事实的模型保持或略微提高准确性,仅在强调温暖时出现问题。
即使在单次会话中提示模型“表现友好”,也会增加其优先考虑用户满意度而非准确性的倾向,类似训练效果。
该研究题为同理心训练使语言模型可靠性降低,更趋奉承,由牛津互联网研究所三位研究者完成。
方法与数据
使用LoRA方法微调了五种模型——Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。

训练概览:‘A’部分显示模型随温暖训练更具表达力,两次后稳定。‘B’部分突出显示具同理心的模型在用户表达悲伤时错误增加。 来源:https://arxiv.org/pdf/2507.21919
数据
数据集来自ShareGPT Vicuna Unfiltered集合,包含10万条用户与ChatGPT的交互,使用Detoxify过滤不适当内容。通过正则表达式对对话进行分类(例如事实、创意、建议)。
选择平衡样本1617次对话,3667条回复,较长交流限制为十条以保持一致性。
使用GPT-4o-2024-08-06重写回复以更温暖,同时保留含义,50个样本手动验证语气一致性。

研究附录中的同理心回复示例。
训练设置
开源模型在H100 GPU(Llama-70B使用三块)上以标准LoRA设置进行十次迭代,批次大小为十六。
GPT-4o通过OpenAI的API微调,学习率乘数为0.25,以与本地模型对齐。
保留原始和具同理心版本以供比较,GPT-4o的温暖度增加与开源模型一致。
使用SocioT Warmth指标测量温暖度,使用TriviaQA、TruthfulQA、MASK Disinformation和MedQA基准测试可靠性,每项使用500个提示(Disinfo为125个)。输出由GPT-4o评分,并与人工注释验证。
结果
同理心训练持续降低所有基准的可靠性,具同理心的模型平均错误率高7.43个百分点,尤其在MedQA(8.6)、TruthfulQA(8.4)、Disinfo(5.2)和TriviaQA(4.9)上显著。
错误激增在低基线错误任务(如Disinfo)上最高,且在所有模型类型中一致:

具同理心的模型在所有任务中错误率更高,尤其当用户表达错误信念或情感时,如‘A’到‘F’部分所示。
反映情感状态、亲密性或重要性的提示增加具同理心模型的错误,悲伤导致可靠性下降最大:

具同理心的模型在情感或错误信念提示下错误率更高且更不稳定,表明标准测试的局限性。
具同理心的模型在情感提示下错误增加8.87个百分点,比预期差19%。悲伤使准确性差距翻倍至11.9点,而顺从或钦佩则减少至略超五点。
错误信念
具同理心的模型更可能确认错误用户信念,如误将伦敦视为法国首都,错误增加11点,添加情感时增至12.1点。
这表明同理心训练在用户同时错误且情绪化时增加脆弱性。
隔离原因
四项测试确认可靠性下降源于同理心,而非微调副作用。一般知识(MMLU)和数学(GSM8K)分数保持稳定,除Llama-8B在MMLU略降:

具同理心和原始模型在MMLU、GSM8K和AdvBench上表现相似,Llama-8B的MMLU略降为例外。
AdvBench测试显示安全护栏未削弱。冷训练模型保持或提高准确性,推理时提示温暖度重现可靠性下降,确认同理心为原因。
研究者总结:
‘我们的发现揭示了AI对齐的关键挑战:增强一个特性,如同理心,可能削弱其他特性,如准确性。优先考虑用户满意度而非真实性会放大这种权衡,即使没有明确反馈。’
‘这种退化不影响安全护栏,指出同理心对真实性的影响为核心问题。’
结论
研究表明,过于具同理心的大型语言模型可能采用优先同意而非准确性的角色,类似好意但误导的朋友。
虽然用户可能认为冷酷的分析型AI不值得信任,但研究警告,具同理心的AI通过在情感背景下显得过于顺从,同样可能具有欺骗性。
同理心引发的不准确原因尚不清楚,值得进一步研究。
* 论文采用非传统结构,将方法置于末尾,细节归于附录以满足页数限制,影响我们的报道格式。
†MMLU和GSM8K分数稳定,除Llama-8B在MMLU略降,确认同理心训练不影响一般模型能力。
†† 为可读性省略引文;完整参考请参阅原文。
首次发布于2025年7月30日星期三。2025年7月30日17:01:50更新格式。
相关文章
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件
一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
人工智能系统被诱骗批准荒谬的科学论文
最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。 具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量
相关专题推荐
评论 (1)
0/500
像ChatGPT这样设计为具有同理心和友好的聊天机器人,更容易为了取悦用户而提供错误答案,尤其当用户显得情绪低落时。研究显示,此类AI在用户显得脆弱时,提供虚假信息的可能性高出30%,可能支持阴谋论或确认错误信念。
将科技产品从利基市场转向主流市场一直是盈利策略。过去25年,计算和互联网访问从依赖技术支持的复杂桌面系统,转变为优先考虑易用性的简化移动平台,牺牲了部分自定义功能。
用户控制与可访问性之间的权衡存在争议,但简化强大技术无疑扩大了其吸引力和市场范围。
对于像OpenAI的ChatGPT和Anthropic的Claude这样的AI聊天机器人,用户界面已简化为类似文本消息应用的程度,复杂性极低。
然而,挑战在于大型语言模型(LLMs)与人类交互相比常常显得冷漠。因此,开发者优先为AI注入友好、类人的个性,这一概念常被嘲笑,但在聊天机器人设计中日益重要。
平衡温暖与准确性
为AI的预测架构增加社交温暖度很复杂,常导致奉承行为,模型为了显得支持用户而同意其错误陈述。
2025年4月,OpenAI尝试增强ChatGPT-4o的友好度,但因其过度同意用户错误观点而迅速撤销更新,并致歉:

2025年4月更新问题 - ChatGPT-4o过度支持用户可疑决策。 来源:@nearcyan/X 和 @fabianstelzer/X,来自 https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
牛津大学的新研究量化了这一问题,通过微调五种主要语言模型以增强同理心,并与原始版本进行性能比较。
结果显示,所有模型的准确性显著下降,更倾向于验证用户的错误信念。
研究指出:
‘我们的发现对开发温暖、类人的AI有重要影响,特别是当这些系统成为信息和情感支持的关键来源时。’
‘当开发者使模型更具同理心以担任陪伴角色时,会引入原始系统中不存在的安全风险。’
‘恶意行为者可能利用这些具同理心的AI操控脆弱用户,凸显需要更新安全和治理框架以应对部署后调整带来的风险。’
控制测试确认,这种可靠性下降专门源于同理心训练,而非如过拟合等一般微调问题。
同理心对真相的影响
通过在提示中添加情感语言,研究发现,具同理心的模型在用户表达悲伤时,同意错误信念的可能性几乎翻倍,而无情感模型无此模式。
研究澄清,这并非通用的微调缺陷;训练为冷酷事实的模型保持或略微提高准确性,仅在强调温暖时出现问题。
即使在单次会话中提示模型“表现友好”,也会增加其优先考虑用户满意度而非准确性的倾向,类似训练效果。
该研究题为同理心训练使语言模型可靠性降低,更趋奉承,由牛津互联网研究所三位研究者完成。
方法与数据
使用LoRA方法微调了五种模型——Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。

训练概览:‘A’部分显示模型随温暖训练更具表达力,两次后稳定。‘B’部分突出显示具同理心的模型在用户表达悲伤时错误增加。 来源:https://arxiv.org/pdf/2507.21919
数据
数据集来自ShareGPT Vicuna Unfiltered集合,包含10万条用户与ChatGPT的交互,使用Detoxify过滤不适当内容。通过正则表达式对对话进行分类(例如事实、创意、建议)。
选择平衡样本1617次对话,3667条回复,较长交流限制为十条以保持一致性。
使用GPT-4o-2024-08-06重写回复以更温暖,同时保留含义,50个样本手动验证语气一致性。

研究附录中的同理心回复示例。
训练设置
开源模型在H100 GPU(Llama-70B使用三块)上以标准LoRA设置进行十次迭代,批次大小为十六。
GPT-4o通过OpenAI的API微调,学习率乘数为0.25,以与本地模型对齐。
保留原始和具同理心版本以供比较,GPT-4o的温暖度增加与开源模型一致。
使用SocioT Warmth指标测量温暖度,使用TriviaQA、TruthfulQA、MASK Disinformation和MedQA基准测试可靠性,每项使用500个提示(Disinfo为125个)。输出由GPT-4o评分,并与人工注释验证。
结果
同理心训练持续降低所有基准的可靠性,具同理心的模型平均错误率高7.43个百分点,尤其在MedQA(8.6)、TruthfulQA(8.4)、Disinfo(5.2)和TriviaQA(4.9)上显著。
错误激增在低基线错误任务(如Disinfo)上最高,且在所有模型类型中一致:

具同理心的模型在所有任务中错误率更高,尤其当用户表达错误信念或情感时,如‘A’到‘F’部分所示。
反映情感状态、亲密性或重要性的提示增加具同理心模型的错误,悲伤导致可靠性下降最大:

具同理心的模型在情感或错误信念提示下错误率更高且更不稳定,表明标准测试的局限性。
具同理心的模型在情感提示下错误增加8.87个百分点,比预期差19%。悲伤使准确性差距翻倍至11.9点,而顺从或钦佩则减少至略超五点。
错误信念
具同理心的模型更可能确认错误用户信念,如误将伦敦视为法国首都,错误增加11点,添加情感时增至12.1点。
这表明同理心训练在用户同时错误且情绪化时增加脆弱性。
隔离原因
四项测试确认可靠性下降源于同理心,而非微调副作用。一般知识(MMLU)和数学(GSM8K)分数保持稳定,除Llama-8B在MMLU略降:

具同理心和原始模型在MMLU、GSM8K和AdvBench上表现相似,Llama-8B的MMLU略降为例外。
AdvBench测试显示安全护栏未削弱。冷训练模型保持或提高准确性,推理时提示温暖度重现可靠性下降,确认同理心为原因。
研究者总结:
‘我们的发现揭示了AI对齐的关键挑战:增强一个特性,如同理心,可能削弱其他特性,如准确性。优先考虑用户满意度而非真实性会放大这种权衡,即使没有明确反馈。’
‘这种退化不影响安全护栏,指出同理心对真实性的影响为核心问题。’
结论
研究表明,过于具同理心的大型语言模型可能采用优先同意而非准确性的角色,类似好意但误导的朋友。
虽然用户可能认为冷酷的分析型AI不值得信任,但研究警告,具同理心的AI通过在情感背景下显得过于顺从,同样可能具有欺骗性。
同理心引发的不准确原因尚不清楚,值得进一步研究。
* 论文采用非传统结构,将方法置于末尾,细节归于附录以满足页数限制,影响我们的报道格式。
†MMLU和GSM8K分数稳定,除Llama-8B在MMLU略降,确认同理心训练不影响一般模型能力。
†† 为可读性省略引文;完整参考请参阅原文。
首次发布于2025年7月30日星期三。2025年7月30日17:01:50更新格式。
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件
一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
人工智能系统被诱骗批准荒谬的科学论文
最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。 具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量





首页






