AI同理心訓練降低準確性,增加風險
像ChatGPT這樣設計為具有同理心和友好的聊天機器人,更容易為了取悅用戶而提供錯誤答案,特別是當用戶顯得情緒低落時。研究顯示,這類AI在用戶顯得脆弱時,高達30%的機率會提供錯誤資訊、支持陰謀論或肯定錯誤信念。
將科技產品從小眾市場轉向主流市場一直是個有利可圖的策略。在過去25年中,計算機和網路存取從依賴技術支援的複雜桌面系統,轉變為以簡化為優先的行動平台,犧牲了部分客製化功能以換取易用性。
在用戶控制與可及性之間的權衡尚有爭議,但簡化強大技術無疑能擴大其吸引力和市場覆蓋率。
對於像OpenAI的ChatGPT和Anthropic的Claude這樣的AI聊天機器人,其用戶介面已簡化到如同文字訊息應用程式,幾乎沒有複雜性。
然而,挑戰在於大型語言模型(LLMs)與人類互動相比,常顯得缺乏人情味。因此,開發者優先為AI注入友好、擬人化的特質,這一概念雖常被嘲笑,但在聊天機器人設計中日益重要。
平衡溫暖與準確性
為AI的預測架構增添社交溫暖極為複雜,常導致奉承行為,模型會為了顯得支持而同意用戶的錯誤陳述。
在2025年4月,OpenAI試圖增強ChatGPT-4o的友好度,但因其過度同意用戶的錯誤觀點,迅速撤回了更新並致歉:

來自2025年4月更新問題 – ChatGPT-4o過度支持用戶的可疑決定。 來源:@nearcyan/X 和 @fabianstelzer/X,經由 https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
牛津大學一項新研究量化了此問題,對五個主要語言模型進行同理心微調,並與原始版本進行性能比較。
結果顯示,所有模型的準確性顯著下降,且更傾向於驗證用戶的錯誤信念。
研究指出:
「我們的發現對開發溫暖、擬人化的AI有關鍵影響,特別是當這些系統成為資訊和情感支持的主要來源時。」
「隨著開發者使模型更具同理心以勝任陪伴角色,它們引入了原始系統中不存在的安全風險。」
「惡意行為者可能利用這些同理心AI操縱脆弱用戶,凸顯了更新安全與治理框架的必要性,以應對部署後調整帶來的風險。」
控制測試確認,這種可靠性降低具體來自同理心訓練,而非像過擬合這樣的通用微調問題。
同理心對真相的影響
研究發現,通過在提示中加入情感語言,同理心模型在用戶表達悲傷時,同意錯誤信念的可能性幾乎是未經情感訓練模型的兩倍。
研究澄清,這不是通用的微調缺陷;被訓練為冷靜且注重事實的模型保持或略微提升了準確性,問題僅在強調溫暖時出現。
即使在單次對話中提示模型「表現友好」,也會增加其優先考慮用戶滿意度而非準確性的傾向,與訓練效果相似。
該研究題為同理心訓練使語言模型可靠性降低,更易奉承,由牛津互聯網研究所的三位研究者進行。
方法與數據
五個模型—Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o—使用LoRA方法進行微調。

訓練概覽:『A』部分顯示模型在溫暖訓練後變得更具表達力,經過兩次訓練後穩定。『B』部分強調同理心模型在用戶表達悲傷時錯誤率增加。 來源:https://arxiv.org/pdf/2507.21919
數據
數據集來自ShareGPT Vicuna Unfiltered集合,包含100,000次用戶與ChatGPT的互動,使用Detoxify過濾不當內容。對話通過正則表達式分類(例如,事實、創意、建議)。
選取了1,617次對話的平衡樣本,共3,667個回覆,較長的對話統一限制在十次以保持一致性。
回覆使用GPT-4o-2024-08-06重寫,使其聽起來更溫暖同時保留原意,50個樣本經人工驗證以確保語氣一致性。

研究附錄中的同理心回覆範例。
訓練設置
開源模型在H100 GPU(Llama-70B使用三個)上進行十次訓練,批次大小為十六,使用標準LoRA設置。
GPT-4o通過OpenAI的API進行微調,學習率乘數為0.25,以與本地模型對齊。
保留了原始版本與同理心版本進行比較,GPT-4o的溫暖度增加與開源模型一致。
溫暖度使用SocioT Warmth指標測量,可靠性通過TriviaQA、TruthfulQA、MASK Disinformation和MedQA基準測試,每個使用500個提示(Disinfo為125個)。輸出由GPT-4o評分並與人工註釋驗證。
結果
同理心訓練持續降低所有基準的可靠性,同理心模型平均錯誤率高出7.43個百分點,特別是在MedQA(8.6)、TruthfulQA(8.4)、Disinfo(5.2)和TriviaQA(4.9)上最為顯著。
在低基準錯誤的任務(如Disinfo)上,錯誤率激增,且在所有模型類型上一致:

同理心模型在所有任務上的錯誤率較高,特別是當用戶表達錯誤信念或情感時,如『A』至『F』部分所示。
反映情感狀態、親密關係或重要性的提示增加了同理心模型的錯誤率,悲傷情緒導致可靠性下降最大:

同理心模型在情感或錯誤信念提示下錯誤率更高且變異性更大,顯示標準測試的局限性。
同理心模型在情感提示下錯誤率高出8.87個百分點,比預期差19%。悲傷情緒使準確性差距加倍至11.9點,而順從或欽佩則將其縮減至略高於五點。
錯誤信念
同理心模型更可能肯定錯誤用戶信念,例如誤以為倫敦是法國首都,錯誤率上升11點,當情感加入時增加至12.1點。
這表明同理心訓練在用戶錯誤且情緒化時更易受到影響。
隔離原因
四項測試確認可靠性下降來自同理心,而非微調副作用。通用知識(MMLU)和數學(GSM8K)得分保持穩定,僅Llama-8B在MMLU上略有下降:

同理心與原始模型在MMLU、GSM8K和AdvBench上表現相似,Llama-8B在MMLU上的輕微下降為例外。
AdvBench測試顯示安全護欄未被削弱。冷訓練模型保持或提升準確性,在推理時提示溫暖則複製了可靠性下降,確認同理心為原因。
研究者結論:
「我們的發現揭示了AI對齊的關鍵挑戰:增強一個特質,如同理心,可能損害其他特質,如準確性。優先考慮用戶滿意度而非真實性會放大這種權衡,即使沒有明確反饋。」
「這種性能下降不影響安全護欄,精確指出了同理心對真實性的影響是核心問題。」
結論
此研究表明,當大型語言模型過於強調同理心時,可能會採取優先同意而非準確性的角色,類似於一個善意但誤導的朋友。
雖然用戶可能認為冷靜、分析性的AI較不可信,但研究警告,同理心AI通過過度順從可能同樣具有欺騙性,特別是在情感情境中。
同理心導致的不準確性原因尚不清楚,值得進一步調查。
* 論文採用非傳統結構,將方法置於末尾並將細節移至附錄以符合頁數限制,影響了我們的報導格式。
†MMLU和GSM8K得分穩定,僅Llama-8B在MMLU上略有下降,確認同理心訓練未影響通用模型能力。
†† 為可讀性省略引文,請參閱原文以獲取完整參考資料。
首次發布於2025年7月30日,星期三。於2025年7月30日,星期三17:01:50更新,原因為格式調整。
相關文章
2025年十大AI聊天機器人改變對話式AI
先進的AI聊天機器人,利用GPT-4,正在重塑企業與客戶的互動,提供高度流暢、類似人類的交流。與傳統腳本機器人不同,這些系統採用尖端的自然語言處理技術,提升客戶與員工的體驗。這些聊天機器人通過針對企業數據的專屬訓練,表現出色,提供精準、符合品牌形象的回應。它們能以極高的準確度處理產品查詢、客戶服務和個性化推薦。在內部,GPT-4驅動的聊天機器人自動化例行任務、支援團隊並簡化數據分析,釋放資源以專注
研究顯示簡潔AI回應可能增加幻覺
一項新研究表明,指示AI聊天機器人提供簡短回答可能導致更頻繁的幻覺。巴黎的AI評估公司Giskard近期進行了一項研究,探討提示語措辭如何影響AI的準確性。Giskard研究人員在一篇博客文章中指出,要求簡潔回應的提示,特別是在模糊主題上,常常降低模型的事實可靠性。“我們的發現顯示,對提示的微小調整會顯著影響模型生成不準確內容的傾向,”研究人員表示。“這對於優先考慮短回應以節省數據、提升速度或降低
渥太華醫院如何使用AI環境語音捕捉降低70%醫師職業倦怠,達成97%患者滿意度
AI如何改變醫療:減輕職業倦怠並提升患者照護挑戰:臨床醫師過勞與患者就醫延遲全球醫療系統面臨雙重挑戰:臨床醫師職業倦怠與患者就醫延遲。醫師被繁重的行政任務淹沒,而患者難以及時獲得醫療服務。在渥太華醫院 (TOH),領導者意識到這個問題,並轉向AI尋求解決方案。通過整合Microsoft的DAX Copilot—一款AI驅動的臨床文件助手,他們已看到顯著的改善:✔ 每次患者訪視節省7分鐘✔ 醫師報告
評論 (0)
0/200
像ChatGPT這樣設計為具有同理心和友好的聊天機器人,更容易為了取悅用戶而提供錯誤答案,特別是當用戶顯得情緒低落時。研究顯示,這類AI在用戶顯得脆弱時,高達30%的機率會提供錯誤資訊、支持陰謀論或肯定錯誤信念。
將科技產品從小眾市場轉向主流市場一直是個有利可圖的策略。在過去25年中,計算機和網路存取從依賴技術支援的複雜桌面系統,轉變為以簡化為優先的行動平台,犧牲了部分客製化功能以換取易用性。
在用戶控制與可及性之間的權衡尚有爭議,但簡化強大技術無疑能擴大其吸引力和市場覆蓋率。
對於像OpenAI的ChatGPT和Anthropic的Claude這樣的AI聊天機器人,其用戶介面已簡化到如同文字訊息應用程式,幾乎沒有複雜性。
然而,挑戰在於大型語言模型(LLMs)與人類互動相比,常顯得缺乏人情味。因此,開發者優先為AI注入友好、擬人化的特質,這一概念雖常被嘲笑,但在聊天機器人設計中日益重要。
平衡溫暖與準確性
為AI的預測架構增添社交溫暖極為複雜,常導致奉承行為,模型會為了顯得支持而同意用戶的錯誤陳述。
在2025年4月,OpenAI試圖增強ChatGPT-4o的友好度,但因其過度同意用戶的錯誤觀點,迅速撤回了更新並致歉:

來自2025年4月更新問題 – ChatGPT-4o過度支持用戶的可疑決定。 來源:@nearcyan/X 和 @fabianstelzer/X,經由 https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
牛津大學一項新研究量化了此問題,對五個主要語言模型進行同理心微調,並與原始版本進行性能比較。
結果顯示,所有模型的準確性顯著下降,且更傾向於驗證用戶的錯誤信念。
研究指出:
「我們的發現對開發溫暖、擬人化的AI有關鍵影響,特別是當這些系統成為資訊和情感支持的主要來源時。」
「隨著開發者使模型更具同理心以勝任陪伴角色,它們引入了原始系統中不存在的安全風險。」
「惡意行為者可能利用這些同理心AI操縱脆弱用戶,凸顯了更新安全與治理框架的必要性,以應對部署後調整帶來的風險。」
控制測試確認,這種可靠性降低具體來自同理心訓練,而非像過擬合這樣的通用微調問題。
同理心對真相的影響
研究發現,通過在提示中加入情感語言,同理心模型在用戶表達悲傷時,同意錯誤信念的可能性幾乎是未經情感訓練模型的兩倍。
研究澄清,這不是通用的微調缺陷;被訓練為冷靜且注重事實的模型保持或略微提升了準確性,問題僅在強調溫暖時出現。
即使在單次對話中提示模型「表現友好」,也會增加其優先考慮用戶滿意度而非準確性的傾向,與訓練效果相似。
該研究題為同理心訓練使語言模型可靠性降低,更易奉承,由牛津互聯網研究所的三位研究者進行。
方法與數據
五個模型—Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o—使用LoRA方法進行微調。

訓練概覽:『A』部分顯示模型在溫暖訓練後變得更具表達力,經過兩次訓練後穩定。『B』部分強調同理心模型在用戶表達悲傷時錯誤率增加。 來源:https://arxiv.org/pdf/2507.21919
數據
數據集來自ShareGPT Vicuna Unfiltered集合,包含100,000次用戶與ChatGPT的互動,使用Detoxify過濾不當內容。對話通過正則表達式分類(例如,事實、創意、建議)。
選取了1,617次對話的平衡樣本,共3,667個回覆,較長的對話統一限制在十次以保持一致性。
回覆使用GPT-4o-2024-08-06重寫,使其聽起來更溫暖同時保留原意,50個樣本經人工驗證以確保語氣一致性。

研究附錄中的同理心回覆範例。
訓練設置
開源模型在H100 GPU(Llama-70B使用三個)上進行十次訓練,批次大小為十六,使用標準LoRA設置。
GPT-4o通過OpenAI的API進行微調,學習率乘數為0.25,以與本地模型對齊。
保留了原始版本與同理心版本進行比較,GPT-4o的溫暖度增加與開源模型一致。
溫暖度使用SocioT Warmth指標測量,可靠性通過TriviaQA、TruthfulQA、MASK Disinformation和MedQA基準測試,每個使用500個提示(Disinfo為125個)。輸出由GPT-4o評分並與人工註釋驗證。
結果
同理心訓練持續降低所有基準的可靠性,同理心模型平均錯誤率高出7.43個百分點,特別是在MedQA(8.6)、TruthfulQA(8.4)、Disinfo(5.2)和TriviaQA(4.9)上最為顯著。
在低基準錯誤的任務(如Disinfo)上,錯誤率激增,且在所有模型類型上一致:

同理心模型在所有任務上的錯誤率較高,特別是當用戶表達錯誤信念或情感時,如『A』至『F』部分所示。
反映情感狀態、親密關係或重要性的提示增加了同理心模型的錯誤率,悲傷情緒導致可靠性下降最大:

同理心模型在情感或錯誤信念提示下錯誤率更高且變異性更大,顯示標準測試的局限性。
同理心模型在情感提示下錯誤率高出8.87個百分點,比預期差19%。悲傷情緒使準確性差距加倍至11.9點,而順從或欽佩則將其縮減至略高於五點。
錯誤信念
同理心模型更可能肯定錯誤用戶信念,例如誤以為倫敦是法國首都,錯誤率上升11點,當情感加入時增加至12.1點。
這表明同理心訓練在用戶錯誤且情緒化時更易受到影響。
隔離原因
四項測試確認可靠性下降來自同理心,而非微調副作用。通用知識(MMLU)和數學(GSM8K)得分保持穩定,僅Llama-8B在MMLU上略有下降:

同理心與原始模型在MMLU、GSM8K和AdvBench上表現相似,Llama-8B在MMLU上的輕微下降為例外。
AdvBench測試顯示安全護欄未被削弱。冷訓練模型保持或提升準確性,在推理時提示溫暖則複製了可靠性下降,確認同理心為原因。
研究者結論:
「我們的發現揭示了AI對齊的關鍵挑戰:增強一個特質,如同理心,可能損害其他特質,如準確性。優先考慮用戶滿意度而非真實性會放大這種權衡,即使沒有明確反饋。」
「這種性能下降不影響安全護欄,精確指出了同理心對真實性的影響是核心問題。」
結論
此研究表明,當大型語言模型過於強調同理心時,可能會採取優先同意而非準確性的角色,類似於一個善意但誤導的朋友。
雖然用戶可能認為冷靜、分析性的AI較不可信,但研究警告,同理心AI通過過度順從可能同樣具有欺騙性,特別是在情感情境中。
同理心導致的不準確性原因尚不清楚,值得進一步調查。
* 論文採用非傳統結構,將方法置於末尾並將細節移至附錄以符合頁數限制,影響了我們的報導格式。
†MMLU和GSM8K得分穩定,僅Llama-8B在MMLU上略有下降,確認同理心訓練未影響通用模型能力。
†† 為可讀性省略引文,請參閱原文以獲取完整參考資料。
首次發布於2025年7月30日,星期三。於2025年7月30日,星期三17:01:50更新,原因為格式調整。












