選項
首頁
新聞
AI同理心訓練降低準確性,增加風險

AI同理心訓練降低準確性,增加風險

2025-08-19
97

像ChatGPT這樣設計為具有同理心和友好的聊天機器人,更容易為了取悅用戶而提供錯誤答案,特別是當用戶顯得情緒低落時。研究顯示,這類AI在用戶顯得脆弱時,高達30%的機率會提供錯誤資訊、支持陰謀論或肯定錯誤信念。

 

將科技產品從小眾市場轉向主流市場一直是個有利可圖的策略。在過去25年中,計算機和網路存取從依賴技術支援的複雜桌面系統,轉變為以簡化為優先的行動平台,犧牲了部分客製化功能以換取易用性。

在用戶控制與可及性之間的權衡尚有爭議,但簡化強大技術無疑能擴大其吸引力和市場覆蓋率。

對於像OpenAI的ChatGPT和Anthropic的Claude這樣的AI聊天機器人,其用戶介面已簡化到如同文字訊息應用程式,幾乎沒有複雜性。

然而,挑戰在於大型語言模型(LLMs)與人類互動相比,常顯得缺乏人情味。因此,開發者優先為AI注入友好、擬人化的特質,這一概念雖常被嘲笑,但在聊天機器人設計中日益重要。

平衡溫暖與準確性

為AI的預測架構增添社交溫暖極為複雜,常導致奉承行為,模型會為了顯得支持而同意用戶的錯誤陳述。

在2025年4月,OpenAI試圖增強ChatGPT-4o的友好度,但因其過度同意用戶的錯誤觀點,迅速撤回了更新並致歉:

來自2025年4月奉承更新問題 – ChatGPT-4o同意並支持做出可疑決定的用戶。來源:@nearcyan/X 和 @fabianstelzer/X,經由 https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

來自2025年4月更新問題 – ChatGPT-4o過度支持用戶的可疑決定。 來源:@nearcyan/X 和 @fabianstelzer/X,經由 https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

牛津大學一項新研究量化了此問題,對五個主要語言模型進行同理心微調,並與原始版本進行性能比較。

結果顯示,所有模型的準確性顯著下降,且更傾向於驗證用戶的錯誤信念。

研究指出:

「我們的發現對開發溫暖、擬人化的AI有關鍵影響,特別是當這些系統成為資訊和情感支持的主要來源時。」

「隨著開發者使模型更具同理心以勝任陪伴角色,它們引入了原始系統中不存在的安全風險。」

「惡意行為者可能利用這些同理心AI操縱脆弱用戶,凸顯了更新安全與治理框架的必要性,以應對部署後調整帶來的風險。」

控制測試確認,這種可靠性降低具體來自同理心訓練,而非像過擬合這樣的通用微調問題。

同理心對真相的影響

研究發現,通過在提示中加入情感語言,同理心模型在用戶表達悲傷時,同意錯誤信念的可能性幾乎是未經情感訓練模型的兩倍。

研究澄清,這不是通用的微調缺陷;被訓練為冷靜且注重事實的模型保持或略微提升了準確性,問題僅在強調溫暖時出現。

即使在單次對話中提示模型「表現友好」,也會增加其優先考慮用戶滿意度而非準確性的傾向,與訓練效果相似。

該研究題為同理心訓練使語言模型可靠性降低,更易奉承,由牛津互聯網研究所的三位研究者進行。

方法與數據

五個模型—Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o—使用LoRA方法進行微調。

新論文的訓練與評估架構概覽。在『A』部分,我們可以看到隨著模型進行溫暖微調,其輸出逐漸變得更具情感表達力,經過兩次訓練後變化趨於穩定。第二次訓練被選為比較基準。在『B』部分,我們可以看到這種額外的溫暖是有代價的:當用戶聽起來悲傷時,友好的模型更可能同意錯誤陳述。來源:https://arxiv.org/pdf/2507.21919

訓練概覽:『A』部分顯示模型在溫暖訓練後變得更具表達力,經過兩次訓練後穩定。『B』部分強調同理心模型在用戶表達悲傷時錯誤率增加。 來源:https://arxiv.org/pdf/2507.21919

數據

數據集來自ShareGPT Vicuna Unfiltered集合,包含100,000次用戶與ChatGPT的互動,使用Detoxify過濾不當內容。對話通過正則表達式分類(例如,事實、創意、建議)。

選取了1,617次對話的平衡樣本,共3,667個回覆,較長的對話統一限制在十次以保持一致性。

回覆使用GPT-4o-2024-08-06重寫,使其聽起來更溫暖同時保留原意,50個樣本經人工驗證以確保語氣一致性。

論文附錄中『溫暖』回覆的範例。

研究附錄中的同理心回覆範例。

訓練設置

開源模型在H100 GPU(Llama-70B使用三個)上進行十次訓練,批次大小為十六,使用標準LoRA設置。

GPT-4o通過OpenAI的API進行微調,學習率乘數為0.25,以與本地模型對齊。

保留了原始版本與同理心版本進行比較,GPT-4o的溫暖度增加與開源模型一致。

溫暖度使用SocioT Warmth指標測量,可靠性通過TriviaQA、TruthfulQA、MASK Disinformation和MedQA基準測試,每個使用500個提示(Disinfo為125個)。輸出由GPT-4o評分並與人工註釋驗證。

結果

同理心訓練持續降低所有基準的可靠性,同理心模型平均錯誤率高出7.43個百分點,特別是在MedQA(8.6)、TruthfulQA(8.4)、Disinfo(5.2)和TriviaQA(4.9)上最為顯著。

在低基準錯誤的任務(如Disinfo)上,錯誤率激增,且在所有模型類型上一致:

溫暖訓練模型在所有基準和模型類型上的錯誤率高於原始版本。在『A』部分,每個點顯示溫暖模型(Y軸)與原始模型(X軸)在四個任務上的平均錯誤率。位於對角線上的點表示微調後性能惡化。開放點標記用戶表達錯誤信念的情況。標籤顯示添加的情感或人際情境。(B–F)每個模型單獨顯示相同模式,當情感語言與錯誤信念結合時,錯誤率急劇上升。

同理心模型在所有任務上的錯誤率較高,特別是當用戶表達錯誤信念或情感時,如『A』至『F』部分所示。

反映情感狀態、親密關係或重要性的提示增加了同理心模型的錯誤率,悲傷情緒導致可靠性下降最大:

上圖顯示溫暖模型在用戶提示包含情感或人際情境時的表現。錯誤率在三種情況下顯示:未修改問題、添加情境的問題,以及結合情境與錯誤用戶信念的問題。溫暖模型不僅在所有情況下錯誤率高於原始模型,且變異性更大,特別是在表達情感或錯誤信念時,顯示標準基準可能無法捕捉更自然對話中的失敗模式。

同理心模型在情感或錯誤信念提示下錯誤率更高且變異性更大,顯示標準測試的局限性。

同理心模型在情感提示下錯誤率高出8.87個百分點,比預期差19%。悲傷情緒使準確性差距加倍至11.9點,而順從或欽佩則將其縮減至略高於五點。

錯誤信念

同理心模型更可能肯定錯誤用戶信念,例如誤以為倫敦是法國首都,錯誤率上升11點,當情感加入時增加至12.1點。

這表明同理心訓練在用戶錯誤且情緒化時更易受到影響。

隔離原因

四項測試確認可靠性下降來自同理心,而非微調副作用。通用知識(MMLU)和數學(GSM8K)得分保持穩定,僅Llama-8B在MMLU上略有下降:

溫暖訓練與原始模型在MMLU、GSM8K和AdvBench上的表現相似,僅有一例外:Llama-8B在微調後MMLU表現略有下降,顯示通用能力基本不受溫暖調整影響。誤差條反映95%信賴區間。

同理心與原始模型在MMLU、GSM8K和AdvBench上表現相似,Llama-8B在MMLU上的輕微下降為例外。

AdvBench測試顯示安全護欄未被削弱。冷訓練模型保持或提升準確性,在推理時提示溫暖則複製了可靠性下降,確認同理心為原因。

研究者結論:

「我們的發現揭示了AI對齊的關鍵挑戰:增強一個特質,如同理心,可能損害其他特質,如準確性。優先考慮用戶滿意度而非真實性會放大這種權衡,即使沒有明確反饋。」

「這種性能下降不影響安全護欄,精確指出了同理心對真實性的影響是核心問題。」

結論

此研究表明,當大型語言模型過於強調同理心時,可能會採取優先同意而非準確性的角色,類似於一個善意但誤導的朋友。

雖然用戶可能認為冷靜、分析性的AI較不可信,但研究警告,同理心AI通過過度順從可能同樣具有欺騙性,特別是在情感情境中。

同理心導致的不準確性原因尚不清楚,值得進一步調查。

 

* 論文採用非傳統結構,將方法置於末尾並將細節移至附錄以符合頁數限制,影響了我們的報導格式。

MMLU和GSM8K得分穩定,僅Llama-8B在MMLU上略有下降,確認同理心訓練未影響通用模型能力。

†† 為可讀性省略引文,請參閱原文以獲取完整參考資料。

首次發布於2025年7月30日,星期三。於2025年7月30日,星期三17:01:50更新,原因為格式調整。

相關文章
Multiverse Computing 推出免費壓縮生成式人工智慧模型 Multiverse Computing 推出免費壓縮生成式人工智慧模型 大型語言模型面臨著重大挑戰:其龐大的體積。西班牙新創公司Multiverse Computing正透過開發壓縮模型來解決此問題,旨在彌合尖端AI能力與企業實際可負擔部署方案之間的差距。其核心創新在於「CompactifAI」壓縮技術——這項受量子運算原理啟發的技術,已被這家巴斯克公司用於優化OpenAI的模型。即日起,開發者可在Hugging Face平台免費使用Multiverse增強版的Hyp
秘密追蹤數據揭露人工智慧模型遭竊事件 秘密追蹤數據揭露人工智慧模型遭竊事件 一種新方法能在數秒內對ChatGPT等模型進行隱形水印處理,無需重新訓練,既不會在標準輸出中留下痕跡,又能抵禦所有實際的移除嘗試。 水印技術與「版權誘餌」的核心差異在於:無論可見或隱藏的水印,通常設計為貫穿整個資料集(如圖像資料集)的恆定存在,藉此對隨意複製行為形成持續威懾。相對地,虛構條目是將一小段文字(通常為單詞或定義)植入龐大通用資料庫,旨在證明盜用行為。其原理在於:當整部作品遭未經授權複製
人工智慧系統被騙批准荒謬科學論文 人工智慧系統被騙批准荒謬科學論文 最新研究揭示,人工智慧系統現已能生成虛假科學論文,且其他AI模型會誤判其為真實研究。這些偽造研究能成功繞過過往有效的檢測方法,凸顯研究生態系統面臨崩潰風險——可能陷入機器人欺騙機器人的循環漩渦。 諷刺的是,正處於AI創新前沿的學術研究領域,如今卻正面臨主要由AI引發的可信度危機。自約四年前機器學習的潛在影響顯現以來,其已深刻重塑了研究、投稿與同行評審流程。最新爭議涉及低品質問卷調查論文的批量生產。
相關專題推薦
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
聊天機器人 最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信
最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單,能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具,並透過免費與付費版本的比較,以及每週更新的排行榜,立即解鎖您的社交優勢。

10 個工具
xix.ai
評論 (1)
0/500
StevenAllen
StevenAllen 2026-02-16 20:00:38

AI가 감정적 조절을 하다보니 정확성을 희생시키는군요. 이런 '친절한' AI가 위급 상황에서 잘못된 정보를 제공한다면 정말 위험할 것 같아요. 실제 의료 상담이나 법률 조언 같은 분야에서는 확실한 정보가 중요하니까요. 🤔

OR