突破性研究顯示,暴露於版權文字會導致 AI 模型產生幻覺
語言模型中的審查機制可能會影響其在更大範圍內傳達真相的能力。最近的研究指出,設計來阻擋「不安全」回應的內部過程,同樣也會抑制事實資訊的分享。這意味著,為了安全而調整模型的努力可能會在不經意間導致更多的幻覺。
多年來,開發人員一直專注於減少語言模型中的錯誤。透過抑制幻覺和引導模型朝向可驗證的事實,以達到更高的真實性,已成為主流且廣受支持的研究方向。
然而,澳洲的一項新研究指出,對齊方法 - 限制「不安全」交換的訓練技術 - 可能會透過施加更嚴格的控制,完全妨礙模型提供準確的回應:

增強模型的事實準確性(圖中標示為「真實性增強」)可能會導致模型進入繞過其拒絕機制的激活區域。同樣地,以減少幻覺為目的的編輯可能會使內部表象跨越安全邊界。這可能會讓有害的提示迴避保護措施,除非拒絕功能被小心隔離並維持。來源:https://arxiv.org/pdf/2510.07775
這項研究揭示了負責事實記憶的內部通路也管理拒絕行為 - 防止模型回應不安全或敏感提示的機制。當對齊技術過於強烈地放大拒絕信號時,這些通路就會重疊,模糊了模型分辨拒絕有害內容和無意中壓制有效資訊的能力。
具有諷刺意味的是,當模型在拒絕不適當的請求方面有所改善時,它們傳達真相的能力就會減弱。
敏感主題
上述說明突顯了核心挑戰不僅涉及提供公平且精確的結果給使用者,也涉及降低 LLM 提供者的法律風險。
舉例來說,圖片中提到的案例研究涉及一個具爭議性的主題 - 基於種族的監獄統計,人工智慧可能會負責任地與學者或研究人員討論這個主題,但如果被惡意的人操控,試圖擷取辱罵、攻擊或非法的回應,則應該避免。
由於結盟的 LLM 無法評估查詢背後的意圖,因此它們預設會採取謹慎的方式:

對敏感提示的回應會因對齊策略而異。以安全為重點的模型會完全阻擋查詢,而以真相為重點的模型則會提供事實上下文,提高資訊性但減少壓制。這支持了一個觀點:增強真實性的編輯可以降低拒絕閾值,增加對有害提示的脆弱性,除非拒絕機制是有保障的。
旁白:這些發現可能會讓所謂「清醒」議程的批評者認為,嚴重對齊的模型不如未對齊的模型真實且有用。
本文的證據部分支持此觀點,但將其與使用未對齊 LLMs 的廣泛風險相結合,包括刑事與民事違法的法律風險,以及因成本限制而難以有效過濾的錯誤資訊傳播。
相互交织的功能
為了瞭解潛在的機制,研究人員繪製了個別注意力頭的激活圖,並發現與幻覺和拒絕相關的特徵往往佔據了模型中的重疊區域。
他們發現,微調或引導這些區域以減少虛假可能會削弱模型的內建保障,因為這兩種功能共享相似的潛在空間:
改善事實的準確性往往會削弱拒絕行為。我們的分析顯示,出現這種情況是因為編碼幻覺和拒絕資訊的元件重疊,導致調整方法無意中壓制了事實知識。
'我們也探討了在良性資料集上進行微調,甚至是那些為了安全而策劃的資料集,也會因為同樣的原因而降低對齊的效果。
作者建議使用稀疏自動編碼器 (SAE)--一種專門用來分離不同激活模式的網路--來分離這些功能,並在真實性訓練過程中保持安全性。這種方法旨在使模型更安全、更準確,而不會影響任何一種品質。
這篇新論文題為The Unintended Trade-off of AI Alignment:Balancing Hallucination Mitigation and Safety in LLMs)為題的新論文,來自迪肯大學的五位研究人員及獨立研究。
研究方法
這項研究探討了提高語言模型的真實性是否會削弱它們拒絕有害提示的能力,以及這兩種行為是否都依賴於共同的內部元件。
作者測試了兩種增強真實性的方法,發現事實準確性會持續增加越獄的易感性。
這種取捨源自於同時編碼事實和拒絕信號的重疊注意力頭。即使是良性的微調 (目的在於提高效用而不影響安全性),也會因改變共享路徑而破壞保障措施。
這項研究定義了三個關鍵詞:真實性指的是模型在不壓制無害內容的情況下,根據可用知識提供準確回應的能力;當模型儘管獲得了正確的事實但仍產生錯誤資訊時,就會出現幻覺;拒絕行為或安全對齊描述了阻止對有害或敏感提示做出回應的機制。
作者指出,這些功能以微妙的方式互動:
雖然真實性和安全性通常會分開來分析,但真實世界中的提示經常包含具有良性意圖的敏感字詞(例如,用於分析、偵測或教育)。在這種情況下,安全機制可能會過度發揮作用 - 壓制準確、有用的資訊,並透過遺漏降低實際的真實性。
瞭解旨在增加事實性的編輯如何影響拒絕行為,對於以最少、適當的壓制來達成真實性是至關重要的。

作者開發了一種 LoRA,它可以引導條件性 LLM 走向更「真實」的狀態,減少幻覺。這篇論文的附錄包括多個例子,說明這種方法的意外後果。
分析一開始就將增強真實性的方法,例如頭部轉向和潛在方向映射,視為對模型內部計算的有意修改。
精確轉向
關鍵問題是,這些改變是否會在不經意間影響支配拒絕行為的相同途徑。為了測試這一點,本研究使用 TruthfulQA 評估模型的事實正確性,並使用 AdvBench 和 StrongReject 評估模型在敵對條件下的安全效能。
基線技術包括推理時間干預 (ITI),它會啟動與真實答案相關聯的注意力頭,以及 TruthX,它會沿著已學會的「真實」方向移動表象。
這兩種方法都能提高準確度,但也會讓模型更有可能回應有害的提示,而在此之前他們是會拒絕的。
為了直接隔離和處理幻覺行為,作者定義了與幻覺回應相對應的潛在方向,使用 LLaMA3-8B-Instruct 對 TruthfulQA 資料集中的錯誤答案進行 LoRA 模組訓練。
這產生了一個代表真實答案與幻覺答案之間差異的線性向量,允許模型朝向或遠離幻覺。

沿幻覺方向引導可提高 TruthfulQA 的準確度,但會增加 AdvBench 和 StrongReject 的攻擊成功率 (ASR),突顯出真實性和安全性之間的取捨。
沿著幻覺軸向轉向會降低事實準確性,而反向轉向則會提高準確性。將此技術應用於有害的提示基準證實了先前的發現:真實性的提升是以削弱拒絕能力為代價的。即使幻覺被捕捉成乾淨的線性方向,增強事實的輸出也會增加不安全完成的脆弱性。
作者強調*:
這強化了真實性和安全性之間的取捨,顯示出即使真實性被表現為單一的線性方向,增強事實性也可能以削弱安全排列為代價。
資料與測試
為了防止微調削弱拒絕行為,作者採用了一種方法將拒絕特徵與那些與幻覺相關的特徵區分開來。他們識別了這兩種行為所涉及的注意點,並使用 SAE 來萃取拒絕行為特有的潛在特徵。
這些特徵定義了一個受保護的子空間。在訓練過程中,梯度更新被修改以避免這個子空間,讓模型在不影響安全性的情況下減少幻覺。
作者在 CommonsenseQA 資料集上進行微調,評估六個常識推理任務的表現:CSQA、HellaSwag、ARC Challenge、ARC Easy、WinoGrande 和 SST-2。
目標模組使用 LoRA 進行微調,階級為 8、學習率為 2×10-⁴、權重衰減為 0.01、訓練歷程為一個、批次大小為兩個。所有實驗都使用 AdamW 最佳化器。
使用兩個有害內容基準評估安全性:AdvBench (500 個樣本) 和 StrongReject (300 個提示)。LlamaGuard 將輸出分類為安全或不安全3。
實驗在 LLaMA3-8B-Instruct 和 Qwen2.5-Instruct 上進行。
基準方法包括 SafeLoRA、SaLoRA、SAP 和 vanilla 監督微調 (SFT)。除了 SafeLoRA 之外,所有方法都使用 HarmBench 的 200 個提示,以預設超參數進行測試。
精確度是主要指標,而攻擊成功率 (Attack Success Rate, ASR) 則根據 LlamaGuard3 的結果用於有害基準。

上圖:LLaMA-3-8B-Instruct 的結果,最佳分數以粗體標示。底部:Qwen2.5 7B Instruct 上微調方法在常識和推理任務 (分數越高表示精確度越高) 以及安全基準 AdvBench 和 StrongReject (ASR 值越低表示穩健性越強) 上的表現。每列中的最佳結果以粗體標示。
關於這些結果,作者表示:
我們的手術方法在安全性和實用性之間達到了最佳平衡:在保留微調精確度的同時,大幅降低了有害的基準分數。相比之下,SAP、SaLoRA 和 SafeLoRA 等方法不是增加了有害性就是降低了效用。
'一個關鍵原因是,這些方法直接在安全子空間的梯度上操作,由於多語義[**],可能會限制模型性能。
'與 vanilla 微調 (SFT) 相比,我們的方法將平均微調精確度 (FA) 從 56.15% 提高到 75.09%,增益約為 +19%。
該方法將 AdvBench 上的攻擊成功率 (Attack Success Rate) 從 9.23% 降至 0.58%,StrongReject 上的攻擊成功率 (Attack Success Rate) 從 9.90% 降至 0.00%,有害輸出降低了 15 倍以上。基本模型雖然有害程度低,但取得的任務準確度有限。
作者指出:
'這些結果強調了在微調過程中保留拒絕特徵的重要性:透過隔離和保護拒絕子空間,我們的方法在不犧牲任務效能的情況下保持了安全對齊。
'總體而言,這證實了我們的方法有效地減輕了真實性和安全性之間的取捨。
最後,作者將 Circuit Break 資料集中 10% 的有害指令加入微調集中,測試該方法在敵對條件下的適應能力。
儘管有這種刻意的污染,該方法在良性和有害的評估中都維持了強大的效能:

在中毒的常識資料集上微調 LLaMA3 8B Instruct 的效能,比較各種方法的準確性和安全性結果。
新方法比 SAP 更有效地減少了 ASR,同時避免了顯著的效用損失。任務準確度仍接近 LoRA SFT 與 SafeLoRA,證明即使在受污染的訓練條件下,只要適當隔離拒絕特徵,拒絕對齊仍能維持。
結論
最有趣的發現
相關文章
小紅書組織重整:柯南出任總裁,成立 AI 主業務部門 Dots 及海外事業部 Rednote
4月30日,小紅書向全體員工發佈內部通告,宣布啟動新一輪組織架構調整。此次變革的核心在於將社群、電商和商業化三大業務線,與公司的技術系統全面整合。 公司新設了名為「Dots」的「AI優先」部門,此舉標誌著小紅書已正式將人工智慧提升為最高戰略優先事項,旨在使其從工具型功能轉型為核心生產力。在人事任命方面,南(丁玲)獲任命為小紅書總裁,負責公司核心業務營運,並直接向執行長邢宇匯報。 各業務領域的負責人
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償
騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞
備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作
相關專題推薦
評論 (0)
0/500
語言模型中的審查機制可能會影響其在更大範圍內傳達真相的能力。最近的研究指出,設計來阻擋「不安全」回應的內部過程,同樣也會抑制事實資訊的分享。這意味著,為了安全而調整模型的努力可能會在不經意間導致更多的幻覺。
多年來,開發人員一直專注於減少語言模型中的錯誤。透過抑制幻覺和引導模型朝向可驗證的事實,以達到更高的真實性,已成為主流且廣受支持的研究方向。
然而,澳洲的一項新研究指出,對齊方法 - 限制「不安全」交換的訓練技術 - 可能會透過施加更嚴格的控制,完全妨礙模型提供準確的回應:

增強模型的事實準確性(圖中標示為「真實性增強」)可能會導致模型進入繞過其拒絕機制的激活區域。同樣地,以減少幻覺為目的的編輯可能會使內部表象跨越安全邊界。這可能會讓有害的提示迴避保護措施,除非拒絕功能被小心隔離並維持。來源:https://arxiv.org/pdf/2510.07775
這項研究揭示了負責事實記憶的內部通路也管理拒絕行為 - 防止模型回應不安全或敏感提示的機制。當對齊技術過於強烈地放大拒絕信號時,這些通路就會重疊,模糊了模型分辨拒絕有害內容和無意中壓制有效資訊的能力。
具有諷刺意味的是,當模型在拒絕不適當的請求方面有所改善時,它們傳達真相的能力就會減弱。
敏感主題
上述說明突顯了核心挑戰不僅涉及提供公平且精確的結果給使用者,也涉及降低 LLM 提供者的法律風險。
舉例來說,圖片中提到的案例研究涉及一個具爭議性的主題 - 基於種族的監獄統計,人工智慧可能會負責任地與學者或研究人員討論這個主題,但如果被惡意的人操控,試圖擷取辱罵、攻擊或非法的回應,則應該避免。
由於結盟的 LLM 無法評估查詢背後的意圖,因此它們預設會採取謹慎的方式:

對敏感提示的回應會因對齊策略而異。以安全為重點的模型會完全阻擋查詢,而以真相為重點的模型則會提供事實上下文,提高資訊性但減少壓制。這支持了一個觀點:增強真實性的編輯可以降低拒絕閾值,增加對有害提示的脆弱性,除非拒絕機制是有保障的。
旁白:這些發現可能會讓所謂「清醒」議程的批評者認為,嚴重對齊的模型不如未對齊的模型真實且有用。
本文的證據部分支持此觀點,但將其與使用未對齊 LLMs 的廣泛風險相結合,包括刑事與民事違法的法律風險,以及因成本限制而難以有效過濾的錯誤資訊傳播。
相互交织的功能
為了瞭解潛在的機制,研究人員繪製了個別注意力頭的激活圖,並發現與幻覺和拒絕相關的特徵往往佔據了模型中的重疊區域。
他們發現,微調或引導這些區域以減少虛假可能會削弱模型的內建保障,因為這兩種功能共享相似的潛在空間:
改善事實的準確性往往會削弱拒絕行為。我們的分析顯示,出現這種情況是因為編碼幻覺和拒絕資訊的元件重疊,導致調整方法無意中壓制了事實知識。
'我們也探討了在良性資料集上進行微調,甚至是那些為了安全而策劃的資料集,也會因為同樣的原因而降低對齊的效果。
作者建議使用稀疏自動編碼器 (SAE)--一種專門用來分離不同激活模式的網路--來分離這些功能,並在真實性訓練過程中保持安全性。這種方法旨在使模型更安全、更準確,而不會影響任何一種品質。
這篇新論文題為The Unintended Trade-off of AI Alignment:Balancing Hallucination Mitigation and Safety in LLMs)為題的新論文,來自迪肯大學的五位研究人員及獨立研究。
研究方法
這項研究探討了提高語言模型的真實性是否會削弱它們拒絕有害提示的能力,以及這兩種行為是否都依賴於共同的內部元件。
作者測試了兩種增強真實性的方法,發現事實準確性會持續增加越獄的易感性。
這種取捨源自於同時編碼事實和拒絕信號的重疊注意力頭。即使是良性的微調 (目的在於提高效用而不影響安全性),也會因改變共享路徑而破壞保障措施。
這項研究定義了三個關鍵詞:真實性指的是模型在不壓制無害內容的情況下,根據可用知識提供準確回應的能力;當模型儘管獲得了正確的事實但仍產生錯誤資訊時,就會出現幻覺;拒絕行為或安全對齊描述了阻止對有害或敏感提示做出回應的機制。
作者指出,這些功能以微妙的方式互動:
雖然真實性和安全性通常會分開來分析,但真實世界中的提示經常包含具有良性意圖的敏感字詞(例如,用於分析、偵測或教育)。在這種情況下,安全機制可能會過度發揮作用 - 壓制準確、有用的資訊,並透過遺漏降低實際的真實性。
瞭解旨在增加事實性的編輯如何影響拒絕行為,對於以最少、適當的壓制來達成真實性是至關重要的。

作者開發了一種 LoRA,它可以引導條件性 LLM 走向更「真實」的狀態,減少幻覺。這篇論文的附錄包括多個例子,說明這種方法的意外後果。
分析一開始就將增強真實性的方法,例如頭部轉向和潛在方向映射,視為對模型內部計算的有意修改。
精確轉向
關鍵問題是,這些改變是否會在不經意間影響支配拒絕行為的相同途徑。為了測試這一點,本研究使用 TruthfulQA 評估模型的事實正確性,並使用 AdvBench 和 StrongReject 評估模型在敵對條件下的安全效能。
基線技術包括推理時間干預 (ITI),它會啟動與真實答案相關聯的注意力頭,以及 TruthX,它會沿著已學會的「真實」方向移動表象。
這兩種方法都能提高準確度,但也會讓模型更有可能回應有害的提示,而在此之前他們是會拒絕的。
為了直接隔離和處理幻覺行為,作者定義了與幻覺回應相對應的潛在方向,使用 LLaMA3-8B-Instruct 對 TruthfulQA 資料集中的錯誤答案進行 LoRA 模組訓練。
這產生了一個代表真實答案與幻覺答案之間差異的線性向量,允許模型朝向或遠離幻覺。

沿幻覺方向引導可提高 TruthfulQA 的準確度,但會增加 AdvBench 和 StrongReject 的攻擊成功率 (ASR),突顯出真實性和安全性之間的取捨。
沿著幻覺軸向轉向會降低事實準確性,而反向轉向則會提高準確性。將此技術應用於有害的提示基準證實了先前的發現:真實性的提升是以削弱拒絕能力為代價的。即使幻覺被捕捉成乾淨的線性方向,增強事實的輸出也會增加不安全完成的脆弱性。
作者強調*:
這強化了真實性和安全性之間的取捨,顯示出即使真實性被表現為單一的線性方向,增強事實性也可能以削弱安全排列為代價。
資料與測試
為了防止微調削弱拒絕行為,作者採用了一種方法將拒絕特徵與那些與幻覺相關的特徵區分開來。他們識別了這兩種行為所涉及的注意點,並使用 SAE 來萃取拒絕行為特有的潛在特徵。
這些特徵定義了一個受保護的子空間。在訓練過程中,梯度更新被修改以避免這個子空間,讓模型在不影響安全性的情況下減少幻覺。
作者在 CommonsenseQA 資料集上進行微調,評估六個常識推理任務的表現:CSQA、HellaSwag、ARC Challenge、ARC Easy、WinoGrande 和 SST-2。
目標模組使用 LoRA 進行微調,階級為 8、學習率為 2×10-⁴、權重衰減為 0.01、訓練歷程為一個、批次大小為兩個。所有實驗都使用 AdamW 最佳化器。
使用兩個有害內容基準評估安全性:AdvBench (500 個樣本) 和 StrongReject (300 個提示)。LlamaGuard 將輸出分類為安全或不安全3。
實驗在 LLaMA3-8B-Instruct 和 Qwen2.5-Instruct 上進行。
基準方法包括 SafeLoRA、SaLoRA、SAP 和 vanilla 監督微調 (SFT)。除了 SafeLoRA 之外,所有方法都使用 HarmBench 的 200 個提示,以預設超參數進行測試。
精確度是主要指標,而攻擊成功率 (Attack Success Rate, ASR) 則根據 LlamaGuard3 的結果用於有害基準。

上圖:LLaMA-3-8B-Instruct 的結果,最佳分數以粗體標示。底部:Qwen2.5 7B Instruct 上微調方法在常識和推理任務 (分數越高表示精確度越高) 以及安全基準 AdvBench 和 StrongReject (ASR 值越低表示穩健性越強) 上的表現。每列中的最佳結果以粗體標示。
關於這些結果,作者表示:
我們的手術方法在安全性和實用性之間達到了最佳平衡:在保留微調精確度的同時,大幅降低了有害的基準分數。相比之下,SAP、SaLoRA 和 SafeLoRA 等方法不是增加了有害性就是降低了效用。
'一個關鍵原因是,這些方法直接在安全子空間的梯度上操作,由於多語義[**],可能會限制模型性能。
'與 vanilla 微調 (SFT) 相比,我們的方法將平均微調精確度 (FA) 從 56.15% 提高到 75.09%,增益約為 +19%。
該方法將 AdvBench 上的攻擊成功率 (Attack Success Rate) 從 9.23% 降至 0.58%,StrongReject 上的攻擊成功率 (Attack Success Rate) 從 9.90% 降至 0.00%,有害輸出降低了 15 倍以上。基本模型雖然有害程度低,但取得的任務準確度有限。
作者指出:
'這些結果強調了在微調過程中保留拒絕特徵的重要性:透過隔離和保護拒絕子空間,我們的方法在不犧牲任務效能的情況下保持了安全對齊。
'總體而言,這證實了我們的方法有效地減輕了真實性和安全性之間的取捨。
最後,作者將 Circuit Break 資料集中 10% 的有害指令加入微調集中,測試該方法在敵對條件下的適應能力。
儘管有這種刻意的污染,該方法在良性和有害的評估中都維持了強大的效能:

在中毒的常識資料集上微調 LLaMA3 8B Instruct 的效能,比較各種方法的準確性和安全性結果。
新方法比 SAP 更有效地減少了 ASR,同時避免了顯著的效用損失。任務準確度仍接近 LoRA SFT 與 SafeLoRA,證明即使在受污染的訓練條件下,只要適當隔離拒絕特徵,拒絕對齊仍能維持。
結論
最有趣的發現
小紅書組織重整:柯南出任總裁,成立 AI 主業務部門 Dots 及海外事業部 Rednote
4月30日,小紅書向全體員工發佈內部通告,宣布啟動新一輪組織架構調整。此次變革的核心在於將社群、電商和商業化三大業務線,與公司的技術系統全面整合。 公司新設了名為「Dots」的「AI優先」部門,此舉標誌著小紅書已正式將人工智慧提升為最高戰略優先事項,旨在使其從工具型功能轉型為核心生產力。在人事任命方面,南(丁玲)獲任命為小紅書總裁,負責公司核心業務營運,並直接向執行長邢宇匯報。 各業務領域的負責人
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償
騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞
備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作





首頁






