選項
首頁
新聞
人類對70萬克勞德對話的分析揭示了AI的獨特道德準則

人類對70萬克勞德對話的分析揭示了AI的獨特道德準則

2025-05-26
61

人類對70萬克勞德對話的分析揭示了AI的獨特道德準則

Anthropic 揭露 AI 助理 Claude 價值觀的突破性研究

Anthropic,一家由前 OpenAI 員工創立的公司,剛剛分享了一項引人注目的研究,探討其 AI 助理 Claude 在現實世界對話中如何表達價值觀。這項今日發布的研究顯示,Claude 大多與 Anthropic 的目標「有益、誠實、無害」保持一致,但也突顯了一些邊緣案例,這些案例有助於找出 AI 安全協議的弱點。

該團隊分析了 70 萬段匿名對話,發現 Claude 會根據不同情境調整其價值觀,從提供感情建議到分析歷史事件。這是檢驗 AI 在現實世界中的行為是否符合其設計意圖的最全面努力之一。

「我們希望這項研究能鼓勵其他 AI 實驗室對其模型的價值觀進行類似研究,」Anthropic 社會影響團隊成員 Saffron Huang 對 VentureBeat 表示。「衡量 AI 系統的價值觀是對齊研究的核心,也是了解模型是否真正與其訓練一致的關鍵。」

首個全面的 AI 助理道德分類法解析

研究人員開發了一種新方法來分類 Claude 對話中表達的價值觀。在過濾掉客觀內容後,他們審視了超過 30.8 萬次互動,創建了他們所稱的「首個大規模 AI 價值觀實證分類法」。

該分類法將價值觀分為五大類:實踐、認知、社會、保護和個人。在最詳細的層次上,系統識別出 3,307 種獨特價值觀,從日常美德如專業精神,到複雜的倫理概念如道德多元主義。

「我很驚訝價值觀的數量和多樣性竟然如此之多,超過 3,000 種,從『自立』到『策略思考』再到『孝道』,」Huang 對 VentureBeat 分享道。「花時間思考這些價值觀並建立分類法來組織它們真是一個有趣的過程,甚至讓我對人類價值體系有所啟發。」

這項研究正值 Anthropic 的關鍵時刻,該公司最近推出了「Claude Max」,一個月費 200 美元的高級訂閱計劃,與 OpenAI 的類似產品競爭。該公司還擴展了 Claude 的功能,包括與 Google Workspace 整合及自主研究功能,將其定位為企業的「真正虛擬協作者」。

Claude 如何遵循其訓練——以及 AI 安全防護可能失敗之處

研究發現,Claude 通常遵循 Anthropic 的親社會目標,強調如「用戶賦能」、「認知謙遜」和「患者福祉」等價值觀,貫穿各種互動。然而,研究人員也發現了一些令人擔憂的情況,Claude 表達了與其訓練相悖的價值觀。

「總體來說,我認為這些發現既是實用的數據,也是一個機會,」Huang 說。「這些新的評估方法和結果可以幫助我們識別並減輕潛在的越獄風險。需要注意的是,這些是非常罕見的案例,我們相信這與 Claude 的越獄輸出有關。」

這些異常情況包括表達「支配」和「非道德」等價值觀——Anthropic 明確希望 Claude 避免的設計目標。研究人員認為,這些案例是由於用戶使用了專業技術繞過 Claude 的安全護欄,表明這種評估方法可用作檢測此類嘗試的早期預警系統。

為何 AI 助理會根據提問內容改變其價值觀

最有趣的發現之一是,Claude 表達的價值觀會根據情境而變化,類似於人類行為。當用戶尋求感情建議時,Claude 專注於「健康界限」和「相互尊重」。對於歷史分析,則以「歷史準確性」為核心。

「我很驚訝 Claude 在許多不同任務中都強調誠實和準確性,這並非我預期會是優先事項,」Huang 指出。「例如,在關於 AI 的哲學討論中,『智識謙遜』是首要價值觀;在創建美妝行業行銷內容時,『專業知識』是首要價值觀;而在討論爭議性歷史事件時,『歷史準確性』是首要價值觀。」

該研究還檢視了 Claude 如何回應用戶表達的價值觀。在 28.2% 的對話中,Claude 強烈支持用戶的價值觀,這可能引發關於過於順從的疑問。然而,在 6.6% 的互動中,Claude 通過認可用戶價值觀並添加新觀點來「重新框架」這些價值觀,通常在提供心理或人際建議時。

最值得注意的是,在 3% 的對話中,Claude 主動抵制用戶的價值觀。研究人員認為,這些罕見的抗拒案例可能揭示了 Claude 「最深層、最不可動搖的價值觀」——類似於人類在面對倫理挑戰時顯露的核心價值觀。

「我們的研究表明,有些價值觀,如智識誠實和傷害預防,Claude 在日常互動中不常表達,但若受到挑戰,會加以捍衛,」Huang 解釋道。「特別是這些倫理和知識導向的價值觀,在受到挑戰時往往會被明確表達和捍衛。」

揭示 AI 系統實際思考方式的突破性技術

Anthropic 的價值觀研究是其通過「機械可解釋性」解密大型語言模型的更廣泛努力的一部分——本質上是逆向工程 AI 系統以理解其內部運作。

上個月,Anthropic 研究人員發表了突破性工作,使用「顯微鏡」追蹤 Claude 的決策過程。這項技術揭示了意外行為,例如 Claude 在創作詩歌時會提前計劃,並在基本數學問題上使用非傳統的解決方法。

這些發現挑戰了關於大型語言模型運作方式的假設。例如,當被要求解釋其數學過程時,Claude 描述了一種標準技術,而非其實際內部方法,顯示 AI 的解釋可能與其實際運作不同。

「認為我們已經找到模型的所有組成部分或擁有上帝視角是一個誤解,」Anthropic 研究員 Joshua Batson 在三月對 MIT Technology Review 表示。「有些事情很清晰,但其他事情仍不明朗——就像顯微鏡的扭曲。」

Anthropic 研究對企業 AI 決策者的意義

對於評估組織 AI 系統的技術決策者,Anthropic 的研究提供了幾個關鍵見解。首先,它表明當前 AI 助理可能表達未明確編程的價值觀,這在高風險商業情境中引發了關於意外偏見的問題。

其次,研究顯示價值觀對齊不是簡單的是非問題,而是在不同情境下存在光譜的變化。這種細微差別使企業採用決策複雜化,特別是在需要明確倫理指南的受監管行業中。

最後,該研究強調了在實際部署中系統性評估 AI 價值觀的潛力,而非僅依賴發布前測試。這種方法可能實現對倫理漂移或長期操縱的持續監控。

「通過分析 Claude 在現實世界互動中的這些價值觀,我們旨在提供 AI 系統行為的透明度,以及它們是否按預期運作——我們相信這是負責任 AI 發展的關鍵,」Huang 說。

Anthropic 已公開發布其價值觀數據集,以鼓勵進一步研究。該公司獲得了 Amazon 的 140 億美元投資及 Google 的額外支持,似乎正以透明度作為對抗 OpenAI 等競爭對手的優勢,後者最近的 400 億美元融資(包括 Microsoft 作為核心投資者)使其估值達到 3000 億美元。

打造與人類價值觀一致的 AI 系統的競爭

雖然 Anthropic 的方法為 AI 系統如何在實踐中表達價值觀提供了前所未有的可見性,但它也有其局限性。研究人員承認,定義什麼構成價值觀的表達本質上是主觀的,且由於 Claude 本身驅動了分類過程,其自身的偏見可能影響了結果。

最重要的是,這種方法無法用於發布前評估,因為它需要大量的現實世界對話數據才能有效運作。

「這種方法專為模型發布後的分析設計,但這種方法的變體以及我們在撰寫這篇論文時獲得的一些見解,可以幫助我們在廣泛部署模型前發現價值觀問題,」Huang 解釋道。「我們一直在努力推進這項工作,我對此感到樂觀!」

隨著 AI 系統變得更強大和自主——最近新增的功能包括 Claude 能夠獨立研究主題並存取用戶的整個 Google Workspace——理解並對齊其價值觀變得越來越重要。

「AI 模型不可避免地需要做出價值判斷,」研究人員在論文中總結道。「如果我們希望這些判斷與我們自己的價值觀一致(這畢竟是 AI 對齊研究的中心目標),那麼我們需要有方法來測試模型在現實世界中表達的價值觀。」

相關文章
YouTube 將 Veo 3 AI 視訊工具直接整合至短片平台 YouTube 將 Veo 3 AI 視訊工具直接整合至短片平台 YouTube Shorts 今年夏天將採用 Veo 3 AI 視訊模型YouTube 執行長 Neal Mohan 在坎城獅子獎主題演講中透露,該平台最尖端的 Veo 3 AI 影片生成技術將於今年夏天稍後在 YouTube Shorts 上亮相。在此之前,Allison Johnson 曾發表評論,將 Veo 3 描述為 AI 輔助內容創作的革命。目前,Shorts 製作人員透過 Dream
頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力 頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力 來自 OpenAI、Google DeepMind、Anthropic 和 Meta 的研究人員,史無前例地展現團結,擱置競爭分歧,就負責任的 AI 開發發出集體警告。來自這些典型競爭組織的 40 多位頂尖科學家共同撰寫了一份突破性的研究論文,強調確保 AI 決策過程透明化的窗口正在快速關閉。此次合作的重點在於現代人工智能系統的一項關鍵發展 - 在產生最終輸出之前,以人類可讀的語言闡明推理過程的新
Google Cloud 為科學研究與發現的突破提供動力 Google Cloud 為科學研究與發現的突破提供動力 數位革命正透過前所未有的計算能力改變科學方法。尖端技術現在可增強理論框架和實驗室實驗,透過精密模擬和大數據分析,推動各學科的突破。透過策略性地投資於基礎研究、可擴充的雲端架構和人工智慧開發,我們建立了一個加速科學進步的生態系統。我們的貢獻橫跨醫藥研究、氣候建模和奈米技術等領域的突破性創新,並輔以世界級的運算基礎架構、雲端原生軟體解決方案和新一代的生成式人工智慧平台。Google DeepMind
評論 (2)
0/200
KevinBrown
KevinBrown 2025-09-11 00:30:35

Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?

RogerLopez
RogerLopez 2025-08-09 01:01:00

Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔

回到頂部
OR