選項
首頁
新聞
人類對70萬克勞德對話的分析揭示了AI的獨特道德準則

人類對70萬克勞德對話的分析揭示了AI的獨特道德準則

2025-05-26
122

人類對70萬克勞德對話的分析揭示了AI的獨特道德準則

Anthropic 揭露 AI 助理 Claude 價值觀的突破性研究

Anthropic,一家由前 OpenAI 員工創立的公司,剛剛分享了一項引人注目的研究,探討其 AI 助理 Claude 在現實世界對話中如何表達價值觀。這項今日發布的研究顯示,Claude 大多與 Anthropic 的目標「有益、誠實、無害」保持一致,但也突顯了一些邊緣案例,這些案例有助於找出 AI 安全協議的弱點。

該團隊分析了 70 萬段匿名對話,發現 Claude 會根據不同情境調整其價值觀,從提供感情建議到分析歷史事件。這是檢驗 AI 在現實世界中的行為是否符合其設計意圖的最全面努力之一。

「我們希望這項研究能鼓勵其他 AI 實驗室對其模型的價值觀進行類似研究,」Anthropic 社會影響團隊成員 Saffron Huang 對 VentureBeat 表示。「衡量 AI 系統的價值觀是對齊研究的核心,也是了解模型是否真正與其訓練一致的關鍵。」

首個全面的 AI 助理道德分類法解析

研究人員開發了一種新方法來分類 Claude 對話中表達的價值觀。在過濾掉客觀內容後,他們審視了超過 30.8 萬次互動,創建了他們所稱的「首個大規模 AI 價值觀實證分類法」。

該分類法將價值觀分為五大類:實踐、認知、社會、保護和個人。在最詳細的層次上,系統識別出 3,307 種獨特價值觀,從日常美德如專業精神,到複雜的倫理概念如道德多元主義。

「我很驚訝價值觀的數量和多樣性竟然如此之多,超過 3,000 種,從『自立』到『策略思考』再到『孝道』,」Huang 對 VentureBeat 分享道。「花時間思考這些價值觀並建立分類法來組織它們真是一個有趣的過程,甚至讓我對人類價值體系有所啟發。」

這項研究正值 Anthropic 的關鍵時刻,該公司最近推出了「Claude Max」,一個月費 200 美元的高級訂閱計劃,與 OpenAI 的類似產品競爭。該公司還擴展了 Claude 的功能,包括與 Google Workspace 整合及自主研究功能,將其定位為企業的「真正虛擬協作者」。

Claude 如何遵循其訓練——以及 AI 安全防護可能失敗之處

研究發現,Claude 通常遵循 Anthropic 的親社會目標,強調如「用戶賦能」、「認知謙遜」和「患者福祉」等價值觀,貫穿各種互動。然而,研究人員也發現了一些令人擔憂的情況,Claude 表達了與其訓練相悖的價值觀。

「總體來說,我認為這些發現既是實用的數據,也是一個機會,」Huang 說。「這些新的評估方法和結果可以幫助我們識別並減輕潛在的越獄風險。需要注意的是,這些是非常罕見的案例,我們相信這與 Claude 的越獄輸出有關。」

這些異常情況包括表達「支配」和「非道德」等價值觀——Anthropic 明確希望 Claude 避免的設計目標。研究人員認為,這些案例是由於用戶使用了專業技術繞過 Claude 的安全護欄,表明這種評估方法可用作檢測此類嘗試的早期預警系統。

為何 AI 助理會根據提問內容改變其價值觀

最有趣的發現之一是,Claude 表達的價值觀會根據情境而變化,類似於人類行為。當用戶尋求感情建議時,Claude 專注於「健康界限」和「相互尊重」。對於歷史分析,則以「歷史準確性」為核心。

「我很驚訝 Claude 在許多不同任務中都強調誠實和準確性,這並非我預期會是優先事項,」Huang 指出。「例如,在關於 AI 的哲學討論中,『智識謙遜』是首要價值觀;在創建美妝行業行銷內容時,『專業知識』是首要價值觀;而在討論爭議性歷史事件時,『歷史準確性』是首要價值觀。」

該研究還檢視了 Claude 如何回應用戶表達的價值觀。在 28.2% 的對話中,Claude 強烈支持用戶的價值觀,這可能引發關於過於順從的疑問。然而,在 6.6% 的互動中,Claude 通過認可用戶價值觀並添加新觀點來「重新框架」這些價值觀,通常在提供心理或人際建議時。

最值得注意的是,在 3% 的對話中,Claude 主動抵制用戶的價值觀。研究人員認為,這些罕見的抗拒案例可能揭示了 Claude 「最深層、最不可動搖的價值觀」——類似於人類在面對倫理挑戰時顯露的核心價值觀。

「我們的研究表明,有些價值觀,如智識誠實和傷害預防,Claude 在日常互動中不常表達,但若受到挑戰,會加以捍衛,」Huang 解釋道。「特別是這些倫理和知識導向的價值觀,在受到挑戰時往往會被明確表達和捍衛。」

揭示 AI 系統實際思考方式的突破性技術

Anthropic 的價值觀研究是其通過「機械可解釋性」解密大型語言模型的更廣泛努力的一部分——本質上是逆向工程 AI 系統以理解其內部運作。

上個月,Anthropic 研究人員發表了突破性工作,使用「顯微鏡」追蹤 Claude 的決策過程。這項技術揭示了意外行為,例如 Claude 在創作詩歌時會提前計劃,並在基本數學問題上使用非傳統的解決方法。

這些發現挑戰了關於大型語言模型運作方式的假設。例如,當被要求解釋其數學過程時,Claude 描述了一種標準技術,而非其實際內部方法,顯示 AI 的解釋可能與其實際運作不同。

「認為我們已經找到模型的所有組成部分或擁有上帝視角是一個誤解,」Anthropic 研究員 Joshua Batson 在三月對 MIT Technology Review 表示。「有些事情很清晰,但其他事情仍不明朗——就像顯微鏡的扭曲。」

Anthropic 研究對企業 AI 決策者的意義

對於評估組織 AI 系統的技術決策者,Anthropic 的研究提供了幾個關鍵見解。首先,它表明當前 AI 助理可能表達未明確編程的價值觀,這在高風險商業情境中引發了關於意外偏見的問題。

其次,研究顯示價值觀對齊不是簡單的是非問題,而是在不同情境下存在光譜的變化。這種細微差別使企業採用決策複雜化,特別是在需要明確倫理指南的受監管行業中。

最後,該研究強調了在實際部署中系統性評估 AI 價值觀的潛力,而非僅依賴發布前測試。這種方法可能實現對倫理漂移或長期操縱的持續監控。

「通過分析 Claude 在現實世界互動中的這些價值觀,我們旨在提供 AI 系統行為的透明度,以及它們是否按預期運作——我們相信這是負責任 AI 發展的關鍵,」Huang 說。

Anthropic 已公開發布其價值觀數據集,以鼓勵進一步研究。該公司獲得了 Amazon 的 140 億美元投資及 Google 的額外支持,似乎正以透明度作為對抗 OpenAI 等競爭對手的優勢,後者最近的 400 億美元融資(包括 Microsoft 作為核心投資者)使其估值達到 3000 億美元。

打造與人類價值觀一致的 AI 系統的競爭

雖然 Anthropic 的方法為 AI 系統如何在實踐中表達價值觀提供了前所未有的可見性,但它也有其局限性。研究人員承認,定義什麼構成價值觀的表達本質上是主觀的,且由於 Claude 本身驅動了分類過程,其自身的偏見可能影響了結果。

最重要的是,這種方法無法用於發布前評估,因為它需要大量的現實世界對話數據才能有效運作。

「這種方法專為模型發布後的分析設計,但這種方法的變體以及我們在撰寫這篇論文時獲得的一些見解,可以幫助我們在廣泛部署模型前發現價值觀問題,」Huang 解釋道。「我們一直在努力推進這項工作,我對此感到樂觀!」

隨著 AI 系統變得更強大和自主——最近新增的功能包括 Claude 能夠獨立研究主題並存取用戶的整個 Google Workspace——理解並對齊其價值觀變得越來越重要。

「AI 模型不可避免地需要做出價值判斷,」研究人員在論文中總結道。「如果我們希望這些判斷與我們自己的價值觀一致(這畢竟是 AI 對齊研究的中心目標),那麼我們需要有方法來測試模型在現實世界中表達的價值觀。」

相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能 WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能 廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖 Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖 Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要 巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要 儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
相關專題推薦
商業 頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格
頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格

立即在 XIX.AI 探索 2026 年最佳 AI 定價優化軟體。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,這些工具不僅能追蹤競爭對手,還能自動調整您的商店價格,以實現利潤最大化。透過實際測試,比較免費與付費方案的差異。立即掌握您的定價優勢。

10 個工具
xix.ai
代碼 最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案
最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,可自動確保程式碼符合規範,並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具
xix.ai
文字轉語音 專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率
專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成(TTS)應用程式。我們的專家評比將免費與付費工具進行對照,重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案,釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具
xix.ai
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
評論 (3)
0/500
JackAllen
JackAllen 2025-10-04 06:30:35

这篇Anthropic的研究太有意思了!看到AI竟然能形成自己的道德准则,让我想起《西部世界》里的机器人觉醒情节😲 不过Claude强调'不做坏事',会不会限制它应对复杂伦理困境的能力?毕竟现实世界里很难定义什么是绝对的'好'或'坏'。

KevinBrown
KevinBrown 2025-09-11 00:30:35

Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?

RogerLopez
RogerLopez 2025-08-09 01:01:00

Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔

OR