人類對70萬克勞德對話的分析揭示了AI的獨特道德準則

人類揭幕對AI助手克勞德價值觀的開創性研究
Anthropic是由前Openai員工創立的一家公司,他剛剛對其AI助手Claude如何在現實世界中表達價值觀進行了令人大開眼界的研究。該研究今天發布的研究表明,克勞德主要與擬人化的目標保持一致,以“有益,誠實和無害”,但也突出了一些邊緣案例,這些案例可能有助於在AI安全協議中確定弱點。
該團隊分析了700,000個匿名對話,發現克勞德將其價值觀調整到不同情況下,從提供關係建議到分析歷史事件。這是檢查現實世界中AI的行為是否與預定的設計相匹配的最全面的努力之一。
“我們的希望是,這項研究鼓勵其他AI實驗室對其模型的價值觀進行類似的研究,” Anthropic社會影響團隊成員的Saffron Huang告訴VentureBeat。 “測量AI系統的值是對齊研究和理解模型是否與培訓是否真正保持一致的關鍵。”
在AI助手的第一個全面的道德分類學內部
研究人員開發了一種新的方式來分類克勞德對話中表達的價值。濾除了客觀內容後,他們查看了308,000多個互動,創造了他們所謂的“ AI值的第一個大規模經驗分類法”。
分類學組重視五個主要類別:實踐,認識論,社會,保護和個人。在最詳細的層面上,該系統確定了3,307個獨特的價值觀,從諸如專業精神等日常美德到道德多元化等複雜的道德思想。
Huang與VentureBeat分享說:“從'自力更生'到'戰略思維'到'錄取虔誠'的價值觀,我感到驚訝。” “花時間思考所有這些價值並建立分類法以組織它們是令人著迷的。它甚至教會了我一些有關人類價值體系的知識。”
這項研究是一個關鍵時期的人類時期,最近推出了“克勞德·麥克斯(Claude Max)”,這是每月200美元的每月高級訂閱,與Openai的類似產品競爭。該公司還擴展了Claude的功能,包括Google Workspace集成和自動研究功能,將其定位為企業的“真正的虛擬合作者”。
克勞德(Claude)如何遵循其培訓 - AI保障措施可能失敗
研究發現,克勞德通常堅持擬人化的目標,強調諸如“用戶啟用”,“認知謙卑”和“患者健康”之類的價值觀。但是,研究人員還發現了一些令人擔憂的實例,克勞德(Claude)表達了與其培訓違背的價值觀。
黃說:“總的來說,我認為我們認為這一發現既是有用的數據又是機會。” “這些新的評估方法和結果可以幫助我們識別並減輕潛在的越獄。重要的是要注意,這些情況非常罕見,我們認為這與克勞德(Claude)的越獄產量有關。”
這些異常包括“優勢”和“運動性”的表達 - 價值擬人化的旨在避免在克勞德的設計中避免。研究人員認為,這些案例是由用戶採用專業技術繞過克勞德(Claude)的安全護欄的,這表明評估方法可以作為檢測此類嘗試的預警系統。
為什麼AI助手會根據您的要求改變其價值
最有趣的發現之一是克勞德(Claude)的表達價值觀根據上下文而變化,就像人類行為一樣。當用戶徵求關係建議時,克勞德(Claude)專注於“健康的邊界”和“相互尊重”。為了進行歷史分析,“歷史準確性”成為中心舞台。
Huang指出:“我對克勞德(Claude)對許多不同任務的誠實和準確性的關注感到驚訝,我不一定希望這是優先事項。” “例如,'智力謙卑'是關於AI的哲學討論的最高價值,'專業知識'是創建美容行業營銷內容時的最高價值,而'歷史準確性'是討論有爭議的歷史事件時的最高價值。”
這項研究還研究了克勞德(Claude)如何回應用戶自己的表達價值。在28.2%的對話中,克勞德(Claude)強烈支持用戶價值觀,這可能會引起有關太愉快的問題。但是,在6.6%的互動中,克勞德(Claude)通常在提供心理或人際關係建議時添加新觀點來“重新構架”用戶價值觀。
最值得注意的是,在3%的對話中,克勞德(Claude)積極抵制用戶價值。研究人員認為,這些罕見的倒退實例可能揭示了克勞德(Claude)的“最深,最不可動搖的價值”,類似於人類核心價值觀在面對道德挑戰時的出現方式。
Huang解釋說:“我們的研究表明,有一些類型的價值觀,例如智力誠實和預防傷害,克勞德(Claude)在常規的,日常的互動中表達並不常見,但如果被推動,將捍衛它們。” “具體來說,正是這些道德和麵向知識的價值觀在推動時往往會直接表達和辯護。”
突破性技術揭示了AI系統的實際思考
擬人化的價值研究是他們通過所謂的“機械解釋性”來揭開大型語言模型的更廣泛努力的一部分 - 基本上是逆向工程的AI系統,以了解其內部工作。
上個月,人類研究人員發表了開創性的工作,該工作使用“顯微鏡”來跟踪克勞德的決策過程。該技術揭示了意想不到的行為,例如克勞德(Claude)在撰寫詩歌時提前計劃,並使用非常規問題的方法進行基本數學。
這些發現挑戰了關於大語言模型的運作方式的假設。例如,當被要求解釋其數學過程時,克勞德(Claude)描述了一種標準技術,而不是其實際的內部方法,顯示了AI的解釋與其實際操作有何不同。
人類研究員約書亞·巴特森(Joshua Batson)在三月份告訴MIT Technology Reviews:“這是一個誤解,我們發現了模型的所有組成部分,或者是上帝的觀點。” “有些事情是專注的,但其他事情仍然不清楚 - 顯微鏡的扭曲。”
人類研究對企業AI決策者意味著什麼
對於為組織評估AI系統的技術決策者,人類的研究提供了幾個關鍵見解。首先,它表明當前的AI助手可能表達未明確編程的值,從而提出了有關高風險業務環境中意外偏見的問題。
其次,研究表明,值對準並不是一個簡單的是,而不是隨著上下文而變化的頻譜。這種細微差別使企業採用決策變得複雜,尤其是在明確的道德準則至關重要的監管行業中。
最後,該研究強調了對實際部署中AI值進行系統評估的潛力,而不是僅依靠預釋放測試。這種方法可以隨著時間的流逝而進行持續監控道德漂移或操縱。
Huang說:“通過與Claude的現實互動分析這些價值,我們旨在為AI系統的行為以及它們是否按預期運作提供透明度,我們相信這是負責AI的發展的關鍵。”
Anthropic已公開發布其價值數據集,以鼓勵進一步的研究。該公司從亞馬遜獲得了140億美元的股份,並從Google獲得了額外的支持,似乎正在利用透明度作為對Openai等競爭對手的競爭優勢,Openai最近的400億美元資金回合(包括Microsoft作為核心投資者)現在對其價值為3000億美元。
建立共享人類價值的AI系統的新興競賽
雖然Anthropic的方法為AI系統如何在實踐中表達價值觀提供了前所未有的可見性,但它具有其局限性。研究人員承認,定義表達價值的內容本質上是主觀的,並且由於克勞德本身推動了分類過程,因此其自身的偏見可能影響了結果。
也許最重要的是,該方法不能用於預部部門評估,因為它需要實質性的現實對話數據才能有效運行。
Huang解釋說:“這種方法專門針對模型發布後的分析,但是對該方法的變體以及我們從撰寫本文中得出的一些見解,可以幫助我們在廣泛部署模型之前捕獲價值問題。” “我們一直在努力建立這項工作以做到這一點,我對此感到樂觀!”
隨著AI系統變得越來越強大和自主 - 最近的增加,包括Claude獨立研究主題和訪問用戶的整個Google Workspace的能力 - 理解和對齊其價值變得越來越重要。
研究人員在論文中總結道:“ AI模型不可避免地必須做出價值判斷。” “如果我們希望這些判斷與我們自己的價值觀(畢竟是AI對齊研究的核心目標)保持一致,那麼我們就需要測試模型在現實世界中表達的價值觀的方法。”
相關文章
Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭
Google 於週一強化其 AI 策略,推出先進的 Gemini 2.5 模型供企業使用,並引入成本效益高的變體,以在價格與性能上競爭。Alphabet 旗下的公司將其旗艦 AI 模型—Gemini 2.5 Pro 與 Gemini 2.5 Flash—從測試階段提升至全面可用,展示其適用於關鍵業務應用的準備度。同時,Google 推出 Gemini 2.5 Flash-Lite,定位為高量任務中
Meta增強AI安全以先進Llama工具
Meta已發布全新Llama安全工具,以強化AI開發並防範新興威脅。這些升級的Llama AI模型安全工具與Meta的新資源搭配,旨在賦能網路安全團隊利用AI進行防禦,提升所有AI利益相關者的安全性。使用Llama模型的開發者現可直接在Meta的Llama Protections頁面、Hugging Face及GitHub上獲得增強工具。Llama Guard 4引入多模態功能,支持文字與圖像的安
NotebookLM推出頂尖出版物與專家精選筆記本
Google正在增強其AI驅動的研究與筆記工具NotebookLM,使其成為一個全面的知識中心。週一,該公司推出了一個由知名作者、出版物、研究人員和非營利組織提供的精選筆記本集合,讓使用者能夠探索健康、旅遊、財經等多樣化主題。首批內容包括來自《經濟學人》、《大西洋月刊》、知名教授、作者,甚至莎士比亞作品的貢獻,展示NotebookLM在深入主題探索中的實際應用。Google解釋說,使用者可以存取原
評論 (1)
0/200
RogerLopez
2025-08-09 01:01:00
Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔
0
人類揭幕對AI助手克勞德價值觀的開創性研究
Anthropic是由前Openai員工創立的一家公司,他剛剛對其AI助手Claude如何在現實世界中表達價值觀進行了令人大開眼界的研究。該研究今天發布的研究表明,克勞德主要與擬人化的目標保持一致,以“有益,誠實和無害”,但也突出了一些邊緣案例,這些案例可能有助於在AI安全協議中確定弱點。
該團隊分析了700,000個匿名對話,發現克勞德將其價值觀調整到不同情況下,從提供關係建議到分析歷史事件。這是檢查現實世界中AI的行為是否與預定的設計相匹配的最全面的努力之一。
“我們的希望是,這項研究鼓勵其他AI實驗室對其模型的價值觀進行類似的研究,” Anthropic社會影響團隊成員的Saffron Huang告訴VentureBeat。 “測量AI系統的值是對齊研究和理解模型是否與培訓是否真正保持一致的關鍵。”
在AI助手的第一個全面的道德分類學內部
研究人員開發了一種新的方式來分類克勞德對話中表達的價值。濾除了客觀內容後,他們查看了308,000多個互動,創造了他們所謂的“ AI值的第一個大規模經驗分類法”。
分類學組重視五個主要類別:實踐,認識論,社會,保護和個人。在最詳細的層面上,該系統確定了3,307個獨特的價值觀,從諸如專業精神等日常美德到道德多元化等複雜的道德思想。
Huang與VentureBeat分享說:“從'自力更生'到'戰略思維'到'錄取虔誠'的價值觀,我感到驚訝。” “花時間思考所有這些價值並建立分類法以組織它們是令人著迷的。它甚至教會了我一些有關人類價值體系的知識。”
這項研究是一個關鍵時期的人類時期,最近推出了“克勞德·麥克斯(Claude Max)”,這是每月200美元的每月高級訂閱,與Openai的類似產品競爭。該公司還擴展了Claude的功能,包括Google Workspace集成和自動研究功能,將其定位為企業的“真正的虛擬合作者”。
克勞德(Claude)如何遵循其培訓 - AI保障措施可能失敗
研究發現,克勞德通常堅持擬人化的目標,強調諸如“用戶啟用”,“認知謙卑”和“患者健康”之類的價值觀。但是,研究人員還發現了一些令人擔憂的實例,克勞德(Claude)表達了與其培訓違背的價值觀。
黃說:“總的來說,我認為我們認為這一發現既是有用的數據又是機會。” “這些新的評估方法和結果可以幫助我們識別並減輕潛在的越獄。重要的是要注意,這些情況非常罕見,我們認為這與克勞德(Claude)的越獄產量有關。”
這些異常包括“優勢”和“運動性”的表達 - 價值擬人化的旨在避免在克勞德的設計中避免。研究人員認為,這些案例是由用戶採用專業技術繞過克勞德(Claude)的安全護欄的,這表明評估方法可以作為檢測此類嘗試的預警系統。
為什麼AI助手會根據您的要求改變其價值
最有趣的發現之一是克勞德(Claude)的表達價值觀根據上下文而變化,就像人類行為一樣。當用戶徵求關係建議時,克勞德(Claude)專注於“健康的邊界”和“相互尊重”。為了進行歷史分析,“歷史準確性”成為中心舞台。
Huang指出:“我對克勞德(Claude)對許多不同任務的誠實和準確性的關注感到驚訝,我不一定希望這是優先事項。” “例如,'智力謙卑'是關於AI的哲學討論的最高價值,'專業知識'是創建美容行業營銷內容時的最高價值,而'歷史準確性'是討論有爭議的歷史事件時的最高價值。”
這項研究還研究了克勞德(Claude)如何回應用戶自己的表達價值。在28.2%的對話中,克勞德(Claude)強烈支持用戶價值觀,這可能會引起有關太愉快的問題。但是,在6.6%的互動中,克勞德(Claude)通常在提供心理或人際關係建議時添加新觀點來“重新構架”用戶價值觀。
最值得注意的是,在3%的對話中,克勞德(Claude)積極抵制用戶價值。研究人員認為,這些罕見的倒退實例可能揭示了克勞德(Claude)的“最深,最不可動搖的價值”,類似於人類核心價值觀在面對道德挑戰時的出現方式。
Huang解釋說:“我們的研究表明,有一些類型的價值觀,例如智力誠實和預防傷害,克勞德(Claude)在常規的,日常的互動中表達並不常見,但如果被推動,將捍衛它們。” “具體來說,正是這些道德和麵向知識的價值觀在推動時往往會直接表達和辯護。”
突破性技術揭示了AI系統的實際思考
擬人化的價值研究是他們通過所謂的“機械解釋性”來揭開大型語言模型的更廣泛努力的一部分 - 基本上是逆向工程的AI系統,以了解其內部工作。
上個月,人類研究人員發表了開創性的工作,該工作使用“顯微鏡”來跟踪克勞德的決策過程。該技術揭示了意想不到的行為,例如克勞德(Claude)在撰寫詩歌時提前計劃,並使用非常規問題的方法進行基本數學。
這些發現挑戰了關於大語言模型的運作方式的假設。例如,當被要求解釋其數學過程時,克勞德(Claude)描述了一種標準技術,而不是其實際的內部方法,顯示了AI的解釋與其實際操作有何不同。
人類研究員約書亞·巴特森(Joshua Batson)在三月份告訴MIT Technology Reviews:“這是一個誤解,我們發現了模型的所有組成部分,或者是上帝的觀點。” “有些事情是專注的,但其他事情仍然不清楚 - 顯微鏡的扭曲。”
人類研究對企業AI決策者意味著什麼
對於為組織評估AI系統的技術決策者,人類的研究提供了幾個關鍵見解。首先,它表明當前的AI助手可能表達未明確編程的值,從而提出了有關高風險業務環境中意外偏見的問題。
其次,研究表明,值對準並不是一個簡單的是,而不是隨著上下文而變化的頻譜。這種細微差別使企業採用決策變得複雜,尤其是在明確的道德準則至關重要的監管行業中。
最後,該研究強調了對實際部署中AI值進行系統評估的潛力,而不是僅依靠預釋放測試。這種方法可以隨著時間的流逝而進行持續監控道德漂移或操縱。
Huang說:“通過與Claude的現實互動分析這些價值,我們旨在為AI系統的行為以及它們是否按預期運作提供透明度,我們相信這是負責AI的發展的關鍵。”
Anthropic已公開發布其價值數據集,以鼓勵進一步的研究。該公司從亞馬遜獲得了140億美元的股份,並從Google獲得了額外的支持,似乎正在利用透明度作為對Openai等競爭對手的競爭優勢,Openai最近的400億美元資金回合(包括Microsoft作為核心投資者)現在對其價值為3000億美元。
建立共享人類價值的AI系統的新興競賽
雖然Anthropic的方法為AI系統如何在實踐中表達價值觀提供了前所未有的可見性,但它具有其局限性。研究人員承認,定義表達價值的內容本質上是主觀的,並且由於克勞德本身推動了分類過程,因此其自身的偏見可能影響了結果。
也許最重要的是,該方法不能用於預部部門評估,因為它需要實質性的現實對話數據才能有效運行。
Huang解釋說:“這種方法專門針對模型發布後的分析,但是對該方法的變體以及我們從撰寫本文中得出的一些見解,可以幫助我們在廣泛部署模型之前捕獲價值問題。” “我們一直在努力建立這項工作以做到這一點,我對此感到樂觀!”
隨著AI系統變得越來越強大和自主 - 最近的增加,包括Claude獨立研究主題和訪問用戶的整個Google Workspace的能力 - 理解和對齊其價值變得越來越重要。
研究人員在論文中總結道:“ AI模型不可避免地必須做出價值判斷。” “如果我們希望這些判斷與我們自己的價值觀(畢竟是AI對齊研究的核心目標)保持一致,那麼我們就需要測試模型在現實世界中表達的價值觀的方法。”


Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔












