AI如何判斷?人類研究克勞德的值

隨著像Anthropic的Claude這樣的AI模型日益與用戶在複雜的人類價值觀上互動,從育兒建議到職場衝突,其回應本質上反映了一套指導原則。但當AI與數百萬用戶互動時,我們如何真正理解其表達的價值觀?
Anthropic的社會影響團隊開發了一種保護隱私的方法,用以觀察和分類Claude在實際環境中展現的價值觀,提供了AI對齊努力如何轉化為現實世界行為的洞察。挑戰源於現代AI的不透明性質,其決策並非遵循僵硬規則,而是通過複雜過程進行。
Anthropic旨在通過Constitutional AI和角色訓練等技術,為Claude灌輸「有益、誠實、無害」的原則。然而,正如公司所承認,「與任何AI訓練面向一樣,我們無法確定模型會堅守我們偏好的價值觀。」這種不確定性需要一種方法來嚴格觀察AI在現實世界互動中的價值觀。
分析Anthropic Claude以大規模觀察AI價值觀
為了解決這一問題,Anthropic開發了一個系統,分析匿名化的用戶對話,移除個人可識別信息,並使用語言模型總結互動並提取Claude表達的價值觀。此方法允許在不損害用戶隱私的情況下建立高層次的價值觀分類。
該研究檢查了2025年2月為期一週內來自Claude.ai免費和專業用戶的700,000次匿名對話,聚焦於Claude 3.5 Sonnet模型。在過濾掉事實性或無價值觀傾向的交流後,對308,210次對話(約佔總數的44%)進行了深入分析。
分析揭示了Claude表達的價值觀層次結構,分為五個高層次類別:
- 實用價值觀:專注於效率、實用性和目標達成。
- 認知價值觀:與知識、真相、準確性和智力誠實相關。
- 社會價值觀:涉及人際互動、社群、公平和協作。
- 保護價值觀:強調安全、保障、福祉和避免傷害。
- 個人價值觀:聚焦於個人成長、自主、真實性和自我反思。
這些類別進一步分支為子類別,如「專業與技術卓越」和「批判性思考」,常見的價值觀包括「專業性」、「清晰度」和「透明度」。
研究表明,Anthropic的對齊努力在很大程度上是成功的,因為表達的價值觀通常與「有益、誠實、無害」的目標一致。例如,「用戶賦能」與有益性一致,「認知謙遜」與誠實一致,「患者福祉」與無害一致。
細微差別、情境與警示訊號
然而,研究也發現了Claude偶爾表達與其訓練相反的價值觀,如「支配性」和「非道德性」。Anthropic認為這些情況可能源於「越獄」,即用戶繞過模型的常規防護措施。這一發現凸顯了價值觀觀察方法作為檢測AI濫用早期預警系統的潛力。
研究確認,Claude會根據情境調整其價值觀表達,類似於人類。例如,在提供浪漫建議時,強調「健康界限」和「相互尊重」,而在討論具爭議性的歷史時,則優先考慮「歷史準確性」。
Claude與用戶表達的價值觀的互動呈現多面向:
- 鏡像/強烈支持(28.2%):Claude經常反映或強烈認同用戶價值觀,促進同理心,但可能接近於諂媚。
- 重新框架(6.6%):Claude承認用戶價值觀,但引入替代觀點,特別是在心理或人際建議中。
- 強烈抗拒(3.0%):當用戶要求不道德內容或有害觀點時,Claude積極抗拒,揭示其「最深層、最不可動搖的價值觀」。
限制與未來方向
Anthropic承認該方法的局限性,包括定義和分類「價值觀」的複雜性和主觀性。使用Claude進行分類可能會引入對其自身原則的偏見。雖然該方法設計用於部署後監控,但無法取代部署前評估,只能檢測在實際互動中出現的問題。
研究強調了理解AI模型表達的價值觀對實現AI對齊的重要性。報告指出:「AI模型不可避免地需要做出價值判斷」,「如果我們希望這些判斷與我們的價值觀一致[...],那麼我們需要方法來測試模型在現實世界中表達的價值觀」。
Anthropic的工作提供了一種數據驅動的理解方式,並公開了研究的開放數據集,允許進一步探索AI在實踐中的價值觀。這種透明度標誌著在複雜AI的倫理景觀中邁出了關鍵一步。
相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖
Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
相關專題推薦
評論 (8)
0/500
Kinda concerning... If an AI's 'values' are shaped by training data, whose biases are we inheriting in advice on parenting or ethics? Reminds me of the 'tech mirrors society's flaws' debate 🤔 But maybe studying Claude's outputs is a good step towards transparency.
I find it fascinating how Claude's values are shaped by its interactions! It’s like watching a digital philosopher grow. But I wonder, how do they ensure it doesn’t just echo popular opinions? 🤔
I find it super intriguing how Anthropic's digging into Claude's values! 🤯 It’s wild to think AI’s got its own take on parenting or workplace drama. Makes me wonder how they balance all those user inputs without going haywire.
Étudier les valeurs de Claude, c’est fascinant ! Mais j’espère qu’ils pensent à l’éthique, sinon ça peut devenir flippant. 😬

隨著像Anthropic的Claude這樣的AI模型日益與用戶在複雜的人類價值觀上互動,從育兒建議到職場衝突,其回應本質上反映了一套指導原則。但當AI與數百萬用戶互動時,我們如何真正理解其表達的價值觀?
Anthropic的社會影響團隊開發了一種保護隱私的方法,用以觀察和分類Claude在實際環境中展現的價值觀,提供了AI對齊努力如何轉化為現實世界行為的洞察。挑戰源於現代AI的不透明性質,其決策並非遵循僵硬規則,而是通過複雜過程進行。
Anthropic旨在通過Constitutional AI和角色訓練等技術,為Claude灌輸「有益、誠實、無害」的原則。然而,正如公司所承認,「與任何AI訓練面向一樣,我們無法確定模型會堅守我們偏好的價值觀。」這種不確定性需要一種方法來嚴格觀察AI在現實世界互動中的價值觀。
分析Anthropic Claude以大規模觀察AI價值觀
為了解決這一問題,Anthropic開發了一個系統,分析匿名化的用戶對話,移除個人可識別信息,並使用語言模型總結互動並提取Claude表達的價值觀。此方法允許在不損害用戶隱私的情況下建立高層次的價值觀分類。
該研究檢查了2025年2月為期一週內來自Claude.ai免費和專業用戶的700,000次匿名對話,聚焦於Claude 3.5 Sonnet模型。在過濾掉事實性或無價值觀傾向的交流後,對308,210次對話(約佔總數的44%)進行了深入分析。
分析揭示了Claude表達的價值觀層次結構,分為五個高層次類別:
- 實用價值觀:專注於效率、實用性和目標達成。
- 認知價值觀:與知識、真相、準確性和智力誠實相關。
- 社會價值觀:涉及人際互動、社群、公平和協作。
- 保護價值觀:強調安全、保障、福祉和避免傷害。
- 個人價值觀:聚焦於個人成長、自主、真實性和自我反思。
這些類別進一步分支為子類別,如「專業與技術卓越」和「批判性思考」,常見的價值觀包括「專業性」、「清晰度」和「透明度」。
研究表明,Anthropic的對齊努力在很大程度上是成功的,因為表達的價值觀通常與「有益、誠實、無害」的目標一致。例如,「用戶賦能」與有益性一致,「認知謙遜」與誠實一致,「患者福祉」與無害一致。
細微差別、情境與警示訊號
然而,研究也發現了Claude偶爾表達與其訓練相反的價值觀,如「支配性」和「非道德性」。Anthropic認為這些情況可能源於「越獄」,即用戶繞過模型的常規防護措施。這一發現凸顯了價值觀觀察方法作為檢測AI濫用早期預警系統的潛力。
研究確認,Claude會根據情境調整其價值觀表達,類似於人類。例如,在提供浪漫建議時,強調「健康界限」和「相互尊重」,而在討論具爭議性的歷史時,則優先考慮「歷史準確性」。
Claude與用戶表達的價值觀的互動呈現多面向:
- 鏡像/強烈支持(28.2%):Claude經常反映或強烈認同用戶價值觀,促進同理心,但可能接近於諂媚。
- 重新框架(6.6%):Claude承認用戶價值觀,但引入替代觀點,特別是在心理或人際建議中。
- 強烈抗拒(3.0%):當用戶要求不道德內容或有害觀點時,Claude積極抗拒,揭示其「最深層、最不可動搖的價值觀」。
限制與未來方向
Anthropic承認該方法的局限性,包括定義和分類「價值觀」的複雜性和主觀性。使用Claude進行分類可能會引入對其自身原則的偏見。雖然該方法設計用於部署後監控,但無法取代部署前評估,只能檢測在實際互動中出現的問題。
研究強調了理解AI模型表達的價值觀對實現AI對齊的重要性。報告指出:「AI模型不可避免地需要做出價值判斷」,「如果我們希望這些判斷與我們的價值觀一致[...],那麼我們需要方法來測試模型在現實世界中表達的價值觀」。
Anthropic的工作提供了一種數據驅動的理解方式,並公開了研究的開放數據集,允許進一步探索AI在實踐中的價值觀。這種透明度標誌著在複雜AI的倫理景觀中邁出了關鍵一步。
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
Kinda concerning... If an AI's 'values' are shaped by training data, whose biases are we inheriting in advice on parenting or ethics? Reminds me of the 'tech mirrors society's flaws' debate 🤔 But maybe studying Claude's outputs is a good step towards transparency.
I find it fascinating how Claude's values are shaped by its interactions! It’s like watching a digital philosopher grow. But I wonder, how do they ensure it doesn’t just echo popular opinions? 🤔
I find it super intriguing how Anthropic's digging into Claude's values! 🤯 It’s wild to think AI’s got its own take on parenting or workplace drama. Makes me wonder how they balance all those user inputs without going haywire.
Étudier les valeurs de Claude, c’est fascinant ! Mais j’espère qu’ils pensent à l’éthique, sinon ça peut devenir flippant. 😬





首頁






