AI如何判斷?人類研究克勞德的值

隨著像Anthropic Claude這樣的AI模型越來越多地與用戶互動,從育兒技巧到工作場所衝突,他們的回答固有地反映了一組指導原則。但是,當與數百萬用戶互動時,我們如何才能真正掌握AI表示的值?
Anthropic的社會影響團隊已經開發了一種隱私保護方法,以觀察和分類Claude在“野外”中展示的價值觀,從而有見識AI對齊方式如何轉化為現實世界中的行為。挑戰源於現代AI的不透明本質,該本質不遵循嚴格的規則,而是通過複雜的過程做出決策。
擬人化的目的是通過憲法AI和性格培訓等技術灌輸在克勞德(Claude)中“有益,誠實和無害”的原則。但是,正如公司承認的那樣,“與AI培訓的任何方面一樣,我們不能確定該模型會堅持我們的首選價值觀。”這種不確定性需要一種在實際相互作用中嚴格觀察AI值的方法。
分析人類克勞德(Claude)以規模觀察AI值
為了解決這個問題,Anthropic開發了一個系統,該系統可以分析匿名用戶對話,刪除個人身份信息,並使用語言模型來匯總交互並提取Claude表示的值。此方法允許在不損害用戶隱私的情況下構建值的高級分類學。
該研究在2025年2月的一周內檢查了Claude.ai免費和專業用戶的700,000次匿名對話,重點是Claude 3.5十四行詩模型。在濾除事實或非價值交換後,深入分析了308,210個對話(約佔總數的44%)。
分析揭示了克勞德(Claude)表達的值的層次結構,分為五個高級類別:
- 實用價值:專注於效率,實用性和目標實現。
- 認知價值:與知識,真理,準確性和智力誠實有關。
- 社會價值:涉及人際關係,社區,公平和協作。
- 保護價值:強調安全,保障,福祉和避免傷害。
- 個人價值觀:以個人成長,自主權,真實性和自我反省為中心。
這些類別進一步分為“專業和技術卓越”和“批判性思維”等子類別,經常觀察到的價值包括“專業精神”,“清晰度”和“透明度”。
研究表明,人類的一致性工作在很大程度上取得了成功,因為表達的價值觀通常與“有益,誠實和無害”的目標保持一致。例如,“用戶啟用”與誠實的“認知謙卑”與“認識論謙卑”和無害的“耐心福祉”保持一致。
細微差別,上下文和警告標誌
但是,該研究還確定了克勞德(Claude)表達與其訓練相反的價值(例如“優勢”和“運動”)相反的罕見情況。擬人化表明,這些實例可能是由“越獄”造成的,用戶繞過模型通常的護欄。這一發現突出了價值觀測方法作為檢測AI濫用的預警系統的潛力。
該研究證實,克勞德(Claude)基於上下文適應其價值表達,就像人類一樣。例如,在提供浪漫的建議時,強調了“健康邊界”和“相互尊重”之類的價值,而在討論有爭議的歷史時,“歷史準確性”優先考慮。
克勞德(Claude)與用戶表達的值的交互是多方面的:
- 鏡像/強大的支持(28.2%):克勞德經常反映或強烈認可用戶價值,從而促進同理心,但可能會導致無粘合症。
- 重新標記(6.6%):克勞德(Claude)承認用戶價值,但介紹了替代觀點,尤其是在心理或人際建議方面。
- 強烈的阻力(3.0%):當要求不道德的內容或有害觀點時,Claude會積極抵抗用戶價值觀,並揭示其“最深,最不可移動的價值”。
限制和未來的方向
人類承認該方法的局限性,包括定義和分類“值”的複雜性和主觀性。使用克勞德(Claude)進行分類可能會對自己的原則造成偏見。雖然設計用於部署後監測,但該方法無法替代部署前評估,但可以檢測僅在實時互動期間出現的問題。
該研究強調了AI模型在實現AI一致性方面表達的價值觀的重要性。論文指出:“ AI模型將不可避免地必須做出價值判斷。” “如果我們希望這些判斷與我們自己的價值觀一致[...],那麼我們需要有方法來測試模型在現實世界中表達的價值觀。”
Anthropic的工作為這種理解提供了一種數據驅動的方法,並從研究中發布了一個開放數據集,從而在實踐中進一步探索了AI值。這種透明度標誌著瀏覽複雜AI的道德格局的關鍵步驟。
相關文章
億萬富翁討論自動化取代工作在本週的AI更新中
大家好,歡迎回到TechCrunch的AI通訊!如果您尚未訂閱,可以在此訂閱,每週三直接送到您的收件箱。我們上週稍作休息,但理由充分——AI新聞週期火熱異常,很大程度上要歸功於中國AI公司DeepSeek的突然崛起。這段時間風起雲湧,但我們現在回來了,正好為您更新OpenAI的最新動態。週末,OpenAI執行長Sam Altman在東京停留,與SoftBank負責人孫正義會面。SoftBank是O
NotebookLM應用上線:AI驅動的知識工具
NotebookLM 行動版上線:你的AI研究助手現已登陸Android與iOS我們對 NotebookLM 的熱烈反響感到驚喜——數百萬用戶已將其視為理解複雜資訊的首選工具。但有一個請求不斷出現:「什麼時候才能帶著NotebookLM隨時使用?」等待結束了!🎉 NotebookLM行動應用程式現已登陸Android和iOS平台,將AI輔助學習的力量裝進你的
谷歌的人工智慧未來基金可能需要謹慎行事
Google 的新 AI 投資計劃:監管審查下的戰略轉變Google 最近宣布設立 AI 未來基金(AI Futures Fund),這標誌著這家科技巨頭在其塑造人工智慧未來的征程中邁出了大膽的一步。該計劃旨在為初創公司提供急需的資金、早期接觸仍在開發中的尖端人工智慧模型,以及來自 Google 內部專家的指導。儘管這不是 Google 第一次涉足初創企業生
評論 (0)
0/200
隨著像Anthropic Claude這樣的AI模型越來越多地與用戶互動,從育兒技巧到工作場所衝突,他們的回答固有地反映了一組指導原則。但是,當與數百萬用戶互動時,我們如何才能真正掌握AI表示的值?
Anthropic的社會影響團隊已經開發了一種隱私保護方法,以觀察和分類Claude在“野外”中展示的價值觀,從而有見識AI對齊方式如何轉化為現實世界中的行為。挑戰源於現代AI的不透明本質,該本質不遵循嚴格的規則,而是通過複雜的過程做出決策。
擬人化的目的是通過憲法AI和性格培訓等技術灌輸在克勞德(Claude)中“有益,誠實和無害”的原則。但是,正如公司承認的那樣,“與AI培訓的任何方面一樣,我們不能確定該模型會堅持我們的首選價值觀。”這種不確定性需要一種在實際相互作用中嚴格觀察AI值的方法。
分析人類克勞德(Claude)以規模觀察AI值
為了解決這個問題,Anthropic開發了一個系統,該系統可以分析匿名用戶對話,刪除個人身份信息,並使用語言模型來匯總交互並提取Claude表示的值。此方法允許在不損害用戶隱私的情況下構建值的高級分類學。
該研究在2025年2月的一周內檢查了Claude.ai免費和專業用戶的700,000次匿名對話,重點是Claude 3.5十四行詩模型。在濾除事實或非價值交換後,深入分析了308,210個對話(約佔總數的44%)。
分析揭示了克勞德(Claude)表達的值的層次結構,分為五個高級類別:
- 實用價值:專注於效率,實用性和目標實現。
- 認知價值:與知識,真理,準確性和智力誠實有關。
- 社會價值:涉及人際關係,社區,公平和協作。
- 保護價值:強調安全,保障,福祉和避免傷害。
- 個人價值觀:以個人成長,自主權,真實性和自我反省為中心。
這些類別進一步分為“專業和技術卓越”和“批判性思維”等子類別,經常觀察到的價值包括“專業精神”,“清晰度”和“透明度”。
研究表明,人類的一致性工作在很大程度上取得了成功,因為表達的價值觀通常與“有益,誠實和無害”的目標保持一致。例如,“用戶啟用”與誠實的“認知謙卑”與“認識論謙卑”和無害的“耐心福祉”保持一致。
細微差別,上下文和警告標誌
但是,該研究還確定了克勞德(Claude)表達與其訓練相反的價值(例如“優勢”和“運動”)相反的罕見情況。擬人化表明,這些實例可能是由“越獄”造成的,用戶繞過模型通常的護欄。這一發現突出了價值觀測方法作為檢測AI濫用的預警系統的潛力。
該研究證實,克勞德(Claude)基於上下文適應其價值表達,就像人類一樣。例如,在提供浪漫的建議時,強調了“健康邊界”和“相互尊重”之類的價值,而在討論有爭議的歷史時,“歷史準確性”優先考慮。
克勞德(Claude)與用戶表達的值的交互是多方面的:
- 鏡像/強大的支持(28.2%):克勞德經常反映或強烈認可用戶價值,從而促進同理心,但可能會導致無粘合症。
- 重新標記(6.6%):克勞德(Claude)承認用戶價值,但介紹了替代觀點,尤其是在心理或人際建議方面。
- 強烈的阻力(3.0%):當要求不道德的內容或有害觀點時,Claude會積極抵抗用戶價值觀,並揭示其“最深,最不可移動的價值”。
限制和未來的方向
人類承認該方法的局限性,包括定義和分類“值”的複雜性和主觀性。使用克勞德(Claude)進行分類可能會對自己的原則造成偏見。雖然設計用於部署後監測,但該方法無法替代部署前評估,但可以檢測僅在實時互動期間出現的問題。
該研究強調了AI模型在實現AI一致性方面表達的價值觀的重要性。論文指出:“ AI模型將不可避免地必須做出價值判斷。” “如果我們希望這些判斷與我們自己的價值觀一致[...],那麼我們需要有方法來測試模型在現實世界中表達的價值觀。”
Anthropic的工作為這種理解提供了一種數據驅動的方法,並從研究中發布了一個開放數據集,從而在實踐中進一步探索了AI值。這種透明度標誌著瀏覽複雜AI的道德格局的關鍵步驟。











