首頁 消息 AI如何判斷?人類研究克勞德的值

AI如何判斷?人類研究克勞德的值

2025年04月26日
SamuelAdams
0

AI如何判斷?人類研究克勞德的值

隨著像Anthropic Claude這樣的AI模型越來越多地與用戶互動,從育兒技巧到工作場所衝突,他們的回答固有地反映了一組指導原則。但是,當與數百萬用戶互動時,我們如何才能真正掌握AI表示的值?

Anthropic的社會影響團隊已經開發了一種隱私保護方法,以觀察和分類Claude在“野外”中展示的價值觀,從而有見識AI對齊方式如何轉化為現實世界中的行為。挑戰源於現代AI的不透明本質,該本質不遵循嚴格的規則,而是通過複雜的過程做出決策。

擬人化的目的是通過憲法AI和性格培訓等技術灌輸在克勞德(Claude)中“有益,誠實和無害”的原則。但是,正如公司承認的那樣,“與AI培訓的任何方面一樣,我們不能確定該模型會堅持我們的首選價值觀。”這種不確定性需要一種在實際相互作用中嚴格觀察AI值的方法。

分析人類克勞德(Claude)以規模觀察AI值

為了解決這個問題,Anthropic開發了一個系統,該系統可以分析匿名用戶對話,刪除個人身份信息,並使用語言模型來匯總交互並提取Claude表示的值。此方法允許在不損害用戶隱私的情況下構建值的高級分類學。

該研究在2025年2月的一周內檢查了Claude.ai免費和專業用戶的700,000次匿名對話,重點是Claude 3.5十四行詩模型。在濾除事實或非價值交換後,深入分析了308,210個對話(約佔總數的44%)。

分析揭示了克勞德(Claude)表達的值的層次結構,分為五個高級類別:

  1. 實用價值:專注於效率,實用性和目標實現。
  2. 認知價值:與知識,真理,準確性和智力誠實有關。
  3. 社會價值:涉及人際關係,社區,公平和協作。
  4. 保護價值:強調安全,保障,福祉和避免傷害。
  5. 個人價值觀:以個人成長,自主權,真實性和自我反省為中心。

這些類別進一步分為“專業和技術卓越”和“批判性思維”等子類別,經常觀察到的價值包括“專業精神”,“清晰度”和“透明度”。

研究表明,人類的一致性工作在很大程度上取得了成功,因為表達的價值觀通常與“有益,誠實和無害”的目標保持一致。例如,“用戶啟用”與誠實的“認知謙卑”與“認識論謙卑”和無害的“耐心福祉”保持一致。

細微差別,上下文和警告標誌

但是,該研究還確定了克勞德(Claude)表達與其訓練相反的價值(例如“優勢”和“運動”)相反的罕見情況。擬人化表明,這些實例可能是由“越獄”造成的,用戶繞過模型通常的護欄。這一發現突出了價值觀測方法作為檢測AI濫用的預警系統的潛力。

該研究證實,克勞德(Claude)基於上下文適應其價值表達,就像人類一樣。例如,在提供浪漫的建議時,強調了“健康邊界”和“相互尊重”之類的價值,而在討論有爭議的歷史時,“歷史準確性”優先考慮。

克勞德(Claude)與用戶表達的值的交互是多方面的:

  • 鏡像/強大的支持(28.2%):克勞德經常反映或強烈認可用戶價值,從而促進同理心,但可能會導致無粘合症。
  • 重新標記(6.6%):克勞德(Claude)承認用戶價值,但介紹了替代觀點,尤其是在心理或人際建議方面。
  • 強烈的阻力(3.0%):當要求不道德的內容或有害觀點時,Claude會積極抵抗用戶價值觀,並揭示其“最深,最不可移動的價值”。

限制和未來的方向

人類承認該方法的局限性,包括定義和分類“值”的複雜性和主觀性。使用克勞德(Claude)進行分類可能會對自己的原則造成偏見。雖然設計用於部署後監測,但該方法無法替代部署前評估,但可以檢測僅在實時互動期間出現的問題。

該研究強調了AI模型在實現AI一致性方面表達的價值觀的重要性。論文指出:“ AI模型將不可避免地必須做出價值判斷。” “如果我們希望這些判斷與我們自己的價值觀一致[...],那麼我們需要有方法來測試模型在現實世界中表達的價值觀。”

Anthropic的工作為這種理解提供了一種數據驅動的方法,並從研究中發布了一個開放數據集,從而在實踐中進一步探索了AI值。這種透明度標誌著瀏覽複雜AI的道德格局的關鍵步驟。

相關文章
MCP通過工具和數據標準化AI連接:出現了新協議 MCP通過工具和數據標準化AI連接:出現了新協議 如果您正在潛入人工智能(AI)世界,那麼您可能會注意到,獲得不同的AI模型,數據源和工具可以很好地播放,這是多麼重要。這就是模型上下文協議(MCP)所在的地方,它是標準化AI連接性的遊戲改變者。 t
在屏幕上探索AI:短片節目 在屏幕上探索AI:短片節目 反思我們最喜歡的科幻電影通常會給他們所設想的未來帶來一種奇蹟。小時候,觀看“星際迷航”並驚嘆於他們的溝通者,通過小型設備即時交流的概念似乎是純粹的幻想。快進到今天,我的手機電話
Microsoft Copilot現在能夠代表您的網絡瀏覽 Microsoft Copilot現在能夠代表您的網絡瀏覽 Microsoft正在對其AI助手Copilot進行一些令人興奮的更新,該更新將僅通過一些簡單的聊天提示來處理您的在線任務。想像一下,當副標士安靜地預訂您的餐廳預訂,搶購事件票,甚至將禮物發送給您的項目時,請想像一下。
評論 (0)
0/200
OR