选项
首页
新闻
AI如何判断?人类研究克劳德的值

AI如何判断?人类研究克劳德的值

2025-04-26
73

AI如何判断?人类研究克劳德的值

随着像Anthropic Claude这样的AI模型越来越多地与用户互动,从育儿技巧到工作场所冲突,他们的回答固有地反映了一组指导原则。但是,当与数百万用户互动时,我们如何才能真正掌握AI表示的值?

Anthropic的社会影响团队已经开发了一种隐私保护方法,以观察和分类Claude在“野外”中展示的价值观,从而有见识AI对齐方式如何转化为现实世界中的行为。挑战源于现代AI的不透明本质,该本质不遵循严格的规则,而是通过复杂的过程做出决策。

拟人化的目的是通过宪法AI和性格培训等技术灌输在克劳德(Claude)中“有益,诚实和无害”的原则。但是,正如公司承认的那样,“与AI培训的任何方面一样,我们不能确定该模型会坚持我们的首选价值观。”这种不确定性需要一种在实际相互作用中严格观察AI值的方法。

分析人类克劳德(Claude)以规模观察AI值

为了解决这个问题,Anthropic开发了一个系统,该系统可以分析匿名用户对话,删除个人身份信息,并使用语言模型来汇总交互并提取Claude表示的值。此方法允许在不损害用户隐私的情况下构建值的高级分类学。

该研究在2025年2月的一周内检查了Claude.ai免费和专业用户的700,000次匿名对话,重点是Claude 3.5十四行诗模型。在滤除事实或非价值交换后,深入分析了308,210个对话(约占总数的44%)。

分析揭示了克劳德(Claude)表达的值的层次结构,分为五个高级类别:

  1. 实用价值:专注于效率,实用性和目标实现。
  2. 认知价值:与知识,真理,准确性和智力诚实有关。
  3. 社会价值:涉及人际关系,社区,公平和协作。
  4. 保护价值:强调安全,保障,福祉和避免伤害。
  5. 个人价值观:以个人成长,自主权,真实性和自我反省为中心。

这些类别进一步分为“专业和技术卓越”和“批判性思维”等子类别,经常观察到的价值包括“专业精神”,“清晰度”和“透明度”。

研究表明,人类的一致性工作在很大程度上取得了成功,因为表达的价值观通常与“有益,诚实和无害”的目标保持一致。例如,“用户启用”与诚实的“认知谦卑”与“认识论谦卑”和无害的“耐心福祉”保持一致。

细微差别,上下文和警告标志

但是,该研究还确定了克劳德(Claude)表达与其训练相反的价值(例如“优势”和“运动”)相反的罕见情况。拟人化表明,这些实例可能是由“越狱”造成的,用户绕过模型通常的护栏。这一发现突出了价值观测方法作为检测AI滥用的预警系统的潜力。

该研究证实,克劳德(Claude)基于上下文适应其价值表达,就像人类一样。例如,在提供浪漫的建议时,强调了“健康边界”和“相互尊重”之类的价值,而在讨论有争议的历史时,“历史准确性”优先考虑。

克劳德(Claude)与用户表达的值的交互是多方面的:

  • 镜像/强大的支持(28.2%):克劳德经常反映或强烈认可用户价值,从而促进同理心,但可能会导致无粘合症。
  • 重新标记(6.6%):克劳德(Claude)承认用户价值,但介绍了替代观点,尤其是在心理或人际建议方面。
  • 强烈的阻力(3.0%):当要求不道德的内容或有害观点时,Claude会积极抵抗用户价值观,并揭示其“最深,最不可移动的价值”。

限制和未来的方向

人类承认该方法的局限性,包括定义和分类“值”的复杂性和主观性。使用克劳德(Claude)进行分类可能会对自己的原则造成偏见。虽然设计用于部署后监测,但该方法无法替代部署前评估,但可以检测仅在实时互动期间出现的问题。

该研究强调了AI模型在实现AI一致性方面表达的价值观的重要性。论文指出:“ AI模型将不可避免地必须做出价值判断。” “如果我们希望这些判断与我们自己的价值观一致[...],那么我们需要有方法来测试模型在现实世界中表达的价值观。”

Anthropic的工作为这种理解提供了一种数据驱动的方法,并从研究中发布了一个开放数据集,从而在实践中进一步探索了AI值。这种透明度标志着浏览复杂AI的道德格局的关键步骤。

相关文章
億萬富翁討論自動化取代工作在本週的AI更新中 億萬富翁討論自動化取代工作在本週的AI更新中 大家好,歡迎回到TechCrunch的AI通訊!如果您尚未訂閱,可以在此訂閱,每週三直接送到您的收件箱。我們上週稍作休息,但理由充分——AI新聞週期火熱異常,很大程度上要歸功於中國AI公司DeepSeek的突然崛起。這段時間風起雲湧,但我們現在回來了,正好為您更新OpenAI的最新動態。週末,OpenAI執行長Sam Altman在東京停留,與SoftBank負責人孫正義會面。SoftBank是O
NotebookLM應用上線:AI驅動的知識工具 NotebookLM應用上線:AI驅動的知識工具 NotebookLM 行動版上線:你的AI研究助手現已登陸Android與iOS我們對 NotebookLM 的熱烈反響感到驚喜——數百萬用戶已將其視為理解複雜資訊的首選工具。但有一個請求不斷出現:「什麼時候才能帶著NotebookLM隨時使用?」等待結束了!🎉 NotebookLM行動應用程式現已登陸Android和iOS平台,將AI輔助學習的力量裝進你的
谷歌的人工智慧未來基金可能需要謹慎行事 谷歌的人工智慧未來基金可能需要謹慎行事 Google 的新 AI 投資計劃:監管審查下的戰略轉變Google 最近宣布設立 AI 未來基金(AI Futures Fund),這標誌著這家科技巨頭在其塑造人工智慧未來的征程中邁出了大膽的一步。該計劃旨在為初創公司提供急需的資金、早期接觸仍在開發中的尖端人工智慧模型,以及來自 Google 內部專家的指導。儘管這不是 Google 第一次涉足初創企業生
评论 (0)
0/200
返回顶部
OR