AI如何判断?人类研究克劳德的值
2025年04月26日
SamuelAdams
0

随着像Anthropic Claude这样的AI模型越来越多地与用户互动,从育儿技巧到工作场所冲突,他们的回答固有地反映了一组指导原则。但是,当与数百万用户互动时,我们如何才能真正掌握AI表示的值?
Anthropic的社会影响团队已经开发了一种隐私保护方法,以观察和分类Claude在“野外”中展示的价值观,从而有见识AI对齐方式如何转化为现实世界中的行为。挑战源于现代AI的不透明本质,该本质不遵循严格的规则,而是通过复杂的过程做出决策。
拟人化的目的是通过宪法AI和性格培训等技术灌输在克劳德(Claude)中“有益,诚实和无害”的原则。但是,正如公司承认的那样,“与AI培训的任何方面一样,我们不能确定该模型会坚持我们的首选价值观。”这种不确定性需要一种在实际相互作用中严格观察AI值的方法。
分析人类克劳德(Claude)以规模观察AI值
为了解决这个问题,Anthropic开发了一个系统,该系统可以分析匿名用户对话,删除个人身份信息,并使用语言模型来汇总交互并提取Claude表示的值。此方法允许在不损害用户隐私的情况下构建值的高级分类学。
该研究在2025年2月的一周内检查了Claude.ai免费和专业用户的700,000次匿名对话,重点是Claude 3.5十四行诗模型。在滤除事实或非价值交换后,深入分析了308,210个对话(约占总数的44%)。
分析揭示了克劳德(Claude)表达的值的层次结构,分为五个高级类别:
- 实用价值:专注于效率,实用性和目标实现。
- 认知价值:与知识,真理,准确性和智力诚实有关。
- 社会价值:涉及人际关系,社区,公平和协作。
- 保护价值:强调安全,保障,福祉和避免伤害。
- 个人价值观:以个人成长,自主权,真实性和自我反省为中心。
这些类别进一步分为“专业和技术卓越”和“批判性思维”等子类别,经常观察到的价值包括“专业精神”,“清晰度”和“透明度”。
研究表明,人类的一致性工作在很大程度上取得了成功,因为表达的价值观通常与“有益,诚实和无害”的目标保持一致。例如,“用户启用”与诚实的“认知谦卑”与“认识论谦卑”和无害的“耐心福祉”保持一致。
细微差别,上下文和警告标志
但是,该研究还确定了克劳德(Claude)表达与其训练相反的价值(例如“优势”和“运动”)相反的罕见情况。拟人化表明,这些实例可能是由“越狱”造成的,用户绕过模型通常的护栏。这一发现突出了价值观测方法作为检测AI滥用的预警系统的潜力。
该研究证实,克劳德(Claude)基于上下文适应其价值表达,就像人类一样。例如,在提供浪漫的建议时,强调了“健康边界”和“相互尊重”之类的价值,而在讨论有争议的历史时,“历史准确性”优先考虑。
克劳德(Claude)与用户表达的值的交互是多方面的:
- 镜像/强大的支持(28.2%):克劳德经常反映或强烈认可用户价值,从而促进同理心,但可能会导致无粘合症。
- 重新标记(6.6%):克劳德(Claude)承认用户价值,但介绍了替代观点,尤其是在心理或人际建议方面。
- 强烈的阻力(3.0%):当要求不道德的内容或有害观点时,Claude会积极抵抗用户价值观,并揭示其“最深,最不可移动的价值”。
限制和未来的方向
人类承认该方法的局限性,包括定义和分类“值”的复杂性和主观性。使用克劳德(Claude)进行分类可能会对自己的原则造成偏见。虽然设计用于部署后监测,但该方法无法替代部署前评估,但可以检测仅在实时互动期间出现的问题。
该研究强调了AI模型在实现AI一致性方面表达的价值观的重要性。论文指出:“ AI模型将不可避免地必须做出价值判断。” “如果我们希望这些判断与我们自己的价值观一致[...],那么我们需要有方法来测试模型在现实世界中表达的价值观。”
Anthropic的工作为这种理解提供了一种数据驱动的方法,并从研究中发布了一个开放数据集,从而在实践中进一步探索了AI值。这种透明度标志着浏览复杂AI的道德格局的关键步骤。
相关文章
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges
If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Exploring AI on Screen: A Short Film Program
Reflecting on our favorite sci-fi movies often brings a sense of wonder about the future they envisioned. As a child, watching "Star Trek" and marveling at their communicators, the concept of instant communication via a small device seemed like pure fantasy. Fast forward to today, and my mobile phon
Microsoft Copilot Now Capable of Web Browsing on Your Behalf
Microsoft is rolling out some exciting updates to its AI assistant, Copilot, which will now be able to handle your online tasks with just a few simple chat prompts. Imagine working on your projects while Copilot quietly books your restaurant reservations, snags event tickets, or even sends gifts to
评论 (0)
0/200






随着像Anthropic Claude这样的AI模型越来越多地与用户互动,从育儿技巧到工作场所冲突,他们的回答固有地反映了一组指导原则。但是,当与数百万用户互动时,我们如何才能真正掌握AI表示的值?
Anthropic的社会影响团队已经开发了一种隐私保护方法,以观察和分类Claude在“野外”中展示的价值观,从而有见识AI对齐方式如何转化为现实世界中的行为。挑战源于现代AI的不透明本质,该本质不遵循严格的规则,而是通过复杂的过程做出决策。
拟人化的目的是通过宪法AI和性格培训等技术灌输在克劳德(Claude)中“有益,诚实和无害”的原则。但是,正如公司承认的那样,“与AI培训的任何方面一样,我们不能确定该模型会坚持我们的首选价值观。”这种不确定性需要一种在实际相互作用中严格观察AI值的方法。
分析人类克劳德(Claude)以规模观察AI值
为了解决这个问题,Anthropic开发了一个系统,该系统可以分析匿名用户对话,删除个人身份信息,并使用语言模型来汇总交互并提取Claude表示的值。此方法允许在不损害用户隐私的情况下构建值的高级分类学。
该研究在2025年2月的一周内检查了Claude.ai免费和专业用户的700,000次匿名对话,重点是Claude 3.5十四行诗模型。在滤除事实或非价值交换后,深入分析了308,210个对话(约占总数的44%)。
分析揭示了克劳德(Claude)表达的值的层次结构,分为五个高级类别:
- 实用价值:专注于效率,实用性和目标实现。
- 认知价值:与知识,真理,准确性和智力诚实有关。
- 社会价值:涉及人际关系,社区,公平和协作。
- 保护价值:强调安全,保障,福祉和避免伤害。
- 个人价值观:以个人成长,自主权,真实性和自我反省为中心。
这些类别进一步分为“专业和技术卓越”和“批判性思维”等子类别,经常观察到的价值包括“专业精神”,“清晰度”和“透明度”。
研究表明,人类的一致性工作在很大程度上取得了成功,因为表达的价值观通常与“有益,诚实和无害”的目标保持一致。例如,“用户启用”与诚实的“认知谦卑”与“认识论谦卑”和无害的“耐心福祉”保持一致。
细微差别,上下文和警告标志
但是,该研究还确定了克劳德(Claude)表达与其训练相反的价值(例如“优势”和“运动”)相反的罕见情况。拟人化表明,这些实例可能是由“越狱”造成的,用户绕过模型通常的护栏。这一发现突出了价值观测方法作为检测AI滥用的预警系统的潜力。
该研究证实,克劳德(Claude)基于上下文适应其价值表达,就像人类一样。例如,在提供浪漫的建议时,强调了“健康边界”和“相互尊重”之类的价值,而在讨论有争议的历史时,“历史准确性”优先考虑。
克劳德(Claude)与用户表达的值的交互是多方面的:
- 镜像/强大的支持(28.2%):克劳德经常反映或强烈认可用户价值,从而促进同理心,但可能会导致无粘合症。
- 重新标记(6.6%):克劳德(Claude)承认用户价值,但介绍了替代观点,尤其是在心理或人际建议方面。
- 强烈的阻力(3.0%):当要求不道德的内容或有害观点时,Claude会积极抵抗用户价值观,并揭示其“最深,最不可移动的价值”。
限制和未来的方向
人类承认该方法的局限性,包括定义和分类“值”的复杂性和主观性。使用克劳德(Claude)进行分类可能会对自己的原则造成偏见。虽然设计用于部署后监测,但该方法无法替代部署前评估,但可以检测仅在实时互动期间出现的问题。
该研究强调了AI模型在实现AI一致性方面表达的价值观的重要性。论文指出:“ AI模型将不可避免地必须做出价值判断。” “如果我们希望这些判断与我们自己的价值观一致[...],那么我们需要有方法来测试模型在现实世界中表达的价值观。”
Anthropic的工作为这种理解提供了一种数据驱动的方法,并从研究中发布了一个开放数据集,从而在实践中进一步探索了AI值。这种透明度标志着浏览复杂AI的道德格局的关键步骤。











