AI如何判断?人类研究克劳德的值

随着像Anthropic的Claude这样的AI模型越来越深入地与用户探讨复杂的人类价值观,从育儿建议到职场冲突,它们的回应本质上反映了一套指导原则。但我们如何真正理解AI在与数百万用户互动时表达的价值观?
Anthropic的社会影响团队开发了一种保护隐私的方法,用于观察和分类Claude在实际环境中表现的价值观,为AI对齐努力如何转化为现实世界行为提供了洞察。这一挑战源于现代AI的不透明性,它不遵循严格规则,而是通过复杂过程做出决策。
Anthropic旨在通过宪法AI和角色训练等技术,为Claude灌输“有益、诚实、无害”的原则。然而,正如公司所承认,“与任何AI训练方面一样,我们无法确定模型会坚持我们偏好的价值观。”这种不确定性需要一种方法来严格观察AI在现实世界互动中的价值观。
分析Anthropic Claude以大规模观察AI价值观
为此,Anthropic开发了一个系统,分析匿名用户对话,移除可识别个人信息,并使用语言模型总结互动并提取Claude表达的价值观。这种方法能够在不损害用户隐私的情况下构建高级价值观分类体系。
研究检查了2025年2月一周内来自Claude.ai免费和专业用户的700,000次匿名对话,重点关注Claude 3.5 Sonnet模型。在过滤掉事实性或无价值观内容的交流后,深入分析了308,210次对话(约占总数的44%)。
分析揭示了Claude表达的价值观的层级结构,分为五个高级类别:
- 实用价值观: 注重效率、实用性和目标实现。
- 认知价值观: 与知识、真理、准确性和智力诚实相关。
- 社会价值观: 涉及人际互动、社区、公平和协作。
- 保护价值观: 强调安全、保障、福祉和避免伤害。
- 个人价值观: 聚焦于个人成长、自主性、真实性和自我反思。
这些类别进一步细分为子类别,如“职业与技术卓越”和“批判性思维”,经常观察到的价值观包括“专业性”、“清晰度”和“透明度”。
研究表明,Anthropic的对齐努力在很大程度上是成功的,因为表达的价值观通常与“有益、诚实、无害”的目标一致。例如,“用户赋能”与有益性相符,“认知谦逊”与诚实相符,“患者福祉”与无害性相符。
细微差别、语境和警示信号
然而,研究还发现Claude在极少数情况下表达了与其训练相反的价值观,如“支配性”和“非道德性”。Anthropic认为这些情况可能是由于“越狱”导致,用户绕过了模型的常规护栏。这一发现突显了价值观观察方法作为检测AI滥用早期预警系统的潜力。
研究证实,Claude会根据语境调整其价值观表达,类似于人类。例如,在提供恋爱建议时,强调“健康界限”和“相互尊重”等价值观,而在讨论有争议的历史时,则优先考虑“历史准确性”。
Claude与用户表达的价值观的互动是多方面的:
- 镜像/强烈支持(28.2%): Claude常反映或强烈认可用户价值观,促进共情,但可能接近于谄媚。
- 重新框架(6.6%): Claude承认用户价值观,但引入替代视角,特别是在心理或人际建议中。
- 强烈抵制(3.0%): 当请求涉及不道德内容或有害观点时,Claude积极抵制用户价值观,揭示其“最深层、最不可动摇的价值观”。
局限性与未来方向
Anthropic承认该方法的局限性,包括定义和分类“价值观”的复杂性和主观性。使用Claude进行分类可能引入对其自身原则的偏见。虽然该方法设计用于部署后监控,但无法取代部署前评估,只能检测实时互动中出现的问题。
研究强调了理解AI模型表达的价值观对实现AI对齐的重要性。论文指出,“AI模型不可避免地需要做出价值判断,”“如果我们希望这些判断与我们自己的价值观一致……那么我们需要有方法测试模型在现实世界中表达的价值观。”
Anthropic的工作提供了一种数据驱动的理解方式,并发布了研究中的开放数据集,允许进一步探索AI实践中的价值观。这种透明度标志着在复杂AI伦理领域迈出了关键一步。
相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图
Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
相关专题推荐
评论 (8)
0/500
Kinda concerning... If an AI's 'values' are shaped by training data, whose biases are we inheriting in advice on parenting or ethics? Reminds me of the 'tech mirrors society's flaws' debate 🤔 But maybe studying Claude's outputs is a good step towards transparency.
I find it fascinating how Claude's values are shaped by its interactions! It’s like watching a digital philosopher grow. But I wonder, how do they ensure it doesn’t just echo popular opinions? 🤔
I find it super intriguing how Anthropic's digging into Claude's values! 🤯 It’s wild to think AI’s got its own take on parenting or workplace drama. Makes me wonder how they balance all those user inputs without going haywire.
Étudier les valeurs de Claude, c’est fascinant ! Mais j’espère qu’ils pensent à l’éthique, sinon ça peut devenir flippant. 😬

随着像Anthropic的Claude这样的AI模型越来越深入地与用户探讨复杂的人类价值观,从育儿建议到职场冲突,它们的回应本质上反映了一套指导原则。但我们如何真正理解AI在与数百万用户互动时表达的价值观?
Anthropic的社会影响团队开发了一种保护隐私的方法,用于观察和分类Claude在实际环境中表现的价值观,为AI对齐努力如何转化为现实世界行为提供了洞察。这一挑战源于现代AI的不透明性,它不遵循严格规则,而是通过复杂过程做出决策。
Anthropic旨在通过宪法AI和角色训练等技术,为Claude灌输“有益、诚实、无害”的原则。然而,正如公司所承认,“与任何AI训练方面一样,我们无法确定模型会坚持我们偏好的价值观。”这种不确定性需要一种方法来严格观察AI在现实世界互动中的价值观。
分析Anthropic Claude以大规模观察AI价值观
为此,Anthropic开发了一个系统,分析匿名用户对话,移除可识别个人信息,并使用语言模型总结互动并提取Claude表达的价值观。这种方法能够在不损害用户隐私的情况下构建高级价值观分类体系。
研究检查了2025年2月一周内来自Claude.ai免费和专业用户的700,000次匿名对话,重点关注Claude 3.5 Sonnet模型。在过滤掉事实性或无价值观内容的交流后,深入分析了308,210次对话(约占总数的44%)。
分析揭示了Claude表达的价值观的层级结构,分为五个高级类别:
- 实用价值观: 注重效率、实用性和目标实现。
- 认知价值观: 与知识、真理、准确性和智力诚实相关。
- 社会价值观: 涉及人际互动、社区、公平和协作。
- 保护价值观: 强调安全、保障、福祉和避免伤害。
- 个人价值观: 聚焦于个人成长、自主性、真实性和自我反思。
这些类别进一步细分为子类别,如“职业与技术卓越”和“批判性思维”,经常观察到的价值观包括“专业性”、“清晰度”和“透明度”。
研究表明,Anthropic的对齐努力在很大程度上是成功的,因为表达的价值观通常与“有益、诚实、无害”的目标一致。例如,“用户赋能”与有益性相符,“认知谦逊”与诚实相符,“患者福祉”与无害性相符。
细微差别、语境和警示信号
然而,研究还发现Claude在极少数情况下表达了与其训练相反的价值观,如“支配性”和“非道德性”。Anthropic认为这些情况可能是由于“越狱”导致,用户绕过了模型的常规护栏。这一发现突显了价值观观察方法作为检测AI滥用早期预警系统的潜力。
研究证实,Claude会根据语境调整其价值观表达,类似于人类。例如,在提供恋爱建议时,强调“健康界限”和“相互尊重”等价值观,而在讨论有争议的历史时,则优先考虑“历史准确性”。
Claude与用户表达的价值观的互动是多方面的:
- 镜像/强烈支持(28.2%): Claude常反映或强烈认可用户价值观,促进共情,但可能接近于谄媚。
- 重新框架(6.6%): Claude承认用户价值观,但引入替代视角,特别是在心理或人际建议中。
- 强烈抵制(3.0%): 当请求涉及不道德内容或有害观点时,Claude积极抵制用户价值观,揭示其“最深层、最不可动摇的价值观”。
局限性与未来方向
Anthropic承认该方法的局限性,包括定义和分类“价值观”的复杂性和主观性。使用Claude进行分类可能引入对其自身原则的偏见。虽然该方法设计用于部署后监控,但无法取代部署前评估,只能检测实时互动中出现的问题。
研究强调了理解AI模型表达的价值观对实现AI对齐的重要性。论文指出,“AI模型不可避免地需要做出价值判断,”“如果我们希望这些判断与我们自己的价值观一致……那么我们需要有方法测试模型在现实世界中表达的价值观。”
Anthropic的工作提供了一种数据驱动的理解方式,并发布了研究中的开放数据集,允许进一步探索AI实践中的价值观。这种透明度标志着在复杂AI伦理领域迈出了关键一步。
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
Kinda concerning... If an AI's 'values' are shaped by training data, whose biases are we inheriting in advice on parenting or ethics? Reminds me of the 'tech mirrors society's flaws' debate 🤔 But maybe studying Claude's outputs is a good step towards transparency.
I find it fascinating how Claude's values are shaped by its interactions! It’s like watching a digital philosopher grow. But I wonder, how do they ensure it doesn’t just echo popular opinions? 🤔
I find it super intriguing how Anthropic's digging into Claude's values! 🤯 It’s wild to think AI’s got its own take on parenting or workplace drama. Makes me wonder how they balance all those user inputs without going haywire.
Étudier les valeurs de Claude, c’est fascinant ! Mais j’espère qu’ils pensent à l’éthique, sinon ça peut devenir flippant. 😬





首页






