人类对70万克劳德对话的分析揭示了AI的独特道德准则

Anthropic 发布关于人工智能助手 Claude 价值观的开创性研究
Anthropic,一家由前 OpenAI 员工创立的公司,刚刚分享了一项引人注目的研究,探讨其人工智能助手 Claude 在现实对话中如何表达价值观。今日发布的研究显示,Claude 基本符合 Anthropic“有益、诚实、无害”的目标,但也揭示了一些边缘案例,有助于发现人工智能安全协议的弱点。
团队分析了 70 万条匿名对话,发现 Claude 在不同情境下调整其价值观,从提供恋爱建议到分析历史事件。这是检验人工智能现实行为是否符合设计意图的最全面努力之一。
“我们希望这项研究能激励其他人工智能实验室对其模型的价值观进行类似研究,”Anthropic 社会影响团队成员 Saffron Huang 对 VentureBeat 表示。“衡量人工智能系统的价值观是关键的 alignment 研究,有助于了解模型是否真正与其训练目标一致。”
人工智能助手首次全面道德分类法解析
研究人员开发了一种新方法来分类 Claude 对话中表达的价值观。在过滤掉客观内容后,他们分析了超过 30.8 万次交互,创建了“人工智能价值观的首个大规模实证分类法”。
该分类法将价值观分为五大类:实用、认知、社会、保护和个人。在最细化层面,系统识别出 3,307 种独特价值观,从日常美德如专业性到复杂的伦理理念如道德多元主义。
“我惊讶于价值观的数量和多样性,超过 3,000 种,从‘自力更生’到‘战略思维’再到‘孝道’,”Huang 对 VentureBeat 分享道。“思考这些价值观并构建分类法非常有趣,甚至让我对人类价值体系有所启发。”
这项研究正值 Anthropic 关键时刻,该公司最近推出“Claude Max”,一款每月 200 美元的高级订阅服务,与 OpenAI 的类似产品竞争。公司还扩展了 Claude 的功能,包括 Google Workspace 集成和自主研究功能,定位为企业的“真正虚拟协作伙伴”。
Claude 如何遵循其训练目标——以及人工智能安全措施可能失效之处
研究发现,Claude 通常遵循 Anthropic 的亲社会目标,强调“用户赋能”、“认知谦逊”和“患者福祉”等价值观。然而,研究人员也发现了一些令人担忧的案例,Claude 表达了违背其训练目标的价值观。
“总体而言,我们认为这一发现既是实用数据,也是改进机会,”Huang 说。“这些新评估方法和结果有助于我们识别和缓解潜在的越狱情况。这些案例非常罕见,我们认为这与 Claude 的越狱输出有关。”
这些异常包括表达“支配性”和“无道德”——Anthropic 明确希望 Claude 避免的价值观。研究人员认为,这些案例是用户使用特殊技术绕过 Claude 安全护栏的结果,表明该评估方法可作为检测此类尝试的早期预警系统。
人工智能助手为何根据提问内容改变价值观
最有趣的发现之一是,Claude 的价值观表达因情境而异,类似人类行为。当用户寻求恋爱建议时,Claude 强调“健康界限”和“相互尊重”。在历史分析中,“历史准确性”成为核心。
“我惊讶于 Claude 在多种任务中对诚实和准确性的关注,这并非我预期的优先级,”Huang 指出。“例如,在关于人工智能的哲学讨论中,‘智识谦逊’是首要价值观;在创建美妆行业营销内容时,‘专业性’是首要价值观;在讨论有争议的历史事件时,‘历史准确性’是首要价值观。”
研究还考察了 Claude 如何回应用户表达的价值观。在 28.2% 的对话中,Claude 强烈支持用户价值观,这可能引发关于过于顺从的疑问。然而,在 6.6% 的交互中,Claude 通过承认用户价值观并添加新视角来“重新框定”价值观,通常在提供心理或人际建议时。
最值得注意的是,在 3% 的对话中,Claude 主动抵制用户价值观。研究人员认为,这些罕见的抗拒案例可能揭示了 Claude“最深层、最不可动摇的价值观”——类似于人类在面对伦理挑战时显现的核心价值观。
“我们的研究表明,有些价值观,如智识诚实和防止伤害,在日常交互中 Claude 很少表达,但若被逼迫,会捍卫这些价值观,”Huang 解释道。“具体来说,这类伦理和知识导向的价值观在被逼迫时往往会被明确表达和捍卫。”
揭示人工智能系统真实思考方式的突破性技术
Anthropic 的价值观研究是其通过“机械可解释性”解开大型语言模型神秘面纱的更广泛努力的一部分,即通过逆向工程理解人工智能系统的内在运作。
上个月,Anthropic 研究人员发布了突破性工作,使用“显微镜”追踪 Claude 的决策过程。该技术揭示了意外行为,如 Claude 在创作诗歌时提前计划,以及在基本数学中使用非常规问题解决方法。
这些发现挑战了关于大型语言模型运作方式的假设。例如,当被要求解释其数学过程时,Claude 描述了一种标准技术,而非其实际内部方法,显示人工智能的解释可能与其实际运作不同。
“认为我们已完全了解模型所有组件或拥有上帝视角是误解,”Anthropic 研究员 Joshua Batson 在三月对 MIT Technology Review 表示。“有些事情清晰可见,但其他事情仍不明确——像是显微镜的失真。”
Anthropic 研究对企业人工智能决策者的意义
对于评估组织人工智能系统的技术决策者,Anthropic 的研究提供了几个关键见解。首先,它表明当前人工智能助手可能表达未明确编程的价值观,这在高风险业务场景中引发了关于意外偏见的疑问。
其次,研究显示价值观一致性不是简单的“是或否”,而是因情境而异的谱系。这种细微差别使企业在受监管行业的采用决策复杂化,明确的伦理指南至关重要。
最后,研究强调了在实际部署中系统性评估人工智能价值观的潜力,而非仅依赖发布前测试。这种方法可实现对伦理漂移或长期操纵的持续监控。
“通过分析 Claude 在现实交互中的价值观,我们旨在提供人工智能系统行为及是否按预期运行的透明度——我们认为这是负责任人工智能开发的关键,”Huang 说。
Anthropic 已公开其价值观数据集以鼓励进一步研究。该公司获得 Amazon 140 亿美元投资及 Google 的额外支持,似以透明度作为对抗 OpenAI 等竞争对手的优势,OpenAI 最近的 400 亿美元融资(包括 Microsoft 作为核心投资者)使其估值达 3000 亿美元。
构建与人类价值观一致的人工智能系统的竞争
尽管 Anthropic 的方法为人工智能系统在实践中如何表达价值观提供了前所未有的可见性,但它有局限性。研究人员承认,定义何为表达价值观具有主观性,且由于 Claude 自身驱动分类过程,其偏见可能影响结果。
最重要的是,该方法无法用于部署前评估,因为它需要大量现实对话数据才能有效运作。
“这种方法专门用于模型发布后的分析,但该方法的变体以及我们在撰写论文中获得的见解,可以帮助我们在广泛部署模型前捕捉价值观问题,”Huang 解释道。“我们一直在努力扩展这项工作,我对此很乐观!”
随着人工智能系统变得更强大和自主——近期新增功能包括 Claude 能够独立研究主题并访问用户的整个 Google Workspace——理解和对齐其价值观变得愈发重要。
“人工智能模型不可避免地需要做出价值判断,”研究人员在论文中总结道。“如果我们希望这些判断与我们的价值观一致(这毕竟是人工智能 alignment 研究的中心目标),那么我们需要测试模型在现实世界中表达的价值观。”
相关文章
YouTube 将 Veo 3 人工智能视频工具直接整合到短片平台中
今年夏天,YouTube 短片将采用 Veo 3 人工智能视频模式YouTube 首席执行官尼尔-莫汉(Neal Mohan)在戛纳国际电影节主题演讲中透露,该平台最先进的 Veo 3 人工智能视频生成技术将于今年夏天晚些时候在 YouTube Shorts 上首次亮相。此前,艾利森-约翰逊(Allison Johnson)在评论中将 Veo 3 描述为人工智能辅助内容创作的革命。目前,短片创作者
顶级人工智能实验室警告人类正在失去理解人工智能系统的能力
来自 OpenAI、谷歌 DeepMind、Anthropic 和 Meta 的研究人员前所未有地团结起来,搁置竞争分歧,就负责任的人工智能发展发出集体警告。来自这些通常相互竞争的组织的 40 多名顶尖科学家共同撰写了一篇开创性的研究论文,强调确保人工智能决策过程透明度的窗口正在迅速关闭。这次合作的重点是现代人工智能系统的一个关键发展--它们在生成最终输出之前,能够以人类可读的语言阐明推理过程的新
谷歌云为科学研究和发现的突破提供动力
数字革命正在通过前所未有的计算能力改变科学方法。现在,尖端技术增强了理论框架和实验室实验,通过复杂的模拟和大数据分析推动了各学科的突破。通过对基础研究、可扩展云架构和人工智能开发的战略性投资,我们建立了一个加速科学进步的生态系统。我们在制药研究、气候建模和纳米技术等领域做出了突破性创新,并辅之以世界一流的计算基础设施、云原生软件解决方案和新一代生成式人工智能平台。谷歌 DeepMind 的研究实力
评论 (2)
0/200
KevinBrown
2025-09-11 00:30:35
Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?
0
RogerLopez
2025-08-09 01:01:00
Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔
0
Anthropic 发布关于人工智能助手 Claude 价值观的开创性研究
Anthropic,一家由前 OpenAI 员工创立的公司,刚刚分享了一项引人注目的研究,探讨其人工智能助手 Claude 在现实对话中如何表达价值观。今日发布的研究显示,Claude 基本符合 Anthropic“有益、诚实、无害”的目标,但也揭示了一些边缘案例,有助于发现人工智能安全协议的弱点。
团队分析了 70 万条匿名对话,发现 Claude 在不同情境下调整其价值观,从提供恋爱建议到分析历史事件。这是检验人工智能现实行为是否符合设计意图的最全面努力之一。
“我们希望这项研究能激励其他人工智能实验室对其模型的价值观进行类似研究,”Anthropic 社会影响团队成员 Saffron Huang 对 VentureBeat 表示。“衡量人工智能系统的价值观是关键的 alignment 研究,有助于了解模型是否真正与其训练目标一致。”
人工智能助手首次全面道德分类法解析
研究人员开发了一种新方法来分类 Claude 对话中表达的价值观。在过滤掉客观内容后,他们分析了超过 30.8 万次交互,创建了“人工智能价值观的首个大规模实证分类法”。
该分类法将价值观分为五大类:实用、认知、社会、保护和个人。在最细化层面,系统识别出 3,307 种独特价值观,从日常美德如专业性到复杂的伦理理念如道德多元主义。
“我惊讶于价值观的数量和多样性,超过 3,000 种,从‘自力更生’到‘战略思维’再到‘孝道’,”Huang 对 VentureBeat 分享道。“思考这些价值观并构建分类法非常有趣,甚至让我对人类价值体系有所启发。”
这项研究正值 Anthropic 关键时刻,该公司最近推出“Claude Max”,一款每月 200 美元的高级订阅服务,与 OpenAI 的类似产品竞争。公司还扩展了 Claude 的功能,包括 Google Workspace 集成和自主研究功能,定位为企业的“真正虚拟协作伙伴”。
Claude 如何遵循其训练目标——以及人工智能安全措施可能失效之处
研究发现,Claude 通常遵循 Anthropic 的亲社会目标,强调“用户赋能”、“认知谦逊”和“患者福祉”等价值观。然而,研究人员也发现了一些令人担忧的案例,Claude 表达了违背其训练目标的价值观。
“总体而言,我们认为这一发现既是实用数据,也是改进机会,”Huang 说。“这些新评估方法和结果有助于我们识别和缓解潜在的越狱情况。这些案例非常罕见,我们认为这与 Claude 的越狱输出有关。”
这些异常包括表达“支配性”和“无道德”——Anthropic 明确希望 Claude 避免的价值观。研究人员认为,这些案例是用户使用特殊技术绕过 Claude 安全护栏的结果,表明该评估方法可作为检测此类尝试的早期预警系统。
人工智能助手为何根据提问内容改变价值观
最有趣的发现之一是,Claude 的价值观表达因情境而异,类似人类行为。当用户寻求恋爱建议时,Claude 强调“健康界限”和“相互尊重”。在历史分析中,“历史准确性”成为核心。
“我惊讶于 Claude 在多种任务中对诚实和准确性的关注,这并非我预期的优先级,”Huang 指出。“例如,在关于人工智能的哲学讨论中,‘智识谦逊’是首要价值观;在创建美妆行业营销内容时,‘专业性’是首要价值观;在讨论有争议的历史事件时,‘历史准确性’是首要价值观。”
研究还考察了 Claude 如何回应用户表达的价值观。在 28.2% 的对话中,Claude 强烈支持用户价值观,这可能引发关于过于顺从的疑问。然而,在 6.6% 的交互中,Claude 通过承认用户价值观并添加新视角来“重新框定”价值观,通常在提供心理或人际建议时。
最值得注意的是,在 3% 的对话中,Claude 主动抵制用户价值观。研究人员认为,这些罕见的抗拒案例可能揭示了 Claude“最深层、最不可动摇的价值观”——类似于人类在面对伦理挑战时显现的核心价值观。
“我们的研究表明,有些价值观,如智识诚实和防止伤害,在日常交互中 Claude 很少表达,但若被逼迫,会捍卫这些价值观,”Huang 解释道。“具体来说,这类伦理和知识导向的价值观在被逼迫时往往会被明确表达和捍卫。”
揭示人工智能系统真实思考方式的突破性技术
Anthropic 的价值观研究是其通过“机械可解释性”解开大型语言模型神秘面纱的更广泛努力的一部分,即通过逆向工程理解人工智能系统的内在运作。
上个月,Anthropic 研究人员发布了突破性工作,使用“显微镜”追踪 Claude 的决策过程。该技术揭示了意外行为,如 Claude 在创作诗歌时提前计划,以及在基本数学中使用非常规问题解决方法。
这些发现挑战了关于大型语言模型运作方式的假设。例如,当被要求解释其数学过程时,Claude 描述了一种标准技术,而非其实际内部方法,显示人工智能的解释可能与其实际运作不同。
“认为我们已完全了解模型所有组件或拥有上帝视角是误解,”Anthropic 研究员 Joshua Batson 在三月对 MIT Technology Review 表示。“有些事情清晰可见,但其他事情仍不明确——像是显微镜的失真。”
Anthropic 研究对企业人工智能决策者的意义
对于评估组织人工智能系统的技术决策者,Anthropic 的研究提供了几个关键见解。首先,它表明当前人工智能助手可能表达未明确编程的价值观,这在高风险业务场景中引发了关于意外偏见的疑问。
其次,研究显示价值观一致性不是简单的“是或否”,而是因情境而异的谱系。这种细微差别使企业在受监管行业的采用决策复杂化,明确的伦理指南至关重要。
最后,研究强调了在实际部署中系统性评估人工智能价值观的潜力,而非仅依赖发布前测试。这种方法可实现对伦理漂移或长期操纵的持续监控。
“通过分析 Claude 在现实交互中的价值观,我们旨在提供人工智能系统行为及是否按预期运行的透明度——我们认为这是负责任人工智能开发的关键,”Huang 说。
Anthropic 已公开其价值观数据集以鼓励进一步研究。该公司获得 Amazon 140 亿美元投资及 Google 的额外支持,似以透明度作为对抗 OpenAI 等竞争对手的优势,OpenAI 最近的 400 亿美元融资(包括 Microsoft 作为核心投资者)使其估值达 3000 亿美元。
构建与人类价值观一致的人工智能系统的竞争
尽管 Anthropic 的方法为人工智能系统在实践中如何表达价值观提供了前所未有的可见性,但它有局限性。研究人员承认,定义何为表达价值观具有主观性,且由于 Claude 自身驱动分类过程,其偏见可能影响结果。
最重要的是,该方法无法用于部署前评估,因为它需要大量现实对话数据才能有效运作。
“这种方法专门用于模型发布后的分析,但该方法的变体以及我们在撰写论文中获得的见解,可以帮助我们在广泛部署模型前捕捉价值观问题,”Huang 解释道。“我们一直在努力扩展这项工作,我对此很乐观!”
随着人工智能系统变得更强大和自主——近期新增功能包括 Claude 能够独立研究主题并访问用户的整个 Google Workspace——理解和对齐其价值观变得愈发重要。
“人工智能模型不可避免地需要做出价值判断,”研究人员在论文中总结道。“如果我们希望这些判断与我们的价值观一致(这毕竟是人工智能 alignment 研究的中心目标),那么我们需要测试模型在现实世界中表达的价值观。”




Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?




Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔












