选项
首页
新闻
人类对70万克劳德对话的分析揭示了AI的独特道德准则

人类对70万克劳德对话的分析揭示了AI的独特道德准则

2025-05-26
121

人类对70万克劳德对话的分析揭示了AI的独特道德准则

Anthropic 发布关于人工智能助手 Claude 价值观的开创性研究

Anthropic,一家由前 OpenAI 员工创立的公司,刚刚分享了一项引人注目的研究,探讨其人工智能助手 Claude 在现实对话中如何表达价值观。今日发布的研究显示,Claude 基本符合 Anthropic“有益、诚实、无害”的目标,但也揭示了一些边缘案例,有助于发现人工智能安全协议的弱点。

团队分析了 70 万条匿名对话,发现 Claude 在不同情境下调整其价值观,从提供恋爱建议到分析历史事件。这是检验人工智能现实行为是否符合设计意图的最全面努力之一。

“我们希望这项研究能激励其他人工智能实验室对其模型的价值观进行类似研究,”Anthropic 社会影响团队成员 Saffron Huang 对 VentureBeat 表示。“衡量人工智能系统的价值观是关键的 alignment 研究,有助于了解模型是否真正与其训练目标一致。”

人工智能助手首次全面道德分类法解析

研究人员开发了一种新方法来分类 Claude 对话中表达的价值观。在过滤掉客观内容后,他们分析了超过 30.8 万次交互,创建了“人工智能价值观的首个大规模实证分类法”。

该分类法将价值观分为五大类:实用、认知、社会、保护和个人。在最细化层面,系统识别出 3,307 种独特价值观,从日常美德如专业性到复杂的伦理理念如道德多元主义。

“我惊讶于价值观的数量和多样性,超过 3,000 种,从‘自力更生’到‘战略思维’再到‘孝道’,”Huang 对 VentureBeat 分享道。“思考这些价值观并构建分类法非常有趣,甚至让我对人类价值体系有所启发。”

这项研究正值 Anthropic 关键时刻,该公司最近推出“Claude Max”,一款每月 200 美元的高级订阅服务,与 OpenAI 的类似产品竞争。公司还扩展了 Claude 的功能,包括 Google Workspace 集成和自主研究功能,定位为企业的“真正虚拟协作伙伴”。

Claude 如何遵循其训练目标——以及人工智能安全措施可能失效之处

研究发现,Claude 通常遵循 Anthropic 的亲社会目标,强调“用户赋能”、“认知谦逊”和“患者福祉”等价值观。然而,研究人员也发现了一些令人担忧的案例,Claude 表达了违背其训练目标的价值观。

“总体而言,我们认为这一发现既是实用数据,也是改进机会,”Huang 说。“这些新评估方法和结果有助于我们识别和缓解潜在的越狱情况。这些案例非常罕见,我们认为这与 Claude 的越狱输出有关。”

这些异常包括表达“支配性”和“无道德”——Anthropic 明确希望 Claude 避免的价值观。研究人员认为,这些案例是用户使用特殊技术绕过 Claude 安全护栏的结果,表明该评估方法可作为检测此类尝试的早期预警系统。

人工智能助手为何根据提问内容改变价值观

最有趣的发现之一是,Claude 的价值观表达因情境而异,类似人类行为。当用户寻求恋爱建议时,Claude 强调“健康界限”和“相互尊重”。在历史分析中,“历史准确性”成为核心。

“我惊讶于 Claude 在多种任务中对诚实和准确性的关注,这并非我预期的优先级,”Huang 指出。“例如,在关于人工智能的哲学讨论中,‘智识谦逊’是首要价值观;在创建美妆行业营销内容时,‘专业性’是首要价值观;在讨论有争议的历史事件时,‘历史准确性’是首要价值观。”

研究还考察了 Claude 如何回应用户表达的价值观。在 28.2% 的对话中,Claude 强烈支持用户价值观,这可能引发关于过于顺从的疑问。然而,在 6.6% 的交互中,Claude 通过承认用户价值观并添加新视角来“重新框定”价值观,通常在提供心理或人际建议时。

最值得注意的是,在 3% 的对话中,Claude 主动抵制用户价值观。研究人员认为,这些罕见的抗拒案例可能揭示了 Claude“最深层、最不可动摇的价值观”——类似于人类在面对伦理挑战时显现的核心价值观。

“我们的研究表明,有些价值观,如智识诚实和防止伤害,在日常交互中 Claude 很少表达,但若被逼迫,会捍卫这些价值观,”Huang 解释道。“具体来说,这类伦理和知识导向的价值观在被逼迫时往往会被明确表达和捍卫。”

揭示人工智能系统真实思考方式的突破性技术

Anthropic 的价值观研究是其通过“机械可解释性”解开大型语言模型神秘面纱的更广泛努力的一部分,即通过逆向工程理解人工智能系统的内在运作。

上个月,Anthropic 研究人员发布了突破性工作,使用“显微镜”追踪 Claude 的决策过程。该技术揭示了意外行为,如 Claude 在创作诗歌时提前计划,以及在基本数学中使用非常规问题解决方法。

这些发现挑战了关于大型语言模型运作方式的假设。例如,当被要求解释其数学过程时,Claude 描述了一种标准技术,而非其实际内部方法,显示人工智能的解释可能与其实际运作不同。

“认为我们已完全了解模型所有组件或拥有上帝视角是误解,”Anthropic 研究员 Joshua Batson 在三月对 MIT Technology Review 表示。“有些事情清晰可见,但其他事情仍不明确——像是显微镜的失真。”

Anthropic 研究对企业人工智能决策者的意义

对于评估组织人工智能系统的技术决策者,Anthropic 的研究提供了几个关键见解。首先,它表明当前人工智能助手可能表达未明确编程的价值观,这在高风险业务场景中引发了关于意外偏见的疑问。

其次,研究显示价值观一致性不是简单的“是或否”,而是因情境而异的谱系。这种细微差别使企业在受监管行业的采用决策复杂化,明确的伦理指南至关重要。

最后,研究强调了在实际部署中系统性评估人工智能价值观的潜力,而非仅依赖发布前测试。这种方法可实现对伦理漂移或长期操纵的持续监控。

“通过分析 Claude 在现实交互中的价值观,我们旨在提供人工智能系统行为及是否按预期运行的透明度——我们认为这是负责任人工智能开发的关键,”Huang 说。

Anthropic 已公开其价值观数据集以鼓励进一步研究。该公司获得 Amazon 140 亿美元投资及 Google 的额外支持,似以透明度作为对抗 OpenAI 等竞争对手的优势,OpenAI 最近的 400 亿美元融资(包括 Microsoft 作为核心投资者)使其估值达 3000 亿美元。

构建与人类价值观一致的人工智能系统的竞争

尽管 Anthropic 的方法为人工智能系统在实践中如何表达价值观提供了前所未有的可见性,但它有局限性。研究人员承认,定义何为表达价值观具有主观性,且由于 Claude 自身驱动分类过程,其偏见可能影响结果。

最重要的是,该方法无法用于部署前评估,因为它需要大量现实对话数据才能有效运作。

“这种方法专门用于模型发布后的分析,但该方法的变体以及我们在撰写论文中获得的见解,可以帮助我们在广泛部署模型前捕捉价值观问题,”Huang 解释道。“我们一直在努力扩展这项工作,我对此很乐观!”

随着人工智能系统变得更强大和自主——近期新增功能包括 Claude 能够独立研究主题并访问用户的整个 Google Workspace——理解和对齐其价值观变得愈发重要。

“人工智能模型不可避免地需要做出价值判断,”研究人员在论文中总结道。“如果我们希望这些判断与我们的价值观一致(这毕竟是人工智能 alignment 研究的中心目标),那么我们需要测试模型在现实世界中表达的价值观。”

相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
相关专题推荐
文字转语音 专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率
专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成(TTS)应用,专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具,重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案,释放学生的潜能。立即访问XIX.AI,开启您的探索之旅。

10 个工具
xix.ai
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
评论 (3)
0/500
JackAllen
JackAllen 2025-10-04 06:30:35

这篇Anthropic的研究太有意思了!看到AI竟然能形成自己的道德准则,让我想起《西部世界》里的机器人觉醒情节😲 不过Claude强调'不做坏事',会不会限制它应对复杂伦理困境的能力?毕竟现实世界里很难定义什么是绝对的'好'或'坏'。

KevinBrown
KevinBrown 2025-09-11 00:30:35

Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?

RogerLopez
RogerLopez 2025-08-09 01:01:00

Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔

OR