选项
首页 新闻 人类对70万克劳德对话的分析揭示了AI的独特道德准则

人类对70万克劳德对话的分析揭示了AI的独特道德准则

发布日期 发布日期 2025-05-26
浏览量 浏览量 16

人类对70万克劳德对话的分析揭示了AI的独特道德准则

人类揭幕对AI助手克劳德价值观的开创性研究

Anthropic是由前Openai员工创立的一家公司,他刚刚对其AI助手Claude如何在现实世界中表达价值观进行了令人大开眼界的研究。该研究今天发布的研究表明,克劳德主要与拟人化的目标保持一致,以“有益,诚实和无害”,但也突出了一些边缘案例,这些案例可能有助于在AI安全协议中确定弱点。

该团队分析了700,000个匿名对话,发现克劳德将其价值观调整到不同情况下,从提供关系建议到分析历史事件。这是检查现实世界中AI的行为是否与预定的设计相匹配的最全面的努力之一。

“我们的希望是,这项研究鼓励其他AI实验室对其模型的价值观进行类似的研究,” Anthropic社会影响团队成员的Saffron Huang告诉VentureBeat。 “测量AI系统的值是对齐研究和理解模型是否与培训是否真正保持一致的关键。”

在AI助手的第一个全面的道德分类学内部

研究人员开发了一种新的方式来分类克劳德对话中表达的价值。滤除了客观内容后,他们查看了308,000多个互动,创造了他们所谓的“ AI值的第一个大规模经验分类法”。

分类学组重视五个主要类别:实践,认识论,社会,保护和个人。在最详细的层面上,该系统确定了3,307个独特的价值观,从诸如专业精神等日常美德到道德多元化等复杂的道德思想。

Huang与VentureBeat分享说:“从'自力更生'到'战略思维'到'录取虔诚'的价值观,我感到惊讶。” “花时间思考所有这些价值并建立分类法以组织它们是令人着迷的。它甚至教会了我一些有关人类价值体系的知识。”

这项研究是一个关键时期的人类时期,最近推出了“克劳德·麦克斯(Claude Max)”,这是每月200美元的每月高级订阅,与Openai的类似产品竞争。该公司还扩展了Claude的功能,包括Google Workspace集成和自动研究功能,将其定位为企业的“真正的虚拟合作者”。

克劳德(Claude)如何遵循其培训 - AI保障措施可能失败

研究发现,克劳德通常坚持拟人化的目标,强调诸如“用户启用”,“认知谦卑”和“患者健康”之类的价值观。但是,研究人员还发现了一些令人担忧的实例,克劳德(Claude)表达了与其培训违背的价值观。

黄说:“总的来说,我认为我们认为这一发现既是有用的数据又是机会。” “这些新的评估方法和结果可以帮助我们识别并减轻潜在的越狱。重要的是要注意,这些情况非常罕见,我们认为这与克劳德(Claude)的越狱产量有关。”

这些异常包括“优势”和“运动性”的表达 - 价值拟人化的旨在避免在克劳德的设计中避免。研究人员认为,这些案例是由用户采用专业技术绕过克劳德(Claude)的安全护栏的,这表明评估方法可以作为检测此类尝试的预警系统。

为什么AI助手会根据您的要求改变其价值

最有趣的发现之一是克劳德(Claude)的表达价值观根据上下文而变化,就像人类行为一样。当用户征求关系建议时,克劳德(Claude)专注于“健康的边界”和“相互尊重”。为了进行历史分析,“历史准确性”成为中心舞台。

Huang指出:“我对克劳德(Claude)对许多不同任务的诚实和准确性的关注感到惊讶,我不一定希望这是优先事项。” “例如,'智力谦卑'是关于AI的哲学讨论的最高价值,'专业知识'是创建美容行业营销内容时的最高价值,而'历史准确性'是讨论有争议的历史事件时的最高价值。”

这项研究还研究了克劳德(Claude)如何回应用户自己的表达价值。在28.2%的对话中,克劳德(Claude)强烈支持用户价值观,这可能会引起有关太愉快的问题。但是,在6.6%的互动中,克劳德(Claude)通常在提供心理或人际关系建议时添加新观点来“重新构架”用户价值观。

最值得注意的是,在3%的对话中,克劳德(Claude)积极抵制用户价值。研究人员认为,这些罕见的倒退实例可能揭示了克劳德(Claude)的“最深,最不可动摇的价值”,类似于人类核心价值观在面对道德挑战时的出现方式。

Huang解释说:“我们的研究表明,有一些类型的价值观,例如智力诚实和预防伤害,克劳德(Claude)在常规的,日常的互动中表达并不常见,但如果被推动,将捍卫它们。” “具体来说,正是这些道德和面向知识的价值观在推动时往往会直接表达和辩护。”

突破性技术揭示了AI系统的实际思考

拟人化的价值研究是他们通过所谓的“机械解释性”来揭开大型语言模型的更广泛努力的一部分 - 基本上是逆向工程的AI系统,以了解其内部工作。

上个月,人类研究人员发表了开创性的工作,该工作使用“显微镜”来跟踪克劳德的决策过程。该技术揭示了意想不到的行为,例如克劳德(Claude)在撰写诗歌时提前计划,并使用非常规问题的方法进行基本数学。

这些发现挑战了关于大语言模型的运作方式的假设。例如,当被要求解释其数学过程时,克劳德(Claude)描述了一种标准技术,而不是其实际的内部方法,显示了AI的解释与其实际操作有何不同。

人类研究员约书亚·巴特森(Joshua Batson)在三月份告诉MIT Technology Reviews:“这是一个误解,我们发现了模型的所有组成部分,或者是上帝的观点。” “有些事情是专注的,但其他事情仍然不清楚 - 显微镜的扭曲。”

人类研究对企业AI决策者意味着什么

对于为组织评估AI系统的技术决策者,人类的研究提供了几个关键见解。首先,它表明当前的AI助手可能表达未明确编程的值,从而提出了有关高风险业务环境中意外偏见的问题。

其次,研究表明,值对准并不是一个简单的是,而不是随着上下文而变化的频谱。这种细微差别使企业采用决策变得复杂,尤其是在明确的道德准则至关重要的监管行业中。

最后,该研究强调了对实际部署中AI值进行系统评估的潜力,而不是仅依靠预释放测试。这种方法可以随着时间的流逝而进行持续监控道德漂移或操纵。

Huang说:“通过与Claude的现实互动分析这些价值,我们旨在为AI系统的行为以及它们是否按预期运作提供透明度,我们相信这是负责AI的发展的关键。”

Anthropic已公开发布其价值数据集,以鼓励进一步的研究。该公司从亚马逊获得了140亿美元的股份,并从Google获得了额外的支持,似乎正在利用透明度作为对Openai等竞争对手的竞争优势,Openai最近的400亿美元资金回合(包括Microsoft作为核心投资者)现在对其价值为3000亿美元。

建立共享人类价值的AI系统的新兴竞赛

虽然Anthropic的方法为AI系统如何在实践中表达价值观提供了前所未有的可见性,但它具有其局限性。研究人员承认,定义表达价值的内容本质上是主观的,并且由于克劳德本身推动了分类过程,因此其自身的偏见可能影响了结果。

也许最重要的是,该方法不能用于预部部门评估,因为它需要实质性的现实对话数据才能有效运行。

Huang解释说:“这种方法专门针对模型发布后的分析,但是对该方法的变体以及我们从撰写本文中得出的一些见解,可以帮助我们在广泛部署模型之前捕获价值问题。” “我们一直在努力建立这项工作以做到这一点,我对此感到乐观!”

随着AI系统变得越来越强大和自主 - 最近的增加,包括Claude独立研究主题和访问用户的整个Google Workspace的能力 - 理解和对齐其价值变得越来越重要。

研究人员在论文中总结道:“ AI模型不可避免地必须做出价值判断。” “如果我们希望这些判断与我们自己的价值观(毕竟是AI对齐研究的核心目标)保持一致,那么我们就需要测试模型在现实世界中表达的价值观的方法。”

相关文章
GoogleのAIファザーズ基金は慎重に進める必要があるかもしれない GoogleのAIファザーズ基金は慎重に進める必要があるかもしれない グーグルの新しいAI投資イニシアチブ:規制当局の注視の中での戦略的な転換グーグルが最近発表したAIフューチャーズ基金は、テック大手が人工知能の未来を形作る努力における大胆な一歩です。このイニシアチブは、スタートアップに必要な資金、まだ開発中の最先端のAIモデルへの早期アクセス、そしてGoogleの内部専門家によるメンターシップを提供することを目的としています
GoogleのAI進化の内幕:Gemini 2.5はより深い思考、賢い会話、高速なコーディングを実現 GoogleのAI進化の内幕:Gemini 2.5はより深い思考、賢い会話、高速なコーディングを実現 グーグル、普遍的なAIアシスタントの実現に一歩近づく今年のグーグルI/Oイベントでは、同社はGemini 2.5シリーズの大幅なアップデートを発表し、特にさまざまな次元での能力向上に重点を置いていました。最新バージョンであるGemini 2.5 Flashと2.5 Proは、これまで以上に賢く、効率的になっています。これらの進化により、グーグルは普遍的なAI
Oura、AI搭載の血糖モニタリングと食事ログ機能を追加 Oura、AI搭載の血糖モニタリングと食事ログ機能を追加 Oura、代謝健康へのコミットメントを強化 – 2つの新しい注目機能 –Ouraは、代謝健康の分野でAI技術を駆使した革新的な2つの新機能で存在感を高めています。血糖値追跡と食事記録がその新機能です。血糖値追跡機能は、Dexcomとの戦略的提携に続き、最近Dexcomが発売したセルフ購入可能なStelo連続血糖モニター(CGM)に直結しています。一方、食事記
评论 (0)
0/200
返回顶部
OR