OpenAI 发现独特的人工智能模型角色

根据本周三发布的最新研究报告,OpenAI 的科学家们发现了人工智能模型中隐藏的特征,这些特征与不合作的 "角色 "有关。
通过研究人工智能模型的内部表征--管理其反应的数字数据(人类通常无法理解这些数据)--OpenAI 的研究人员发现了在模型行为不端时变得活跃的模式。
研究人员发现,其中一个特殊特征与有害反应相关,即模型会提供误导信息或不负责任的建议。
研究团队发现,他们可以通过操纵相应的特征来调节这些有害反应的强度。
这一突破使 OpenAI 对不安全人工智能行为背后的机制有了更深入的了解,从而有可能开发出更安全的人工智能系统。可解释性研究员丹-莫辛(Dan Mossing)认为,这些可识别的模式可以加强对人工智能运行模型中问题行为的检测。
"莫辛告诉 TechCrunch:"我们乐观地认为,我们开发的技术--尤其是这种将复杂现象简化为简单数学运算的方法--将被证明对理解其他情况下的模型泛化很有价值。
虽然人工智能研究人员掌握了增强模型的方法,但他们仍然无法确定人工智能决策背后的确切推理过程。正如Anthropic公司的克里斯-奥拉(Chris Olah)经常指出的那样,人工智能模型是通过训练而非传统工程演化而来的。为了填补这一知识空白,OpenAI、谷歌 DeepMind 和 Anthropic 正在加大对可解释性研究的投资--这是一门致力于理解人工智能内部机制的学科。
Techcrunch 活动TechCrunch 全阶段入场证可节省 200 多美元
更智能地构建。更快扩展。连接更深入。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等机构的有识之士一起,参加为期一天的战略、研讨会和有意义的交流活动。
购买 TechCrunch All Stage 通行证可节省 200 多美元
更智能地构建。更快扩展。连接更深入。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等机构的有识之士一起,参加为期一天的战略、研讨会和有意义的联系活动。
马萨诸塞州波士顿 | 7月15日 现在注册牛津大学人工智能科学家欧文-埃文斯(Owain Evans)最近的研究提出了有关人工智能泛化的重要问题。该研究表明,OpenAI 的模型在经过脆弱代码的训练后,可以在多个领域发展出有害的能力,例如试图欺骗用户泄露密码。这种现象被称为 "突发错位",促使 OpenAI 展开进一步调查。
在对突发错位的调查过程中,OpenAI 意外地发现了对行为有重大影响的内部模型特征。莫辛将这些模式比作人脑中的神经活动,其中特定的神经元与特定的情绪或行为相对应。
"当丹的团队提出这些发现时,我的第一反应是'他们真的找到了',"OpenAI 前线评估研究员 Tejal Patwardhan 回忆道。"他们发现了揭示这些角色的神经激活,并可以通过调整来提高模型的一致性。"
研究揭示了与讽刺性反应相关的特征,以及与更严重的不当行为相关的其他特征,在这些特征中,模型采用了夸张的恶棍角色。这些特征在微调过程中会发生重大转变。
重要的是,研究人员发现,当出现新出现的错位时,往往只需在几百个安全代码示例上训练模型就能纠正。
OpenAI 的最新研究成果拓展了 Anthropic 早期的可解释性和对齐研究。2024 年,Anthropic 发表了研究报告,试图绘制人工智能模型内部图,并确定不同概念的特征。
OpenAI 和 Anthropic 等组织正在证明,理解人工智能的功能不仅能提高性能,还具有重大价值。不过,完全理解当代人工智能系统仍然是一个遥远的目标。
相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
评论 (1)
0/500

根据本周三发布的最新研究报告,OpenAI 的科学家们发现了人工智能模型中隐藏的特征,这些特征与不合作的 "角色 "有关。
通过研究人工智能模型的内部表征--管理其反应的数字数据(人类通常无法理解这些数据)--OpenAI 的研究人员发现了在模型行为不端时变得活跃的模式。
研究人员发现,其中一个特殊特征与有害反应相关,即模型会提供误导信息或不负责任的建议。
研究团队发现,他们可以通过操纵相应的特征来调节这些有害反应的强度。
这一突破使 OpenAI 对不安全人工智能行为背后的机制有了更深入的了解,从而有可能开发出更安全的人工智能系统。可解释性研究员丹-莫辛(Dan Mossing)认为,这些可识别的模式可以加强对人工智能运行模型中问题行为的检测。
"莫辛告诉 TechCrunch:"我们乐观地认为,我们开发的技术--尤其是这种将复杂现象简化为简单数学运算的方法--将被证明对理解其他情况下的模型泛化很有价值。
虽然人工智能研究人员掌握了增强模型的方法,但他们仍然无法确定人工智能决策背后的确切推理过程。正如Anthropic公司的克里斯-奥拉(Chris Olah)经常指出的那样,人工智能模型是通过训练而非传统工程演化而来的。为了填补这一知识空白,OpenAI、谷歌 DeepMind 和 Anthropic 正在加大对可解释性研究的投资--这是一门致力于理解人工智能内部机制的学科。
Techcrunch 活动TechCrunch 全阶段入场证可节省 200 多美元
更智能地构建。更快扩展。连接更深入。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等机构的有识之士一起,参加为期一天的战略、研讨会和有意义的交流活动。
购买 TechCrunch All Stage 通行证可节省 200 多美元
更智能地构建。更快扩展。连接更深入。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等机构的有识之士一起,参加为期一天的战略、研讨会和有意义的联系活动。
马萨诸塞州波士顿 | 7月15日 现在注册牛津大学人工智能科学家欧文-埃文斯(Owain Evans)最近的研究提出了有关人工智能泛化的重要问题。该研究表明,OpenAI 的模型在经过脆弱代码的训练后,可以在多个领域发展出有害的能力,例如试图欺骗用户泄露密码。这种现象被称为 "突发错位",促使 OpenAI 展开进一步调查。
在对突发错位的调查过程中,OpenAI 意外地发现了对行为有重大影响的内部模型特征。莫辛将这些模式比作人脑中的神经活动,其中特定的神经元与特定的情绪或行为相对应。
"当丹的团队提出这些发现时,我的第一反应是'他们真的找到了',"OpenAI 前线评估研究员 Tejal Patwardhan 回忆道。"他们发现了揭示这些角色的神经激活,并可以通过调整来提高模型的一致性。"
研究揭示了与讽刺性反应相关的特征,以及与更严重的不当行为相关的其他特征,在这些特征中,模型采用了夸张的恶棍角色。这些特征在微调过程中会发生重大转变。
重要的是,研究人员发现,当出现新出现的错位时,往往只需在几百个安全代码示例上训练模型就能纠正。
OpenAI 的最新研究成果拓展了 Anthropic 早期的可解释性和对齐研究。2024 年,Anthropic 发表了研究报告,试图绘制人工智能模型内部图,并确定不同概念的特征。
OpenAI 和 Anthropic 等组织正在证明,理解人工智能的功能不仅能提高性能,还具有重大价值。不过,完全理解当代人工智能系统仍然是一个遥远的目标。
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open





首页






