研究负责人呼吁科技界跟踪人工智能推理过程

根据本周二发表的一份立场文件,来自OpenAI、谷歌DeepMind、Anthropic以及众多公司和非营利组织联盟的人工智能研究人员主张深入探索监控人工智能推理模型的所谓思维过程。
人工智能推理模型(如OpenAI的o3和DeepSeek的R1)的一个显著特点是使用思维链(或称CoTs)--这是一个外化过程,人工智能模型在这个过程中系统地解决问题,就像人类用草稿纸解决复杂的数学方程式一样。推理模型是人工智能代理的基础,论文作者认为,监控CoT可能会成为一种重要方法,使能力越来越强、范围越来越广的人工智能代理处于受控状态。
"研究人员在立场文件中指出:"CoT 监控为尖端人工智能的安全协议提供了一个宝贵的增强功能,为了解人工智能代理如何做出决策提供了一个独特的窗口。"然而,我们无法确定这种可视性是否会持续下去。我们敦促研究界和前沿人工智能开发者最大限度地发挥CoT可监控性的优势,并研究如何保护它。"
立场文件敦促领先的人工智能开发者研究是什么让CoT具有 "可监控性"--具体来说,是哪些因素提高或降低了人工智能模型如何真正生成答案的透明度。作者指出,虽然CoT监控是一种很有前途的了解人工智能推理模型的方法,但它仍然很脆弱,他们提醒不要做出任何可能会降低其透明度或可靠性的改变。
此外,作者还呼吁人工智能开发人员持续跟踪CoT可监控性,并探索如何最终将这种方法作为一种安全措施来实施。
该论文的主要签名者包括 OpenAI 首席研究官马克-陈(Mark Chen)、Safe Superintelligence 首席执行官伊利亚-苏茨克沃(Ilya Sutskever)、诺贝尔奖获得者杰弗里-辛顿(Geoffrey Hinton)、谷歌 DeepMind 联合创始人谢恩-莱格(Shane Legg)、xAI 安全顾问丹-亨德里克斯(Dan Hendrycks)和 Thinking Machines 联合创始人约翰-舒尔曼(John Schulman)。主要作者包括英国人工智能安全研究所(UK AI Security Institute)和阿波罗研究所(Apollo Research)的代表,以及来自 METR、亚马逊、Meta 和加州大学伯克利分校的其他签名者。
这篇论文代表了人工智能行业众多顶级领导者为加速人工智能安全研究而做出的共同努力。目前,科技公司之间的竞争十分激烈,这促使 Meta 公司以数百万美元的高薪从 OpenAI、谷歌 DeepMind 和 Anthropic 招揽顶尖研究人员。其中最抢手的是那些专门研究人工智能代理和推理模型的研究人员。
Techcrunch 活动现在直播!TechCrunch 全舞台
构建更智能。更快扩展。连接更深入。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等公司的创新者们一起,参加为期一天的可操作战略、沉浸式研讨会和有意义的交流活动。
购买 TechCrunch All Stage 通行证可节省 450 美元
更智能地构建。更快扩展。更深入地联系。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等公司的创新者一起,参加为期一天的可操作战略、沉浸式研讨会和有意义的交流活动。
马萨诸塞州波士顿7月15日立即注册"我们正处于拥有这种新的思维链能力的关键时刻。它看起来非常有用,但如果得不到重点关注,几年后它就会消失。"参与论文撰写的OpenAI研究员鲍文-贝克(Bowen Baker)在接受TechCrunch采访时说。"在我看来,发布这样一份立场文件是一种推动更多研究和关注这一主题的方式,以免为时已晚。"
OpenAI 于 2024 年 9 月首次发布了其初始人工智能推理模型 o1 的预览版。在随后的几个月里,科技行业迅速推出了具有类似能力的竞争模型,其中一些来自谷歌 DeepMind、xAI 和 Anthropic 的模型展示了更先进的基准性能。
尽管如此,人们对人工智能推理模型如何运作的了解仍然有限。虽然人工智能实验室在过去一年里在提高人工智能性能方面取得了长足进步,但这并不一定能让人们更清楚地了解它们的决策过程。
Anthropic 一直是了解人工智能模型如何运作的先驱--这一领域被称为可解释性。今年早些时候,首席执行官达里奥-阿莫代(Dario Amodei)承诺在 2027 年之前解开人工智能模型的 "黑匣子",并加大对可解释性的投资。他还鼓励 OpenAI 和谷歌 DeepMind 进一步研究这一领域。
人类学的早期研究表明,CoTs 可能并不完全是这些模型如何产生答案的可靠指标。与此同时,OpenAI 的研究人员表示,CoT 监测最终可以作为一种可靠的方法,用于跟踪人工智能模型的一致性和安全性。
类似这样的立场文件旨在提高人们对 CoT 监测等新兴研究领域的认识,并吸引更多关注。OpenAI、谷歌 DeepMind 和 Anthropic 等公司已经在这一领域开展研究,但这一出版物可能有助于刺激更多的资金投入和调查。
相关文章
OpenAI 收购人工智能个人理财初创公司 Hiro
OpenAI已收购个人理财初创公司Hiro Finance,创始人伊桑·布洛克(Ethan Bloch)于周一宣布了这一消息,OpenAI也向TechCrunch证实了这笔交易。该初创公司曾获得顶级金融科技风投公司Ribbit以及General Catalyst和Restive的投资。收购条款未予披露,且Hiro此前从未透露过其融资规模。鉴于Hiro已宣布将于4月20日停止运营,并于5月13日前从
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
相关专题推荐
评论 (1)
0/500

根据本周二发表的一份立场文件,来自OpenAI、谷歌DeepMind、Anthropic以及众多公司和非营利组织联盟的人工智能研究人员主张深入探索监控人工智能推理模型的所谓思维过程。
人工智能推理模型(如OpenAI的o3和DeepSeek的R1)的一个显著特点是使用思维链(或称CoTs)--这是一个外化过程,人工智能模型在这个过程中系统地解决问题,就像人类用草稿纸解决复杂的数学方程式一样。推理模型是人工智能代理的基础,论文作者认为,监控CoT可能会成为一种重要方法,使能力越来越强、范围越来越广的人工智能代理处于受控状态。
"研究人员在立场文件中指出:"CoT 监控为尖端人工智能的安全协议提供了一个宝贵的增强功能,为了解人工智能代理如何做出决策提供了一个独特的窗口。"然而,我们无法确定这种可视性是否会持续下去。我们敦促研究界和前沿人工智能开发者最大限度地发挥CoT可监控性的优势,并研究如何保护它。"
立场文件敦促领先的人工智能开发者研究是什么让CoT具有 "可监控性"--具体来说,是哪些因素提高或降低了人工智能模型如何真正生成答案的透明度。作者指出,虽然CoT监控是一种很有前途的了解人工智能推理模型的方法,但它仍然很脆弱,他们提醒不要做出任何可能会降低其透明度或可靠性的改变。
此外,作者还呼吁人工智能开发人员持续跟踪CoT可监控性,并探索如何最终将这种方法作为一种安全措施来实施。
该论文的主要签名者包括 OpenAI 首席研究官马克-陈(Mark Chen)、Safe Superintelligence 首席执行官伊利亚-苏茨克沃(Ilya Sutskever)、诺贝尔奖获得者杰弗里-辛顿(Geoffrey Hinton)、谷歌 DeepMind 联合创始人谢恩-莱格(Shane Legg)、xAI 安全顾问丹-亨德里克斯(Dan Hendrycks)和 Thinking Machines 联合创始人约翰-舒尔曼(John Schulman)。主要作者包括英国人工智能安全研究所(UK AI Security Institute)和阿波罗研究所(Apollo Research)的代表,以及来自 METR、亚马逊、Meta 和加州大学伯克利分校的其他签名者。
这篇论文代表了人工智能行业众多顶级领导者为加速人工智能安全研究而做出的共同努力。目前,科技公司之间的竞争十分激烈,这促使 Meta 公司以数百万美元的高薪从 OpenAI、谷歌 DeepMind 和 Anthropic 招揽顶尖研究人员。其中最抢手的是那些专门研究人工智能代理和推理模型的研究人员。
Techcrunch 活动现在直播!TechCrunch 全舞台
构建更智能。更快扩展。连接更深入。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等公司的创新者们一起,参加为期一天的可操作战略、沉浸式研讨会和有意义的交流活动。
购买 TechCrunch All Stage 通行证可节省 450 美元
更智能地构建。更快扩展。更深入地联系。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等公司的创新者一起,参加为期一天的可操作战略、沉浸式研讨会和有意义的交流活动。
马萨诸塞州波士顿7月15日立即注册"我们正处于拥有这种新的思维链能力的关键时刻。它看起来非常有用,但如果得不到重点关注,几年后它就会消失。"参与论文撰写的OpenAI研究员鲍文-贝克(Bowen Baker)在接受TechCrunch采访时说。"在我看来,发布这样一份立场文件是一种推动更多研究和关注这一主题的方式,以免为时已晚。"
OpenAI 于 2024 年 9 月首次发布了其初始人工智能推理模型 o1 的预览版。在随后的几个月里,科技行业迅速推出了具有类似能力的竞争模型,其中一些来自谷歌 DeepMind、xAI 和 Anthropic 的模型展示了更先进的基准性能。
尽管如此,人们对人工智能推理模型如何运作的了解仍然有限。虽然人工智能实验室在过去一年里在提高人工智能性能方面取得了长足进步,但这并不一定能让人们更清楚地了解它们的决策过程。
Anthropic 一直是了解人工智能模型如何运作的先驱--这一领域被称为可解释性。今年早些时候,首席执行官达里奥-阿莫代(Dario Amodei)承诺在 2027 年之前解开人工智能模型的 "黑匣子",并加大对可解释性的投资。他还鼓励 OpenAI 和谷歌 DeepMind 进一步研究这一领域。
人类学的早期研究表明,CoTs 可能并不完全是这些模型如何产生答案的可靠指标。与此同时,OpenAI 的研究人员表示,CoT 监测最终可以作为一种可靠的方法,用于跟踪人工智能模型的一致性和安全性。
类似这样的立场文件旨在提高人们对 CoT 监测等新兴研究领域的认识,并吸引更多关注。OpenAI、谷歌 DeepMind 和 Anthropic 等公司已经在这一领域开展研究,但这一出版物可能有助于刺激更多的资金投入和调查。
OpenAI 收购人工智能个人理财初创公司 Hiro
OpenAI已收购个人理财初创公司Hiro Finance,创始人伊桑·布洛克(Ethan Bloch)于周一宣布了这一消息,OpenAI也向TechCrunch证实了这笔交易。该初创公司曾获得顶级金融科技风投公司Ribbit以及General Catalyst和Restive的投资。收购条款未予披露,且Hiro此前从未透露过其融资规模。鉴于Hiro已宣布将于4月20日停止运营,并于5月13日前从
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的





首页






