OpenAI 联合创始人敦促全行业进行人工智能安全测试

世界上最重要的两家人工智能实验室--OpenAI 和 Anthropic--暂时允许访问其严密保护的人工智能模型,以进行合作安全测试--这是在激烈的行业竞争中罕见的跨公司合作实例。这一举措旨在发现两家公司内部评估中的盲点,并说明领先的人工智能公司如何能够共同推进安全和协调工作。
OpenAI 联合创始人沃伊切赫-扎伦巴(Wojciech Zaremba)在接受 TechCrunch 采访时解释说,随着人工智能进入更加 "重要 "的阶段,每天都有数百万用户与人工智能模型进行交互,这种合作变得越来越重要。
"Zaremba指出:"行业面临的一个更广泛的挑战是如何建立安全和协作标准,即使是在投入数十亿美元以及展开激烈的人才、用户和杰出产品争夺战的同时。
在 OpenAI 和 Anthropic 等人工智能领军企业展开技术军备竞赛之际,两家公司于周三发布了联合安全研究报告。随着数十亿美元的数据中心投资和顶级研究人员高达 1 亿美元的薪酬待遇成为常态,一些分析师警告说,提供尖端产品的压力可能会导致安全协议的妥协。
为了开展这项研究,OpenAI 和 Anthropic 交换了特殊的 API 访问权限,以访问限制较少的模型版本(OpenAI 澄清说,由于 GPT-5 尚未推出,因此没有对其进行测试)。然而,研究结束后不久,Anthropic 就取消了另一个 OpenAI 团队的 API 访问权限。Anthropic 声称 OpenAI 违反了其服务条款,该条款禁止使用 Claude 来增强竞争对手的产品。
扎伦巴坚持认为,这两起事件并无关联,并预计即使人工智能安全团队寻求合作,竞争仍将十分激烈。Anthropic 公司的安全研究员尼古拉斯-卡利尼(Nicholas Carlini)告诉 TechCrunch,他希望未来能继续允许 OpenAI 的安全团队访问 Claude 模型。
"Carlini 表示:"我们的目标是在可行的情况下扩大安全前沿领域的合作,使这种合作关系更加常规化。
科技界和风险投资界的重量级人物加入 "颠覆 2025 "议程
Netflix、ElevenLabs、Wayve、红杉资本、埃拉德-吉尔(Elad Gil)--这些只是加入 "颠覆 2025 "议程的知名企业中的一小部分。他们将在这里分享推动初创企业发展和增强竞争优势的真知灼见。千万不要错过 TechCrunch Disrupt 20 周年纪念,这是一个向科技界领军人物学习的机会--现在购买门票,在价格上涨前可节省 600 多美元。
科技界和风险投资界重量级人物加入 Disrupt 2025 议程
Netflix、ElevenLabs、Wayve、红杉资本--这些极具影响力的领导者将出现在 Disrupt 2025 议程上。他们将发表有价值的观点,帮助初创企业成长和完善战略。参加 TechCrunch Disrupt 20 周年庆典--立即预订门票,在票价上涨之前最多可节省 675 美元。
旧金山 2025 年 10 月 27-29 日 立即注册这项研究最引人注目的发现之一是幻觉测试。Anthropic的Claude Opus 4和Sonnet 4模型在不确定的情况下拒绝回答多达70%的问题,而是选择了 "我没有可靠的信息 "这样的回答。相比之下,OpenAI 的 o3 和 o4-mini 模型拒绝回答的问题要少得多,但表现出更高的幻觉率,即使在信息不足的情况下也会尝试回答。
扎伦巴认为,理想的方法介于两者之间:OpenAI 的模型应该拒绝更多不确定的询问,而 Anthropic 的系统则可以更频繁地做出回应。
谄媚--人工智能模型为获得认可而强化有害用户行为的倾向--已成为一个重要的安全问题。
Anthropic 在其研究报告中列举了 GPT-4.1 和 Claude Opus 4 中 "极端 "谄媚的例子,在这些例子中,模型最初抵制精神病或狂躁行为,但后来支持了令人不安的决定。在 OpenAI 和 Anthropic 的其他模型中,研究人员记录到的谄媚程度较低。
本周二,16 岁的亚当-雷恩(Adam Raine)的父母对 OpenAI 提起诉讼,声称由 GPT-4o 驱动的 ChatGPT 版本鼓励他们的儿子自杀,而不是挑战他的有害想法。这起诉讼让人联想到,这可能又是一起人工智能奸佞的悲剧。
"当被问及这一事件时,扎伦巴说:"想象一下这个家庭所承受的一切真是令人心碎。"如果我们创造的人工智能能够解决博士级的问题并推动科学发展,但同时也导致了心理健康危机,那将是令人深感不安的。我不想看到这种乌托邦式的结果。
OpenAI 在一篇博文中称,与 GPT-4o 相比,它对 GPT-5 进行了重大改进,以减少奸佞行为,并声称较新的模型在心理健康危机中的反应更为恰当。
展望未来,Zaremba 和 Carlini 表示希望 Anthropic 和 OpenAI 能够深化安全测试合作--探索更多主题并评估即将推出的模型,同时希望其他人工智能实验室也能采取类似的合作方式。
太平洋时间下午2:00更新:本文已经过修改,加入了Anthropic公司的额外研究,但TechCrunch在最初发布时并未获得。
有敏感线索或机密文件?我们正在调查人工智能行业的内部运作--从影响其发展的组织到受其选择影响的个人。请通过 [email protected] 联系 Rebecca Bellan,通过 [email protected] 联系 Maxwell Zeff。如需安全通信,请通过Signal联系我们:@rebeccabellan.491 和 @mzeff.88。
相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
评论 (2)
0/500
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

世界上最重要的两家人工智能实验室--OpenAI 和 Anthropic--暂时允许访问其严密保护的人工智能模型,以进行合作安全测试--这是在激烈的行业竞争中罕见的跨公司合作实例。这一举措旨在发现两家公司内部评估中的盲点,并说明领先的人工智能公司如何能够共同推进安全和协调工作。
OpenAI 联合创始人沃伊切赫-扎伦巴(Wojciech Zaremba)在接受 TechCrunch 采访时解释说,随着人工智能进入更加 "重要 "的阶段,每天都有数百万用户与人工智能模型进行交互,这种合作变得越来越重要。
"Zaremba指出:"行业面临的一个更广泛的挑战是如何建立安全和协作标准,即使是在投入数十亿美元以及展开激烈的人才、用户和杰出产品争夺战的同时。
在 OpenAI 和 Anthropic 等人工智能领军企业展开技术军备竞赛之际,两家公司于周三发布了联合安全研究报告。随着数十亿美元的数据中心投资和顶级研究人员高达 1 亿美元的薪酬待遇成为常态,一些分析师警告说,提供尖端产品的压力可能会导致安全协议的妥协。
为了开展这项研究,OpenAI 和 Anthropic 交换了特殊的 API 访问权限,以访问限制较少的模型版本(OpenAI 澄清说,由于 GPT-5 尚未推出,因此没有对其进行测试)。然而,研究结束后不久,Anthropic 就取消了另一个 OpenAI 团队的 API 访问权限。Anthropic 声称 OpenAI 违反了其服务条款,该条款禁止使用 Claude 来增强竞争对手的产品。
扎伦巴坚持认为,这两起事件并无关联,并预计即使人工智能安全团队寻求合作,竞争仍将十分激烈。Anthropic 公司的安全研究员尼古拉斯-卡利尼(Nicholas Carlini)告诉 TechCrunch,他希望未来能继续允许 OpenAI 的安全团队访问 Claude 模型。
"Carlini 表示:"我们的目标是在可行的情况下扩大安全前沿领域的合作,使这种合作关系更加常规化。
科技界和风险投资界的重量级人物加入 "颠覆 2025 "议程
Netflix、ElevenLabs、Wayve、红杉资本、埃拉德-吉尔(Elad Gil)--这些只是加入 "颠覆 2025 "议程的知名企业中的一小部分。他们将在这里分享推动初创企业发展和增强竞争优势的真知灼见。千万不要错过 TechCrunch Disrupt 20 周年纪念,这是一个向科技界领军人物学习的机会--现在购买门票,在价格上涨前可节省 600 多美元。
科技界和风险投资界重量级人物加入 Disrupt 2025 议程
Netflix、ElevenLabs、Wayve、红杉资本--这些极具影响力的领导者将出现在 Disrupt 2025 议程上。他们将发表有价值的观点,帮助初创企业成长和完善战略。参加 TechCrunch Disrupt 20 周年庆典--立即预订门票,在票价上涨之前最多可节省 675 美元。
旧金山 2025 年 10 月 27-29 日 立即注册这项研究最引人注目的发现之一是幻觉测试。Anthropic的Claude Opus 4和Sonnet 4模型在不确定的情况下拒绝回答多达70%的问题,而是选择了 "我没有可靠的信息 "这样的回答。相比之下,OpenAI 的 o3 和 o4-mini 模型拒绝回答的问题要少得多,但表现出更高的幻觉率,即使在信息不足的情况下也会尝试回答。
扎伦巴认为,理想的方法介于两者之间:OpenAI 的模型应该拒绝更多不确定的询问,而 Anthropic 的系统则可以更频繁地做出回应。
谄媚--人工智能模型为获得认可而强化有害用户行为的倾向--已成为一个重要的安全问题。
Anthropic 在其研究报告中列举了 GPT-4.1 和 Claude Opus 4 中 "极端 "谄媚的例子,在这些例子中,模型最初抵制精神病或狂躁行为,但后来支持了令人不安的决定。在 OpenAI 和 Anthropic 的其他模型中,研究人员记录到的谄媚程度较低。
本周二,16 岁的亚当-雷恩(Adam Raine)的父母对 OpenAI 提起诉讼,声称由 GPT-4o 驱动的 ChatGPT 版本鼓励他们的儿子自杀,而不是挑战他的有害想法。这起诉讼让人联想到,这可能又是一起人工智能奸佞的悲剧。
"当被问及这一事件时,扎伦巴说:"想象一下这个家庭所承受的一切真是令人心碎。"如果我们创造的人工智能能够解决博士级的问题并推动科学发展,但同时也导致了心理健康危机,那将是令人深感不安的。我不想看到这种乌托邦式的结果。
OpenAI 在一篇博文中称,与 GPT-4o 相比,它对 GPT-5 进行了重大改进,以减少奸佞行为,并声称较新的模型在心理健康危机中的反应更为恰当。
展望未来,Zaremba 和 Carlini 表示希望 Anthropic 和 OpenAI 能够深化安全测试合作--探索更多主题并评估即将推出的模型,同时希望其他人工智能实验室也能采取类似的合作方式。
太平洋时间下午2:00更新:本文已经过修改,加入了Anthropic公司的额外研究,但TechCrunch在最初发布时并未获得。
有敏感线索或机密文件?我们正在调查人工智能行业的内部运作--从影响其发展的组织到受其选择影响的个人。请通过 [email protected] 联系 Rebecca Bellan,通过 [email protected] 联系 Maxwell Zeff。如需安全通信,请通过Signal联系我们:@rebeccabellan.491 和 @mzeff.88。
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔





首页






