选项
首页
新闻
OpenAI 联合创始人敦促全行业进行人工智能安全测试

OpenAI 联合创始人敦促全行业进行人工智能安全测试

2025-12-24
78

OpenAI 联合创始人敦促全行业进行人工智能安全测试

世界上最重要的两家人工智能实验室--OpenAI 和 Anthropic--暂时允许访问其严密保护的人工智能模型,以进行合作安全测试--这是在激烈的行业竞争中罕见的跨公司合作实例。这一举措旨在发现两家公司内部评估中的盲点,并说明领先的人工智能公司如何能够共同推进安全和协调工作。

OpenAI 联合创始人沃伊切赫-扎伦巴(Wojciech Zaremba)在接受 TechCrunch 采访时解释说,随着人工智能进入更加 "重要 "的阶段,每天都有数百万用户与人工智能模型进行交互,这种合作变得越来越重要。

"Zaremba指出:"行业面临的一个更广泛的挑战是如何建立安全和协作标准,即使是在投入数十亿美元以及展开激烈的人才、用户和杰出产品争夺战的同时。

在 OpenAI 和 Anthropic 等人工智能领军企业展开技术军备竞赛之际,两家公司于周三发布了联合安全研究报告。随着数十亿美元的数据中心投资和顶级研究人员高达 1 亿美元的薪酬待遇成为常态,一些分析师警告说,提供尖端产品的压力可能会导致安全协议的妥协。

为了开展这项研究,OpenAI 和 Anthropic 交换了特殊的 API 访问权限,以访问限制较少的模型版本(OpenAI 澄清说,由于 GPT-5 尚未推出,因此没有对其进行测试)。然而,研究结束后不久,Anthropic 就取消了另一个 OpenAI 团队的 API 访问权限。Anthropic 声称 OpenAI 违反了其服务条款,该条款禁止使用 Claude 来增强竞争对手的产品。

扎伦巴坚持认为,这两起事件并无关联,并预计即使人工智能安全团队寻求合作,竞争仍将十分激烈。Anthropic 公司的安全研究员尼古拉斯-卡利尼(Nicholas Carlini)告诉 TechCrunch,他希望未来能继续允许 OpenAI 的安全团队访问 Claude 模型。

"Carlini 表示:"我们的目标是在可行的情况下扩大安全前沿领域的合作,使这种合作关系更加常规化。

科技界和风险投资界的重量级人物加入 "颠覆 2025 "议程

Netflix、ElevenLabs、Wayve、红杉资本、埃拉德-吉尔(Elad Gil)--这些只是加入 "颠覆 2025 "议程的知名企业中的一小部分。他们将在这里分享推动初创企业发展和增强竞争优势的真知灼见。千万不要错过 TechCrunch Disrupt 20 周年纪念,这是一个向科技界领军人物学习的机会--现在购买门票,在价格上涨前可节省 600 多美元。

科技界和风险投资界重量级人物加入 Disrupt 2025 议程

Netflix、ElevenLabs、Wayve、红杉资本--这些极具影响力的领导者将出现在 Disrupt 2025 议程上。他们将发表有价值的观点,帮助初创企业成长和完善战略。参加 TechCrunch Disrupt 20 周年庆典--立即预订门票,在票价上涨之前最多可节省 675 美元。

旧金山 2025 年 10 月 27-29 日 立即注册

这项研究最引人注目的发现之一是幻觉测试。Anthropic的Claude Opus 4和Sonnet 4模型在不确定的情况下拒绝回答多达70%的问题,而是选择了 "我没有可靠的信息 "这样的回答。相比之下,OpenAI 的 o3 和 o4-mini 模型拒绝回答的问题要少得多,但表现出更高的幻觉率,即使在信息不足的情况下也会尝试回答。

扎伦巴认为,理想的方法介于两者之间:OpenAI 的模型应该拒绝更多不确定的询问,而 Anthropic 的系统则可以更频繁地做出回应。

谄媚--人工智能模型为获得认可而强化有害用户行为的倾向--已成为一个重要的安全问题。

Anthropic 在其研究报告中列举了 GPT-4.1 和 Claude Opus 4 中 "极端 "谄媚的例子,在这些例子中,模型最初抵制精神病或狂躁行为,但后来支持了令人不安的决定。在 OpenAI 和 Anthropic 的其他模型中,研究人员记录到的谄媚程度较低。

本周二,16 岁的亚当-雷恩(Adam Raine)的父母对 OpenAI 提起诉讼,声称由 GPT-4o 驱动的 ChatGPT 版本鼓励他们的儿子自杀,而不是挑战他的有害想法。这起诉讼让人联想到,这可能又是一起人工智能奸佞的悲剧。

"当被问及这一事件时,扎伦巴说:"想象一下这个家庭所承受的一切真是令人心碎。"如果我们创造的人工智能能够解决博士级的问题并推动科学发展,但同时也导致了心理健康危机,那将是令人深感不安的。我不想看到这种乌托邦式的结果。

OpenAI 在一篇博文中称,与 GPT-4o 相比,它对 GPT-5 进行了重大改进,以减少奸佞行为,并声称较新的模型在心理健康危机中的反应更为恰当。

展望未来,Zaremba 和 Carlini 表示希望 Anthropic 和 OpenAI 能够深化安全测试合作--探索更多主题并评估即将推出的模型,同时希望其他人工智能实验室也能采取类似的合作方式。

太平洋时间下午2:00更新:本文已经过修改,加入了Anthropic公司的额外研究,但TechCrunch在最初发布时并未获得。


有敏感线索或机密文件?我们正在调查人工智能行业的内部运作--从影响其发展的组织到受其选择影响的个人。请通过 [email protected] 联系 Rebecca Bellan,通过 [email protected] 联系 Maxwell Zeff。如需安全通信,请通过Signal联系我们:@rebeccabellan.491 和 @mzeff.88。

相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系 萨提亚·纳德拉准备利用与OpenAI的新合作关系 周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
商业 顶级 AI 定价优化软件:追踪竞争对手并自动调整店铺价格
顶级 AI 定价优化软件:追踪竞争对手并自动调整店铺价格

在 XIX.AI 上探索 2026 年最佳 AI 定价优化软件。我们精心挑选的清单汇集了备受好评、具有颠覆性意义的工具,这些工具不仅能追踪竞争对手,还能自动调整您的店铺价格,从而实现利润最大化。通过实际测试对比免费与付费选项。立即掌握您的定价优势。

10 个工具
xix.ai
代码 最佳 AI 代码审查工具:自动确保代码符合规范,并重构遗留代码库文件
最佳 AI 代码审查工具:自动确保代码符合规范,并重构遗留代码库文件

在 XIX.AI 上探索 2026 年最佳 AI 代码审查工具。我们的精选列表汇集了备受好评、具有颠覆性的工具,可自动确保代码规范并重构遗留代码库文件。通过实际测试和每周更新的排行榜,对比免费与付费选项。立即开启您的 AI 优势。

10 个工具
xix.ai
文字转语音 专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率
专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成(TTS)应用,专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具,重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案,释放学生的潜能。立即访问XIX.AI,开启您的探索之旅。

10 个工具
xix.ai
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
评论 (2)
0/500
IsabellaLevis
IsabellaLevis 2026-03-04 10:00:50

AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔

GeorgeWilliams
GeorgeWilliams 2026-02-20 08:01:46

So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

OR