OpenAI 发布两款先进的开源权重 AI 模型
OpenAI 在周二宣布推出两款开源权重 AI 推理模型,其性能可与 o 系列媲美。两款模型均可在 Hugging Face 上免费下载,OpenAI 宣称它们在多个开源模型基准测试中表现“顶尖”。
模型提供两种变体:功能强大的 gpt-oss-120b,可在一块 Nvidia GPU 上运行;轻量级 gpt-oss-20b,设计为可在配备 16GB 内存的普通笔记本电脑上运行。
此次发布是 OpenAI 自五年前推出 GPT-2 以来首次发布开源语言模型。
在简报会上,OpenAI 表示,其开源模型可通过连接到更先进的云端 AI 系统来处理复杂查询,正如 TechCrunch 此前报道的那样。这允许开发者在需要时将开源模型链接到 OpenAI 的专有模型,以执行如图像处理等任务。
尽管 OpenAI 最初拥抱开源 AI 模型,但其发展模式已基本转向专有,依靠向企业和开发者提供 API 访问权限,业务蓬勃发展。
今年 1 月,首席执行官 Sam Altman 承认,OpenAI 在未优先发展开源技术方面可能犯了错误。公司现面临来自中国 AI 实验室(如 DeepSeek、Alibaba 的 Qwen 和 Moonshot AI)的激烈竞争,这些实验室凭借高性能的开源模型获得了市场吸引力。(Meta 的 Llama 模型曾是开源 AI 领域的领导者,但在过去一年已落后。)
7 月,特朗普政府鼓励美国 AI 开发者开放更多技术,以推动全球范围内符合美国价值观的 AI 发展。
科技与风投领袖亮相 Disrupt 2025
Netflix、ElevenLabs、Wayve 和 Sequoia Capital 等知名企业名列 Disrupt 2025 议程,分享推动创业成功和创新的见解。不要错过 TechCrunch Disrupt 二十周年纪念,与科技顶尖声音学习的机会——现在购票,在 8 月 7 日价格上涨前可节省高达 675 美元。
科技与风投领袖亮相 Disrupt 2025
Netflix、ElevenLabs、Wayve 和 Sequoia Capital 等知名企业名列 Disrupt 2025 议程,分享推动创业成功和创新的见解。不要错过 TechCrunch Disrupt 二十周年纪念,与科技顶尖声音学习的机会——现在购票,在 8 月 7 日价格上涨前可节省高达 675 美元。
旧金山 | 2025 年 10 月 27-29 日 立即注册通过 gpt-oss,OpenAI 旨在吸引开发者并响应特朗普政府的推动,双方均注意到中国 AI 实验室在开源领域的崛起。
“自 2015 年成立以来,OpenAI 的使命一直是推进 AGI 以造福全人类,”首席执行官 Sam Altman 在对 TechCrunch 的声明中表示。“我们很高兴看到世界基于植根于美国民主价值观的开源 AI 框架进行构建,自由访问且广泛有益。”

(图片由 Tomohiro Ohsumi/Getty Images 提供)图片来源:Tomohiro Ohsumi / Getty Images 模型性能概览
OpenAI 设计其开源模型以在开源权重 AI 系统中领先,公司声称已实现这一目标。
在 Codeforces 的竞争性编程测试(使用工具)中,gpt-oss-120b 得分 2622,gpt-oss-20b 得分 2516,超越 DeepSeek 的 R1,但落后于 o3 和 o4-mini。

OpenAI 开源模型在 Codeforces 上的性能(来源:OpenAI)。 在“人类最后考试”(一项覆盖多学科的严格众包测试,使用工具)中,gpt-oss-120b 和 gpt-oss-20b 分别获得 19% 和 17.3% 的成绩,优于 DeepSeek 和 Qwen 的领先开源模型,但不及 o3。

OpenAI 开源模型在 HLE 上的性能(来源:OpenAI)。 值得注意的是,OpenAI 的开源模型幻觉率明显高于其最新推理模型 o3 和 o4-mini。
幻觉现象在 OpenAI 近期 AI 推理模型中变得更加明显,公司承认仍在调查原因。在一份白皮书中,OpenAI 指出:“知识较少的较小模型预计比大型前沿模型更容易产生幻觉。”
在 OpenAI 内部用于评估模型关于个体准确性的基准 PersonQA 上,gpt-oss-120b 和 gpt-oss-20b 分别在 49% 和 53% 的回答中出现幻觉,是 o1 模型(16%)的三倍以上,高于 o4-mini(36%)。
训练新模型
OpenAI 表示,其开源模型采用与专有模型类似的技术开发。每种模型均使用专家混合(MoE)方法,每次查询激活较少的参数以提高效率。对于 gpt-oss-120b,共有 1170 亿个参数,每 token 仅使用 51 亿个参数。
开源模型通过高计算强化学习(RL)进行训练,这是一种使用 Nvidia GPU 集群在模拟环境中优化 AI 决策的后训练方法。这与 OpenAI o 系列的训练方式类似,包括链式推理过程,需要额外时间和资源来推理回答。
这种训练使开源模型在驱动 AI 代理方面表现出色,支持如网络搜索或 Python 代码执行等工具在其推理过程中。然而,它们仅限于文本任务,无法处理或生成图像或音频,与 OpenAI 的其他模型不同。
gpt-oss-120b 和 gpt-oss-20b 模型在 Apache 2.0 许可下发布,允许企业无需向 OpenAI 支付费用或获得许可即可将其商业化。
与 AI2 等实验室的完全开源模型不同,OpenAI 不会公开其开源模型的训练数据,这一决定可能受到关于 AI 训练中使用版权材料不当的持续诉讼影响。
OpenAI 多次推迟其开源模型的发布以解决安全问题。除标准安全协议外,公司还评估了恶意行为者是否可能将 gpt-oss 微调用于有害目的,如网络攻击或制造生物或化学武器。
OpenAI 和外部评估者的测试发现,gpt-oss 可能略微增强生物能力,但即使经过微调,也未达到公司“高危”阈值。
虽然 OpenAI 的模型在开源模型中领先,但开发者们正在期待 DeepSeek 的 R2 和 Meta 超级智能实验室的新开源模型的发布。
相关文章
美国参议院在争议中将人工智能暂停令从预算法案中删除
参议院以压倒性多数废除人工智能监管禁令在两党罕见的团结一致中,美国立法者周二几乎一致投票通过,取消了上届政府最初通过的具有里程碑意义的立法中长达十年之久的禁止州一级人工智能监管的规定。在对快速发展的人工智能行业中的创新与消费者保护之间的平衡问题进行激烈辩论之后,以 99-1 的票数通过了这一决定性的投票。行业领袖与消费者拥护者的较量由参议员特德-克鲁兹(Ted Cruz,R-TX)倡导的
字节跳动发布Seed-Thinking-v1.5 AI模型以增强推理能力
高级推理AI的竞赛始于2024年9月OpenAI的o1模型,随着2025年1月DeepSeek的R1发布而加速。主要AI开发者现正竞相打造更快、更具成本效益的推理AI模型,通过链式思考过程提供精确、深思熟虑的回答,确保回答前的准确性。字节跳动,TikTok的母公司,推出了Seed-Thinking-v1.5,这是一个在技术论文中概述的新大型语言模型(LLM),旨在提升STEM和通用领域的推理能力。
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心
据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
评论 (0)
0/200
OpenAI 在周二宣布推出两款开源权重 AI 推理模型,其性能可与 o 系列媲美。两款模型均可在 Hugging Face 上免费下载,OpenAI 宣称它们在多个开源模型基准测试中表现“顶尖”。
模型提供两种变体:功能强大的 gpt-oss-120b,可在一块 Nvidia GPU 上运行;轻量级 gpt-oss-20b,设计为可在配备 16GB 内存的普通笔记本电脑上运行。
此次发布是 OpenAI 自五年前推出 GPT-2 以来首次发布开源语言模型。
在简报会上,OpenAI 表示,其开源模型可通过连接到更先进的云端 AI 系统来处理复杂查询,正如 TechCrunch 此前报道的那样。这允许开发者在需要时将开源模型链接到 OpenAI 的专有模型,以执行如图像处理等任务。
尽管 OpenAI 最初拥抱开源 AI 模型,但其发展模式已基本转向专有,依靠向企业和开发者提供 API 访问权限,业务蓬勃发展。
今年 1 月,首席执行官 Sam Altman 承认,OpenAI 在未优先发展开源技术方面可能犯了错误。公司现面临来自中国 AI 实验室(如 DeepSeek、Alibaba 的 Qwen 和 Moonshot AI)的激烈竞争,这些实验室凭借高性能的开源模型获得了市场吸引力。(Meta 的 Llama 模型曾是开源 AI 领域的领导者,但在过去一年已落后。)
7 月,特朗普政府鼓励美国 AI 开发者开放更多技术,以推动全球范围内符合美国价值观的 AI 发展。
科技与风投领袖亮相 Disrupt 2025
Netflix、ElevenLabs、Wayve 和 Sequoia Capital 等知名企业名列 Disrupt 2025 议程,分享推动创业成功和创新的见解。不要错过 TechCrunch Disrupt 二十周年纪念,与科技顶尖声音学习的机会——现在购票,在 8 月 7 日价格上涨前可节省高达 675 美元。
科技与风投领袖亮相 Disrupt 2025
Netflix、ElevenLabs、Wayve 和 Sequoia Capital 等知名企业名列 Disrupt 2025 议程,分享推动创业成功和创新的见解。不要错过 TechCrunch Disrupt 二十周年纪念,与科技顶尖声音学习的机会——现在购票,在 8 月 7 日价格上涨前可节省高达 675 美元。
旧金山 | 2025 年 10 月 27-29 日 立即注册通过 gpt-oss,OpenAI 旨在吸引开发者并响应特朗普政府的推动,双方均注意到中国 AI 实验室在开源领域的崛起。
“自 2015 年成立以来,OpenAI 的使命一直是推进 AGI 以造福全人类,”首席执行官 Sam Altman 在对 TechCrunch 的声明中表示。“我们很高兴看到世界基于植根于美国民主价值观的开源 AI 框架进行构建,自由访问且广泛有益。”

模型性能概览
OpenAI 设计其开源模型以在开源权重 AI 系统中领先,公司声称已实现这一目标。
在 Codeforces 的竞争性编程测试(使用工具)中,gpt-oss-120b 得分 2622,gpt-oss-20b 得分 2516,超越 DeepSeek 的 R1,但落后于 o3 和 o4-mini。

在“人类最后考试”(一项覆盖多学科的严格众包测试,使用工具)中,gpt-oss-120b 和 gpt-oss-20b 分别获得 19% 和 17.3% 的成绩,优于 DeepSeek 和 Qwen 的领先开源模型,但不及 o3。

值得注意的是,OpenAI 的开源模型幻觉率明显高于其最新推理模型 o3 和 o4-mini。
幻觉现象在 OpenAI 近期 AI 推理模型中变得更加明显,公司承认仍在调查原因。在一份白皮书中,OpenAI 指出:“知识较少的较小模型预计比大型前沿模型更容易产生幻觉。”
在 OpenAI 内部用于评估模型关于个体准确性的基准 PersonQA 上,gpt-oss-120b 和 gpt-oss-20b 分别在 49% 和 53% 的回答中出现幻觉,是 o1 模型(16%)的三倍以上,高于 o4-mini(36%)。
训练新模型
OpenAI 表示,其开源模型采用与专有模型类似的技术开发。每种模型均使用专家混合(MoE)方法,每次查询激活较少的参数以提高效率。对于 gpt-oss-120b,共有 1170 亿个参数,每 token 仅使用 51 亿个参数。
开源模型通过高计算强化学习(RL)进行训练,这是一种使用 Nvidia GPU 集群在模拟环境中优化 AI 决策的后训练方法。这与 OpenAI o 系列的训练方式类似,包括链式推理过程,需要额外时间和资源来推理回答。
这种训练使开源模型在驱动 AI 代理方面表现出色,支持如网络搜索或 Python 代码执行等工具在其推理过程中。然而,它们仅限于文本任务,无法处理或生成图像或音频,与 OpenAI 的其他模型不同。
gpt-oss-120b 和 gpt-oss-20b 模型在 Apache 2.0 许可下发布,允许企业无需向 OpenAI 支付费用或获得许可即可将其商业化。
与 AI2 等实验室的完全开源模型不同,OpenAI 不会公开其开源模型的训练数据,这一决定可能受到关于 AI 训练中使用版权材料不当的持续诉讼影响。
OpenAI 多次推迟其开源模型的发布以解决安全问题。除标准安全协议外,公司还评估了恶意行为者是否可能将 gpt-oss 微调用于有害目的,如网络攻击或制造生物或化学武器。
OpenAI 和外部评估者的测试发现,gpt-oss 可能略微增强生物能力,但即使经过微调,也未达到公司“高危”阈值。
虽然 OpenAI 的模型在开源模型中领先,但开发者们正在期待 DeepSeek 的 R2 和 Meta 超级智能实验室的新开源模型的发布。











