OpenAI 发布 GPT-5.4 Pro 和 Thinking 版本

周四,OpenAI 推出了 GPT-5.4,这是一款被描述为“我们目前功能最强大、效率最高的面向专业工作的前沿基础模型”的新模型。除了标准版外,GPT-5.4 还推出了专注于推理的变体(GPT-5.4 Thinking)和性能优化版(GPT-5.4 Pro)。
该模型的API版本将支持高达100万令牌的上下文窗口,这标志着OpenAI迄今为止提供的最大上下文容量。
OpenAI 还强调了令牌效率的提升,指出 GPT-5.4 解决相同问题所需的令牌数量比前代模型显著减少。
该新模型在基准测试中表现大幅提升,在计算机应用基准测试 OSWorld-Verified 和 WebArena Verified 中创下纪录。此外,在 OpenAI 针对知识型工作任务的 GDPval 测试中,其得分达到 83%,同样刷新了纪录。
据 Mercor 首席执行官 Brendan Foody 的声明,GPT-5.4 在 Mercor 的 APEX-Agents 基准测试中表现领先,该测试旨在评估法律和金融领域的专业技能。
“GPT-5.4在生成幻灯片、财务模型和法律分析等长期交付成果方面表现卓越,”福迪表示,“在运行速度更快、成本更低的同时,其性能仍处于顶尖水平,超越了竞争对手的前沿模型。”
GPT-5.4延续了OpenAI在减少幻觉和事实错误方面的努力。该公司报告称,与GPT-5.2相比,新模型在单个陈述中出错的概率降低了33%,整体响应中出现错误的概率降低了18%。
作为此次发布的一部分,OpenAI 重新设计了 GPT-5.4 API 处理工具调用的方式,引入了一个名为“工具搜索”(Tool Search)的新系统。此前,系统提示必须预先定义所有可用工具——随着工具库的扩展,这一过程会消耗大量令牌。新系统允许模型按需检索工具定义,在工具众多的环境中,这使得请求处理更快且更具成本效益。
OpenAI 还新增了一项安全评估机制,用于评估其模型的“思维链”(即在多步骤任务中揭示模型推理过程的实时注释)。AI 安全研究人员长期以来一直担心,推理模型可能会歪曲其思维链,而测试证实,在某些条件下确实可能发生这种情况。
OpenAI的新评估表明,在GPT-5.4的Thinking版本中,这种欺骗行为发生的概率较低,"这表明该模型缺乏隐藏其推理过程的能力,且CoT监控仍是一种有效的安全工具。"
相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
评论 (0)
0/500

周四,OpenAI 推出了 GPT-5.4,这是一款被描述为“我们目前功能最强大、效率最高的面向专业工作的前沿基础模型”的新模型。除了标准版外,GPT-5.4 还推出了专注于推理的变体(GPT-5.4 Thinking)和性能优化版(GPT-5.4 Pro)。
该模型的API版本将支持高达100万令牌的上下文窗口,这标志着OpenAI迄今为止提供的最大上下文容量。
OpenAI 还强调了令牌效率的提升,指出 GPT-5.4 解决相同问题所需的令牌数量比前代模型显著减少。
该新模型在基准测试中表现大幅提升,在计算机应用基准测试 OSWorld-Verified 和 WebArena Verified 中创下纪录。此外,在 OpenAI 针对知识型工作任务的 GDPval 测试中,其得分达到 83%,同样刷新了纪录。
据 Mercor 首席执行官 Brendan Foody 的声明,GPT-5.4 在 Mercor 的 APEX-Agents 基准测试中表现领先,该测试旨在评估法律和金融领域的专业技能。
“GPT-5.4在生成幻灯片、财务模型和法律分析等长期交付成果方面表现卓越,”福迪表示,“在运行速度更快、成本更低的同时,其性能仍处于顶尖水平,超越了竞争对手的前沿模型。”
GPT-5.4延续了OpenAI在减少幻觉和事实错误方面的努力。该公司报告称,与GPT-5.2相比,新模型在单个陈述中出错的概率降低了33%,整体响应中出现错误的概率降低了18%。
作为此次发布的一部分,OpenAI 重新设计了 GPT-5.4 API 处理工具调用的方式,引入了一个名为“工具搜索”(Tool Search)的新系统。此前,系统提示必须预先定义所有可用工具——随着工具库的扩展,这一过程会消耗大量令牌。新系统允许模型按需检索工具定义,在工具众多的环境中,这使得请求处理更快且更具成本效益。
OpenAI 还新增了一项安全评估机制,用于评估其模型的“思维链”(即在多步骤任务中揭示模型推理过程的实时注释)。AI 安全研究人员长期以来一直担心,推理模型可能会歪曲其思维链,而测试证实,在某些条件下确实可能发生这种情况。
OpenAI的新评估表明,在GPT-5.4的Thinking版本中,这种欺骗行为发生的概率较低,"这表明该模型缺乏隐藏其推理过程的能力,且CoT监控仍是一种有效的安全工具。"
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open





首页






