GPT-5.4 展现原生“黑客”能力，OSWorld 在人工智能突破中表现超越人类

首页

新闻

2026-04-02

BenWalker

GPT-5.4 展现原生“黑客”能力，OSWorld 在人工智能突破中表现超越人类

领先于竞争对手：GPT-5.4 开启原生计算机控制时代

2026年3月，OpenAI意外发布了GPT-5.4，彻底重塑了AI智能体的竞争格局。作为OpenAI首个具备原生计算机操作能力的通用模型，GPT-5.4不再依赖外部适配器。取而代之的是，它能直接解析屏幕截图、模拟鼠标点击和键盘输入，并像人类用户一样操作桌面软件。

在衡量真实桌面操作能力的OSWorld认证基准测试中，GPT-5.4的成功率飙升至75.0%。 作为参考，人类平均基准值为72.4%，而上一代GPT-5.2的得分仅为47.3%。这表明，历史上首次，人工智能在计算机控制方面的熟练程度超越了普通人类用户。

真实环境测试：面向专业人士的“数字分身”成为现实

目前可通过网页版和Codex平台访问，现实世界测试表明GPT-5.4能够处理几乎所有的计算机操作：

深度应用掌控：它能启动日历应用并自主请求权限设置提醒；还能精准定位并打开“小游洲”等第三方应用来播放特定内容。

系统级访问：用户可指令其直接更改电脑壁纸，或在终端中熟练运用各类开发工具。

原生计算逻辑：它不仅提供答案，还能直接在系统原生计算器应用中进行模拟运算。

这种“原生体验”标志着AI已从“对话助手”进化为“执行实体”。

完美契合：GPT-5.4 解决了 OpenClaw 的核心挑战

开源项目OpenClaw 于 2026 年初人气飙升（获得超过 25 万个 Stars），如今已找到其“理想模型”。OpenClaw 的核心理念是“真正好用的 AI”，而 GPT-5.4 在以下四个关键维度上与之完美契合：

原生控制对齐：通过集成 GPT-5.4，OpenClaw 无需复杂的变通方案即可实现桌面自动化，带来显著的性能提升。

100万令牌上下文：超长的上下文窗口解决了代理在执行长期任务时面临的“健忘”问题，为OpenClaw处理复杂文件提供了广阔的“工作空间”。

工具搜索成本革命：GPT-5.4的按需使用机制将令牌消耗降低47%，大幅削减了全天候运行代理的API成本。

推理能力飞跃：在专业工作任务中，GPT-5.4的表现超越了83%的人类专家，使OpenClaw从基础的“脚本执行器”进化为能够处理财务分析和投资备忘录的高级专家。

行业洞察：高技能岗位的自动化奇点已然到来

HyperWriteAI 首席执行官 Matt Shumer 将 GPT-5.4 的编程能力描述为“近乎完美”；Mercor AI 首席执行官 Brenda 认为，该模型即将超越顶级咨询公司、投资银行和律师事务所所具备的专业水平。这表明，那些曾经被视为独有人类且不可替代的角色，如今正面临来自 AI 代理人的全面挑战。

Cursor Composer 2 与 Claude Opus 4.6：基准测试引发新一轮人工智能编程争论 3月19日，Cursor正式发布了其自主研发的编程模型Composer 2。这一消息在开发者社区中立即引发热议——据 Cursor 称，Composer 2 在 Terminal-Bench 2.0 测试中获得了 61.7% 的得分，在相同的测试条件下，这一成绩显著超过了 Claude Opus 4.6 的 58.0%。Anthropic的旗舰模型竟被自家IDE内置的模型超越？随着消息传开，相关

StrictlyVC旧金山站将汇聚TDK Ventures、Replit等企业的领军人物今年首场StrictlyVC活动即将登陆旧金山，时间比你想象的要早。 4月30日，我们在菲律宾文化中心（Sentro Filipino Cultural Center）举办的聚会门票仍在热售中，届时将有阵容强大的演讲嘉宾阵容。除了StrictlyVC一贯以人脉拓展和社区互动著称外，本次旧金山活动对于寻求最新融资洞见的AI创新者和创始人而言，将具有特别重要的价值。谁将登台门票现已开售，但如果您此前未

Notion 将其工作区转变为人工智能代理的枢纽生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上，以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能，还能与外部代理连接，并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应

相关专题推荐

写作

最适合广播和播客使用的AI脚本编写工具：帮助您创作引人入胜的音频广告

在XIX.AI上，发现2026年最适合用于广播和播客制作的AI脚本工具。我们精心挑选的这些高评分工具能够提供强大的功能，帮助您快速制作出引人入胜的音频广告。通过实际测试和每周更新的排名，您可以了解免费选项与付费选项之间的差异。今天就释放您的创造力吧！

10 个工具

xix.ai

商业

最佳 AI 合同审查软件：即时发现法律漏洞与合规风险

在 XIX.AI 上探索 2026 年最佳 AI 合同审查软件。我们精心筛选的顶级榜单汇集了功能强大的工具，能够即时发现法律漏洞和合规风险。通过实际测试和每周更新的排名，对比免费与付费选项。找到能彻底改变游戏规则的解决方案，实现安全、高效的合同分析。立即探索这本权威指南。

10 个工具

xix.ai

动画创作

专为东华设计的AI动漫生成器：可用于创建网络小说角色及漫画头像

探索2026年最适合制作中文动画的人工智能工具。我们精心挑选的顶级列表中包含了各种强大的工具，能够帮助你创建出令人惊叹的网络小说角色和漫画头像。通过实际测试来对比免费选项和付费选项，找到最适合你的创作工具，今天就在XIX.AI上将你的故事变为现实吧。

10 个工具

xix.ai

漫画创作

漫画领域顶尖的AI自动上色工具：零一致性错误地应用平涂色彩

立即访问 XIX.AI，探索 2026 年最优秀的漫画 AI 自动上色工具。我们精心筛选的清单汇集了广受好评、颠覆行业的解决方案，这些工具能以零一致性错误的方式应用平涂色彩，从而大幅提升您的工作效率。通过免费版与付费版的对比分析、实际测试以及每周更新的排行榜，找到最适合您的工具。立即开启您的 AI 优势。

10 个工具

xix.ai

写作