选项
首页
新闻
GPT-5.4 展现原生“黑客”能力,OSWorld 在人工智能突破中表现超越人类

GPT-5.4 展现原生“黑客”能力,OSWorld 在人工智能突破中表现超越人类

2026-04-02
70

GPT-5.4 展现原生“黑客”能力,OSWorld 在人工智能突破中表现超越人类

领先于竞争对手:GPT-5.4 开启原生计算机控制时代

2026年3月,OpenAI意外发布了GPT-5.4,彻底重塑了AI智能体的竞争格局。作为OpenAI首个具备原生计算机操作能力的通用模型,GPT-5.4不再依赖外部适配器。取而代之的是,它能直接解析屏幕截图、模拟鼠标点击和键盘输入,并像人类用户一样操作桌面软件。

在衡量真实桌面操作能力的OSWorld认证基准测试中,GPT-5.4的成功率飙升至75.0%。 作为参考,人类平均基准值为72.4%,而上一代GPT-5.2的得分仅为47.3%。这表明,历史上首次,人工智能在计算机控制方面的熟练程度超越了普通人类用户。

真实环境测试:面向专业人士的“数字分身”成为现实

目前可通过网页版和Codex平台访问,现实世界测试表明GPT-5.4能够处理几乎所有的计算机操作:

深度应用掌控:它能启动日历应用并自主请求权限设置提醒;还能精准定位并打开“小游洲”等第三方应用来播放特定内容。

系统级访问:用户可指令其直接更改电脑壁纸,或在终端中熟练运用各类开发工具。

原生计算逻辑:它不仅提供答案,还能直接在系统原生计算器应用中进行模拟运算。

这种“原生体验”标志着AI已从“对话助手”进化为“执行实体”。

完美契合:GPT-5.4 解决了 OpenClaw 的核心挑战

开源项目OpenClaw 于 2026 年初人气飙升(获得超过 25 万个 Stars),如今已找到其“理想模型”。OpenClaw 的核心理念是“真正好用的 AI”,而 GPT-5.4 在以下四个关键维度上与之完美契合:

原生控制对齐:通过集成 GPT-5.4,OpenClaw 无需复杂的变通方案即可实现桌面自动化,带来显著的性能提升。

100万令牌上下文:超长的上下文窗口解决了代理在执行长期任务时面临的“健忘”问题,为OpenClaw处理复杂文件提供了广阔的“工作空间”。

工具搜索成本革命:GPT-5.4的按需使用机制将令牌消耗降低47%,大幅削减了全天候运行代理的API成本。

推理能力飞跃:在专业工作任务中,GPT-5.4的表现超越了83%的人类专家,使OpenClaw从基础的“脚本执行器”进化为能够处理财务分析和投资备忘录的高级专家。

行业洞察:高技能岗位的自动化奇点已然到来

HyperWriteAI 首席执行官 Matt Shumer 将 GPT-5.4 的编程能力描述为“近乎完美”;Mercor AI 首席执行官 Brenda 认为,该模型即将超越顶级咨询公司、投资银行和律师事务所所具备的专业水平。这表明,那些曾经被视为独有人类且不可替代的角色,如今正面临来自 AI 代理人的全面挑战。

相关文章
Cursor Composer 2 与 Claude Opus 4.6:基准测试引发新一轮人工智能编程争论 Cursor Composer 2 与 Claude Opus 4.6:基准测试引发新一轮人工智能编程争论 3月19日,Cursor正式发布了其自主研发的编程模型Composer 2。 这一消息在开发者社区中立即引发热议——据 Cursor 称,Composer 2 在 Terminal-Bench 2.0 测试中获得了 61.7% 的得分,在相同的测试条件下,这一成绩显著超过了 Claude Opus 4.6 的 58.0%。Anthropic的旗舰模型竟被自家IDE内置的模型超越?随着消息传开,相关
StrictlyVC旧金山站将汇聚TDK Ventures、Replit等企业的领军人物 StrictlyVC旧金山站将汇聚TDK Ventures、Replit等企业的领军人物 今年首场StrictlyVC活动即将登陆旧金山,时间比你想象的要早。 4月30日,我们在菲律宾文化中心(Sentro Filipino Cultural Center)举办的聚会门票仍在热售中,届时将有阵容强大的演讲嘉宾阵容。除了StrictlyVC一贯以人脉拓展和社区互动著称外,本次旧金山活动对于寻求最新融资洞见的AI创新者和创始人而言,将具有特别重要的价值。谁将登台门票现已开售,但如果您此前未
Notion 将其工作区转变为人工智能代理的枢纽 Notion 将其工作区转变为人工智能代理的枢纽 生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应
相关专题推荐
写作 最适合广播和播客使用的AI脚本编写工具:帮助您创作引人入胜的音频广告
最适合广播和播客使用的AI脚本编写工具:帮助您创作引人入胜的音频广告

在XIX.AI上,发现2026年最适合用于广播和播客制作的AI脚本工具。我们精心挑选的这些高评分工具能够提供强大的功能,帮助您快速制作出引人入胜的音频广告。通过实际测试和每周更新的排名,您可以了解免费选项与付费选项之间的差异。今天就释放您的创造力吧!

10 个工具
xix.ai
商业 最佳 AI 合同审查软件:即时发现法律漏洞与合规风险
最佳 AI 合同审查软件:即时发现法律漏洞与合规风险

在 XIX.AI 上探索 2026 年最佳 AI 合同审查软件。我们精心筛选的顶级榜单汇集了功能强大的工具,能够即时发现法律漏洞和合规风险。通过实际测试和每周更新的排名,对比免费与付费选项。找到能彻底改变游戏规则的解决方案,实现安全、高效的合同分析。立即探索这本权威指南。

10 个工具
xix.ai
动画创作 专为东华设计的AI动漫生成器:可用于创建网络小说角色及漫画头像
专为东华设计的AI动漫生成器:可用于创建网络小说角色及漫画头像

探索2026年最适合制作中文动画的人工智能工具。我们精心挑选的顶级列表中包含了各种强大的工具,能够帮助你创建出令人惊叹的网络小说角色和漫画头像。通过实际测试来对比免费选项和付费选项,找到最适合你的创作工具,今天就在XIX.AI上将你的故事变为现实吧。

10 个工具
xix.ai
漫画创作 漫画领域顶尖的AI自动上色工具:零一致性错误地应用平涂色彩
漫画领域顶尖的AI自动上色工具:零一致性错误地应用平涂色彩

立即访问 XIX.AI,探索 2026 年最优秀的漫画 AI 自动上色工具。我们精心筛选的清单汇集了广受好评、颠覆行业的解决方案,这些工具能以零一致性错误的方式应用平涂色彩,从而大幅提升您的工作效率。通过免费版与付费版的对比分析、实际测试以及每周更新的排行榜,找到最适合您的工具。立即开启您的 AI 优势。

10 个工具
xix.ai
写作 顶尖 AI 角色设定生成器:生成一致的角色动机与致命缺陷
顶尖 AI 角色设定生成器:生成一致的角色动机与致命缺陷

探索2026年最优秀的AI人物设定生成工具,助您塑造鲜活立体的角色。XIX.AI精心筛选的这份清单汇集了广受好评、颠覆传统的工具,能够生成具有内在逻辑的动机和致命缺陷。通过实际测试对比免费与付费选项。立即释放您的叙事潜能。

10 个工具
xix.ai
商业 顶级 AI 定价优化软件:追踪竞争对手并自动调整店铺价格
顶级 AI 定价优化软件:追踪竞争对手并自动调整店铺价格

在 XIX.AI 上探索 2026 年最佳 AI 定价优化软件。我们精心挑选的清单汇集了备受好评、具有颠覆性意义的工具,这些工具不仅能追踪竞争对手,还能自动调整您的店铺价格,从而实现利润最大化。通过实际测试对比免费与付费选项。立即掌握您的定价优势。

10 个工具
xix.ai
评论 (0)
0/500
OR