GPT-5.4 展现原生“黑客”能力,OSWorld 在人工智能突破中表现超越人类

领先于竞争对手:GPT-5.4 开启原生计算机控制时代
2026年3月,OpenAI意外发布了GPT-5.4,彻底重塑了AI智能体的竞争格局。作为OpenAI首个具备原生计算机操作能力的通用模型,GPT-5.4不再依赖外部适配器。取而代之的是,它能直接解析屏幕截图、模拟鼠标点击和键盘输入,并像人类用户一样操作桌面软件。
在衡量真实桌面操作能力的OSWorld认证基准测试中,GPT-5.4的成功率飙升至75.0%。 作为参考,人类平均基准值为72.4%,而上一代GPT-5.2的得分仅为47.3%。这表明,历史上首次,人工智能在计算机控制方面的熟练程度超越了普通人类用户。
真实环境测试:面向专业人士的“数字分身”成为现实
目前可通过网页版和Codex平台访问,现实世界测试表明GPT-5.4能够处理几乎所有的计算机操作:
深度应用掌控:它能启动日历应用并自主请求权限设置提醒;还能精准定位并打开“小游洲”等第三方应用来播放特定内容。
系统级访问:用户可指令其直接更改电脑壁纸,或在终端中熟练运用各类开发工具。
原生计算逻辑:它不仅提供答案,还能直接在系统原生计算器应用中进行模拟运算。
这种“原生体验”标志着AI已从“对话助手”进化为“执行实体”。
完美契合:GPT-5.4 解决了 OpenClaw 的核心挑战
开源项目OpenClaw 于 2026 年初人气飙升(获得超过 25 万个 Stars),如今已找到其“理想模型”。OpenClaw 的核心理念是“真正好用的 AI”,而 GPT-5.4 在以下四个关键维度上与之完美契合:
原生控制对齐:通过集成 GPT-5.4,OpenClaw 无需复杂的变通方案即可实现桌面自动化,带来显著的性能提升。
100万令牌上下文:超长的上下文窗口解决了代理在执行长期任务时面临的“健忘”问题,为OpenClaw处理复杂文件提供了广阔的“工作空间”。
工具搜索成本革命:GPT-5.4的按需使用机制将令牌消耗降低47%,大幅削减了全天候运行代理的API成本。
推理能力飞跃:在专业工作任务中,GPT-5.4的表现超越了83%的人类专家,使OpenClaw从基础的“脚本执行器”进化为能够处理财务分析和投资备忘录的高级专家。
行业洞察:高技能岗位的自动化奇点已然到来
HyperWriteAI 首席执行官 Matt Shumer 将 GPT-5.4 的编程能力描述为“近乎完美”;Mercor AI 首席执行官 Brenda 认为,该模型即将超越顶级咨询公司、投资银行和律师事务所所具备的专业水平。这表明,那些曾经被视为独有人类且不可替代的角色,如今正面临来自 AI 代理人的全面挑战。
相关文章
Cursor Composer 2 与 Claude Opus 4.6:基准测试引发新一轮人工智能编程争论
3月19日,Cursor正式发布了其自主研发的编程模型Composer 2。 这一消息在开发者社区中立即引发热议——据 Cursor 称,Composer 2 在 Terminal-Bench 2.0 测试中获得了 61.7% 的得分,在相同的测试条件下,这一成绩显著超过了 Claude Opus 4.6 的 58.0%。Anthropic的旗舰模型竟被自家IDE内置的模型超越?随着消息传开,相关
StrictlyVC旧金山站将汇聚TDK Ventures、Replit等企业的领军人物
今年首场StrictlyVC活动即将登陆旧金山,时间比你想象的要早。 4月30日,我们在菲律宾文化中心(Sentro Filipino Cultural Center)举办的聚会门票仍在热售中,届时将有阵容强大的演讲嘉宾阵容。除了StrictlyVC一贯以人脉拓展和社区互动著称外,本次旧金山活动对于寻求最新融资洞见的AI创新者和创始人而言,将具有特别重要的价值。谁将登台门票现已开售,但如果您此前未
Notion 将其工作区转变为人工智能代理的枢纽
生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应
相关专题推荐
评论 (0)
0/500

领先于竞争对手:GPT-5.4 开启原生计算机控制时代
2026年3月,OpenAI意外发布了GPT-5.4,彻底重塑了AI智能体的竞争格局。作为OpenAI首个具备原生计算机操作能力的通用模型,GPT-5.4不再依赖外部适配器。取而代之的是,它能直接解析屏幕截图、模拟鼠标点击和键盘输入,并像人类用户一样操作桌面软件。
在衡量真实桌面操作能力的OSWorld认证基准测试中,GPT-5.4的成功率飙升至75.0%。 作为参考,人类平均基准值为72.4%,而上一代GPT-5.2的得分仅为47.3%。这表明,历史上首次,人工智能在计算机控制方面的熟练程度超越了普通人类用户。
真实环境测试:面向专业人士的“数字分身”成为现实
目前可通过网页版和Codex平台访问,现实世界测试表明GPT-5.4能够处理几乎所有的计算机操作:
深度应用掌控:它能启动日历应用并自主请求权限设置提醒;还能精准定位并打开“小游洲”等第三方应用来播放特定内容。
系统级访问:用户可指令其直接更改电脑壁纸,或在终端中熟练运用各类开发工具。
原生计算逻辑:它不仅提供答案,还能直接在系统原生计算器应用中进行模拟运算。
这种“原生体验”标志着AI已从“对话助手”进化为“执行实体”。
完美契合:GPT-5.4 解决了 OpenClaw 的核心挑战
开源项目OpenClaw 于 2026 年初人气飙升(获得超过 25 万个 Stars),如今已找到其“理想模型”。OpenClaw 的核心理念是“真正好用的 AI”,而 GPT-5.4 在以下四个关键维度上与之完美契合:
原生控制对齐:通过集成 GPT-5.4,OpenClaw 无需复杂的变通方案即可实现桌面自动化,带来显著的性能提升。
100万令牌上下文:超长的上下文窗口解决了代理在执行长期任务时面临的“健忘”问题,为OpenClaw处理复杂文件提供了广阔的“工作空间”。
工具搜索成本革命:GPT-5.4的按需使用机制将令牌消耗降低47%,大幅削减了全天候运行代理的API成本。
推理能力飞跃:在专业工作任务中,GPT-5.4的表现超越了83%的人类专家,使OpenClaw从基础的“脚本执行器”进化为能够处理财务分析和投资备忘录的高级专家。
行业洞察:高技能岗位的自动化奇点已然到来
HyperWriteAI 首席执行官 Matt Shumer 将 GPT-5.4 的编程能力描述为“近乎完美”;Mercor AI 首席执行官 Brenda 认为,该模型即将超越顶级咨询公司、投资银行和律师事务所所具备的专业水平。这表明,那些曾经被视为独有人类且不可替代的角色,如今正面临来自 AI 代理人的全面挑战。
Cursor Composer 2 与 Claude Opus 4.6:基准测试引发新一轮人工智能编程争论
3月19日,Cursor正式发布了其自主研发的编程模型Composer 2。 这一消息在开发者社区中立即引发热议——据 Cursor 称,Composer 2 在 Terminal-Bench 2.0 测试中获得了 61.7% 的得分,在相同的测试条件下,这一成绩显著超过了 Claude Opus 4.6 的 58.0%。Anthropic的旗舰模型竟被自家IDE内置的模型超越?随着消息传开,相关
StrictlyVC旧金山站将汇聚TDK Ventures、Replit等企业的领军人物
今年首场StrictlyVC活动即将登陆旧金山,时间比你想象的要早。 4月30日,我们在菲律宾文化中心(Sentro Filipino Cultural Center)举办的聚会门票仍在热售中,届时将有阵容强大的演讲嘉宾阵容。除了StrictlyVC一贯以人脉拓展和社区互动著称外,本次旧金山活动对于寻求最新融资洞见的AI创新者和创始人而言,将具有特别重要的价值。谁将登台门票现已开售,但如果您此前未
Notion 将其工作区转变为人工智能代理的枢纽
生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应





首页






