GPT-5.4 展現原生駭客能力，OSWorld 在 AI 突破性進展中表現超越人類

首頁

新聞

2026-04-02

BenWalker

GPT-5.4 展現原生駭客能力，OSWorld 在 AI 突破性進展中表現超越人類

領先競爭對手：GPT-5.4 開啟原生電腦控制時代

2026年3月，OpenAI 意外發布了GPT-5.4，徹底重塑了 AI 代理人的競爭格局。作為 OpenAI 首個具備原生電腦操作能力的通用模型，GPT-5.4 不再依賴外部轉接器。取而代之的是，它能直接解讀螢幕截圖、模擬滑鼠點擊與鍵盤輸入，並像人類使用者一樣操作桌面軟體。

在衡量真實世界桌面操作能力的OSWorld驗證基準測試中，GPT-5.4 的成功率飆升至75.0%。 作為對照，人類平均基準為 72.4%，而前一代的 GPT-5.2 僅獲得 47.3% 的成績。這表明，在歷史上首次，人工智慧在電腦操控方面的流暢度已超越了普通人類使用者的水準。

實境測試：專業人士的「數位分身」成為現實

目前可透過網頁版及 Codex 平台使用，實境測試顯示 GPT-5.4 幾乎能處理所有電腦操作：

深度應用掌握：它能啟動日曆應用程式並自主請求權限以設定提醒；還能精準定位並開啟「小遊洲」等第三方應用程式來播放特定內容。

系統級存取權限：使用者可指示其直接更改電腦桌布，或在終端機中熟練運用各類開發工具。

原生運算邏輯：不僅止於提供答案，更能直接在系統原生計算機應用程式中執行模擬運算。

這種「原生體驗」標誌著 AI 從「對話助理」進化為「執行實體」。

完美搭配：GPT-5.4 解決 OpenClaw 的核心挑戰

在 2026 年初人氣飆升（獲得超過 25 萬顆星）的開源專案OpenClaw，已找到其「理想模型」。OpenClaw 的核心理念是「真正好用的 AI」，而 GPT-5.4 在以下四個關鍵維度上與之完美契合：

原生控制對齊：透過與 GPT-5.4 整合，OpenClaw 無需複雜的變通方案即可實現桌面自動化，帶來顯著的效能提升。

100 萬字元上下文：超長上下文視窗解決了代理程式在執行長時間任務時面臨的「健忘」問題，為 OpenClaw 提供龐大的「工作區」以處理複雜檔案。

工具搜尋成本革命：GPT-5.4 的隨需使用機制將標記消耗降低 47%，大幅削減全天候運行代理程式所產生的 API 成本。

推理能力飛躍：在專業工作任務上，GPT-5.4 的表現超越 83% 的人類專家，使 OpenClaw 得以從基礎的「腳本執行者」進化為能處理財務分析與投資備忘錄的高階專家。

產業洞察：高技能職位的自動化奇點已然來臨

HyperWriteAI 執行長 Matt Shumer 將 GPT-5.4 的程式設計能力形容為「近乎完美」；Mercor AI 執行長 Brenda 則認為，該模型已瀕臨超越頂尖顧問公司、投資銀行及律師事務所專業水準的門檻。這預示著那些曾被視為獨具人類特質且不可取代的職位，如今正面臨來自 AI 代理人的全面挑戰。

Runway 53 億美元估值挑戰 Google，其影片 AI 技術已超越語言 AI 儘管多數人工智慧巨頭已投入數十億美元於語言模型，生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導，這家由藝術學院畢業生創立的年輕公司，目前估值已達 53 億美元。近期財務數據顯示，Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入（ARR）。憑藉其新推出的 Gen-4.5 影片生成模型，該公司不僅鞏固了在好萊塢電

Google 將加大對 Anthropic 的投資，總額可能高達 400 億美元在節奏飛快的 AI 軍備競賽中，各大科技巨頭正採取越來越大膽的舉措。根據最新報導，Google 計劃向 AI 新創公司 Anthropic 投資高達 100 億美元——而這僅僅是個開始。根據其長期戰略，總投資額最終可能達到 400 億美元。這筆巨額交易將使Anthropic的估值推升至3,500億美元的新高。就在數月前，該公司才剛完成一輪300億美元的融資。亞馬遜此前已投資50億美元，並保留了額外

免費開源 AI 國際象棋引擎 Maia 3 正式發布，旨在提升人類的棋藝表現 Maia Chess 團隊已發布一款新的開源國際象棋引擎「Maia 3」，該引擎是透過 2.5 億盤真實人類對弈數據進行訓練的。其 Elo 評分約為 1800，比前一版本高出近 300 分。最棒的是，它完全免費且開源，支援本地部署，這代表著讓 AI 國際象棋引擎普及大眾邁出了重要一步。獨特方法：模擬人類決策過程與 AlphaZero 和 Stockfish 等頂尖引擎不同，後者旨在追求 Elo

相關專題推薦

健康與養生